首页 > AI技术 > 正文

过年了,聊聊AI和人文


各位朋友们,新年好啊!马年吉祥!

每次发公众号文章,取什么标题,都是个麻烦事,所以今天就随意一点了。咱们随便聊几句哈。

AI的一日千里

当今AI的发展,颇有点百家争鸣的味道。以大模型技术为源头,发展出各种细小的技术分支,它们纵横交错,处于动态的变化之中。说不定哪个时候,某个细小分支就会突然变得绚烂夺目。不管是从业者、创业者,还是投资人,都处于兴奋、期待与焦虑的情绪之中。一方面,巨大的机会窗口正在打开;另一方面,各种似是而非的概念,也让很多人看不清、看不懂。

今天我跟大家要聊的第一个话题,就是试图在概念上把这些细小的涓涓细流汇成几股主要的技术支流,以更好地把握它们。不过,限于个人的经验和知识,我不保证接下来讨论的是一个多么科学的分类法,也不能保证不重不漏 (MECE)。

首先,我们把AI技术先粗略地划分为两大类:一类用于处理非结构化的内容;另一类是替代人力,做自动化的「执行」。在第一类中,存在一种特殊的情形,也就是生成代码。考虑到代码的特殊地位,我把它单独拿出来讨论。

总之,在本文中,我们把AI技术分成三类:

  • 处理非结构化数据的AI。
  • 自主执行的AI。
  • AI Coding。

真实的世界是复杂的,事物之间的边界在很多时候是模糊的。这三个分类,在某些情况下仍然是有overlap的。而且,真实世界的AI产品,通常不能简单地归到三个类别之一,而是综合这几种类型的AI技术,统一向用户提供最舒适的体验。

1、处理非结构化数据的AI

在大模型出现以前,传统的软件系统只能处理结构化的数据。精确、没有歧义,同样的输入会带来同样的输出。在那之前,人的内容创作,通常不会被认为是计算机软件能够处理的任务类型。

现代AI改变了这一切,它开始解决以前的软件无法处理的问题。大模型(也包括扩散模型)接受模糊的指令,生成文本、图片、语音、视频。从第一性原理上说,模型是基于概率的,这也是造就了它与传统的软件截然不同的地方。

这种处理非结构化数据的能力,进一步衍生了两种典型的应用场景。一种是对于非结构化数据(主要是文本)的理解,生成总结或回答问题,比如RAG、DeepResearch。另一种则是生成创造性的数字内容。

这一类AI能力与「流程」的结合方式,一般来说,是将AI能力嵌入到现有的工作流程中去。以Dify、ComfyUI为代表,局部的、细粒度的内容创作流程已经可以和模型能力紧密结合。不过,对于产业级的高价值流程,比如影视制作、教育,则需要在更大尺度上进行流程的重塑。

2、自主执行的AI

由Manus启蒙、OpenClaw破圈,AI以智能体的方式,开始能够自主规划执行路径、自主调用工具,代替人类完成自动化任务。这使得现代AI能力的应用场景大大超越了内容创作领域。

与前一类AI能力相比,虽然听起来迥然不同,但在第一性原理上却具有大致相同的本质。首先,模型从自然语言的分布中学习到了生成非结构化文本序列的能力;接下来神奇的是,模型从语言中也学到了推理和规划的能力。或者一部分是出于偶然,人类的自然语言中本就存在着如何拆解任务、执行任务的模式;又或者是模型训练者刻意构造数据,刻意强化了模型在这方面的能力。

总之,模型一旦具备了规划、执行的能力,它便立即开始对数字世界产生实际影响。可以想象,只要配置合适的工具,模型下一步很快也会对物理世界产生影响。

但我们很容易想象出来,不管是驱动数字世界还是驱动物理世界,都需要「精确」的流程,而非模糊的序列。AI正在跨越这道门槛:从模糊的一端发号施令(主要通过自然语言),在数字世界甚至物理世界中精确执行。

精确执行,这似乎与模型的概率学本质相悖。在这里,随机性实际上表现为某种自主性:针对同一个任务目标,模型可以自主地找到可行的执行路径,甚至在一条路径碰到障碍时自动尝试新的路径。当然,它并不能保证总是成功,稳定性的隐患总是存在。

这也是为什么Manus、OpenClaw这类软件,很多时候用户都是在做某种「即兴处理」,随时随地创建各自不同的流程。这种模式的优势在于,对于流程的低成本的灵活调整的能力

这里的问题是:AI自主执行,毕竟不像生成内容,可以一下子生成多个版本进行错误对照。比如,在内容创作领域,你可以让AI一下子生成多张图片,让用户来选择哪一个更好。但AI的自主执行对于数字世界(甚至物理世界)是有实际影响的,因此执行的安全性就有非常迫切的要求,对于产品形式的设计也会有较大的影响。

3、AI Coding

用AI生成代码,本质上和前面第一类AI能力生成其他非结构化的序列,是一样的。但代码实在是太特殊了,它是数字世界的源头。

理论上说,只要我们能可控地生成代码,就能可控地执行任意流程,意味着可以在数字世界做任何事情。所以现在很多人在说,Coding Agent就是通用智能体,这有相当的道理。这一论断在现实中碰到的阻碍,目前看只有两个:

  • 第一,可控地生成代码,仍然是一件专业的事情,而非普通大众能够完成。
  • 第二,并非所有软件都有编程接口,可以使用代码来进行控制。

当然,第二个障碍是相对的。只要进入到某个系统层面上,拿到相应的系统权限,也没有什么软件是无法用代码控制的。难易程度的区别。

最大的障碍还是归结到第一个上面。有人说了,现在vibe coding很火了,不懂代码的人不是也能写代码了吗?你怎么说生成代码仍然是一件专业的事情呢?这里的关键在于「可控地」生成代码。不管是Skills还是Spec Kit,还是其他方案,目的都在于让生成代码这一过程变得可控,真正按照工程师预想的方式来完成。

除了可控性难题之外,还在于成本。写代码的成本已经降低非常多了,但对于这里讨论的话题来说,它还不够低。想象一个极端情况:假设由自然语言生成任意正确代码的成本,都能降低到在一分钟之内,甚至半分钟之内完成,那么前面讨论的第二类自主执行的AI能力,基本上就可以完全抛弃了。但在可见的未来,这仍然是不现实的,一个软件feature的实现,需要工程师以若干次commit的方式来完成,中间还要夹杂着人类智慧的验证。

不管怎么说,未来围绕着如何降低生成代码的成本这一课题进行持续优化,是AI发展的一个重要方向。

从另一个角度说,AI Coding的过程,是把模型的随机性隔离到构建阶段的一种方式。可以把它想象成一种必需的、让整个逻辑变得可行的一种有效手段。

AI能力的落地

我们前面聊到的三种AI技术能力,都涉及到与「流程」的关系:第一类AI能力与「流程」的结合方式,是将AI能力嵌入到现有的工作流程中去;第二种AI能力是根据任务目标和执行环境,对流程进行动态灵活的快速调整;第三类AI能力是通过生成代码的方式,稳定地(也可以是自主地)执行任意的流程。

这并非偶然。

在《技术的本质》一书中,作者把技术黑箱拆开,发现技术是实现目的的一种手段,它可以是一种装置、一种方法或一个流程。实际上装置内部也是「按流程处理」的,只是对外表现得像一个设备。比如半导体收音机,它的处理流程是,接收无线电信号,通过共振装置,然后放大信号,再分离出声音信号。可以说,它内部封装了一个处理信号的流程。总之,装置、方法、流程,它们本质上可以归于相同的范畴,是从不同侧面看待技术的结果。

在现代AI的术语中,我们经常称之为工作流 (workflow) ,有静态工作流,有动态工作流。AI native的软件,背后的工作流设计上,就是跟以前不一样的。有些产业级的工作流可能面临重塑。

从另一个角度看,前面三种AI能力,各有各的constraints。处理非结构化数据的AI,永远不可能达到100%,它需要人来做最后的把关;自主执行的AI,善于做即兴处理,但在可控性和安全性上存在短板;AI Coding允许把可控性和安全性以及其他一系列的问题提前到构建阶段来解决,但流程变长了,成本和门槛也变高了。

也正因为如此,才需要在AI落地的过程中,尽量发挥软件工程的价值。工程的本质就在于,在各种静态与动态约束之间,构建尽可能合理的解决方案,而非追求完美

超越技术的一些讨论

AI会带来失业吗?显然,短期内会的。程序员群体会是重灾区。这些年来,计算机软件技术飞速发展,优秀的工程师们构建了那么多结构良好的技术文档,开源了那么多优秀的代码及测试用例,让模型得以学到了非常强的编程能力。AI编程可以说是目前AI技术中应用最成熟的一个分支了,对生产力的提升肉眼可见。从这个角度来说,工程师们自己革了自己的命。

短期来看,生产率的提升并没有让每个人需要处理的工作变少了,而是让完成同样规模的事情所需要的人力更少了。当然了,优秀的工程师永远不可或缺。每一次技术迭代,善于学习的人总会快速上升到更抽象的层面上,去做更具创造性的工作。问题是,长期看会怎么样呢?需求规模增加的速度和生产率提升的速度,到底哪个更快呢?

未来有很多版本,有些版本让人兴奋,有些版本则令人忧伤。最终会回归到一个永恒的命题:人的价值如何在社会中彰显出来?

当前隐约有一种趋势,学校教育对于理工科越来越偏重,而人文学科遭遇相应的弱化、合并。这还算不上问题,也有历史阶段的合理性。但是,关于「人的价值」的学问,永远不应该随着技术的进步而受到轻视。因为,现代人类的精神救赎,很大一部分需要求诸自身,而非外在的物质、娱乐形式或神秘力量。

随着AI技术的不断进步,随着人们能够掌握更有威力的技术工具,也许,需要一种新的哲学来指导人与技术的互动吧。

(正文完)

其它精选文章


原创文章,转载请注明出处,并包含下面的二维码!否则拒绝转载!
本文链接:http://zhangtielei.com/posts/blog-ai-summary.html
欢迎关注我的个人微博:微博上搜索我的名字「张铁蕾」。
我的微信公众号: tielei-blog (张铁蕾)
上篇: 使用Bridgic长程自主模块+MCP,控制你的浏览器