归零者想重新启动宇宙,回到田园时代。
—— 出自《三体》
三年前,我曾经以为GPT的出现只不过是一场「温和」的变革。然而,技术的飞速进化超出了很多人的想象。大量技术词汇出现了又随即被淡忘,取而代之的则是不断被创造出来的新的词汇。
从AIGC到GenAI,从agent到agentic,当时间来到了被称为「智能体元年」的2025年的年底,我们又一次站在了十字路口。
在这样一个特殊的时刻,今天我就借这篇短文,谈一谈我所认为的几个重大问题。它们在AI Agent时代或将主导下一个软件开发范式。
我接下来要跟大家讨论的这几个重大问题分别是:
一个是Manus,一个是Claude Code。
这两个产品形态差异很大,面向的人群也非常不同,但对于智能体的发展来说,却是2025年最值得关注的进展。因为他们在各自的领域初步验证了一个假设:从现代生成式AI所涌现出来的智能,可以以agentic的方式在现实世界落地。至少,这种可能性的概率已经非常之大。
这个事之所以重要,是因为业界对于智能体落地的认知已经经历了过山车式的变化。
LLM刚出现的时候,很多人都异常兴奋。尤其是算法出身的人,坚信随着模型能力的提升,一切都将由模型来规划。业界也出现了一批理想化的智能体框架,希望借助LLM的力量,给智能体赋予角色,模拟一个团队、一家公司、一家医院,让虚拟世界的软件团队24小时不停地工作,生产出现实世界可用的产品。一句话,模型将解决一切,工程师将失业。
然而,当面对B端企业场景严苛的要求时,理想与现实发生了剧烈的碰撞。为了满足AI落地的稳定性,逐渐地,workflow成了主流。典型的做法是,先梳理线下已经存在的某个业务工作流,然后通过可视化搭建的方式把它搬到线上,在执行过程中调用几次大模型。典型的业界实现是Dify、n8n、Coze。同时,早期的那些追求理想的智能体框架,也纷纷推出了对workflow的支持。
到了这个时候,从事to B业务的AI技术团队,可能是相对悲观的。我身边就有一些资深的算法专家/科学家,他们也会认为,构建智能体只需要Dify就够了。说好的颠覆式创新没有了,变成了「旧瓶装新酒」式的微创新。AI的想象力直线掉落。
正是在过于乐观与过于悲观的两种情绪相互交织的时候,Manus和Claude Code出现了,它们的独特性也逐渐被人们开始认识到。这是两个差异非常大的产品,以至于我们还没有统一、共识的名称可以概括它们。动态工作流、agentic、deep agent、agentic workflow、通用agent,人们在不同的场合用不同的词汇来谈论它们。
你可能会问,为什么把Manus和Claude Code这两个差异如此巨大的产品放在一起讨论呢?它们之间有什么共同点?又与传统的软件有什么本质的不同呢?答案就是,它们都采用了一种高度agentic的方式来构建产品。软件的执行路径不再是由工程师提前预置(不管是通过代码还是可视化搭建),而是真正由LLM的自主性来驱动(自主性概念参见我之前的另一篇文章《AI Agent的概念、自主程度和抽象层次》)。
那我们再追问一句,到底agentic的方式带来了什么好处呢?答案可能是:灵活调整,极大降低软件开发成本。说实话,这个结论并非那么显而易见,甚至在Manus和Claude Code这两个案例中也表现得极为不同。首先,深入使用Claude Code的同学可能经常会感受到,面对业务需求的变化甚至突发情况,能够很快速、灵活地对产出物进行调整。以前需要加班改代码的情况,现在使用自然语言就基本搞定了。而Manus看起来有些不同。它的产品定位是通用agent,重点恰恰在于「通用」本身。没有预置的代码流程,完全由模型来规划任务路径,才能以较低的开发成本覆盖如此广泛的产品用例,这在LLM出现之前是不可想象的。
我们在之前的文章《AI Agent时代的软件开发范式》中讨论的一个推论——LLM带来的自主性会极大地降低软件开发成本,而且还会为用户带来真正长尾且低成本的定制化软件——正在逐渐走进现实。
总之,一种高度agentic的构建智能体的方式(也是构建未来软件系统的新方式),正在重新回到人们关注的中心。不过,我们会说,Manus和Claude Code只是两个「小火苗」,是因为它们对于agentic方式的验证还只是发生在局部。这两个产品都是to C的场景(其中Claude Code面向工程师群体),而C端用户天然具有更高的容错性。在真正从C端转向B端的时候,确定性与灵活性的矛盾就更加凸显。但真正的大幕已经拉开,agentic从通用能力到垂直场景的落地困局,正在出现松动。
传统的软件代码,开发成本高,但确定性强。在引入agentic方式后,即使准确率再高,也不可能是100%。
举一个直观的例子:假设执行一个任务分5步,每一步执行成功的概率是90%,那么整体执行成功的概率只有59%。这有点像N重伯努利试验,错误的累积效应是根植于概率学当中的,是不可能改变的。
这个问题初看起来没那么重要,但实际上影响一个重大的时代假设能否成立:AI到底能否吞噬传统软件?
传统软件可以以非常确定性的方式长时间运行而不至于崩溃。如果AI要取代传统软件,它也必须能够长时间运行,执行非常多的步骤,才能覆盖足够多的场景。而前面提到的「错误累积效应」却告诉我们,agentic的准确率提升得再高,它也无法做到长时间百分之百地稳定运行。
于是问题就演变成,如果没有agentic,AI就无法带来生产力的巨大提升,也就无法撼动传统软件的开发模式;但如果agentic由于错误累积效应而无法组装成长程智能体,那么它就没法变得真正有用,同样也无法撼动传统软件的根基。
然而,我们现实当中的系统其实也不是在一个完美的、永不出错的基础上构建起来的。我们手边的计算机系统就是如此。底层的硬件(比如CPU、缓存、内存)制造工艺再先进,也会出现各种扰动,“绝对不出错”的硬件在物理上是不存在的。但我们其实感受不到它们会出错的可能性。还有一个例子是网络通信。虽然在网络上传输信号会出现各种错误,但网络协议确保了上层看到的永远是一个可靠的信道。这归结于一系列工程方法,校验、冗余、重试、纠错等等机制。
这些工程方法有一个前提:错误是可以被明确检测出来的。不得不说,在AI智能体的领域,这个问题要困难得多。但是,仍然存在非常多的工程方法可以去借鉴,把稳定性的控制引入进来。
一旦找到可靠的、规模化的错误检测方法,带有agentic特性的长程智能体将迎来爆发。AI真正取代传统软件,也将指日可待。
LLM的能力,就如同水一样,会填满系统的任何「缝隙」。以Claude Code为例,比如我让它帮我提交一个代码改动,那么它必须借助git才能完成。确保这个任务能够完成的因素,主要是由git工具来贡献的。但如果我让它帮我修正一处代码bug,那么就不存在一个确定性的工具能够完成这个任务。这时候,模型将会填补工具的不足,做掉完成这个任务所需的任何其他工作(定位bug、修改代码、测试)。
当我们在编程中面对LLM这种柔性能力的时候,我们提供的工具越强,提供的经验越丰富,模型的自主性就更少一些,最终的确定性就越强一些;反之,我们提供的工具越弱,提供的经验越少,模型的自主性就发挥得更多一些。不管怎么说,在我们提供的「硬性」资源(工具、指令、例子、参考资料、经验等等)之外,模型总是会补足剩余缺少的部分,最终以某种程度完成任务。
换句话说,我们提供给模型的一切以及提供的方式,都会影响它发挥自身能力的程度和质量。除此之外,还有一个因素,所谓的「锯齿状智能」,模型在某些问题上能力强,在某些问题上能力弱,这个特点也对于我们如何使用它产生深深地影响。
驾驭这种不同以往的柔性且不规则的能力,并非易事。「顺应」它的能力边界才能做得更好。我们需要找到一个适应性极强的架构,在面对不同能力特点的模型,面对不同的资源配置情况,都能有一套工具和方法,来指导我们如何行动。这也是我们在设计Bridgic框架时始终在思考的一个问题。
总结一下,这个未来的适应性架构,需要具备三个层面的适应性:
在这个技术飞速发展的时代,有些人或许已经迷茫。过往的经验在飞快地重置、归零。
但与此同时,一个更大的世界正在创生,新一代的工程师则正处于这一进程的前沿。我们已经发现,模型在编程这一能力域上非常擅长。软件已经改变了世界,而软件的源头是代码。一旦编程这件事能够用agentic的方式规模化,那么万物的源头将会被彻底重置,进而改变整个世界。
《三体》中的归零者,试图让宇宙归零。他们的目的不是毁灭宇宙,而是要让宇宙继续存在。新一代的AI工程师们,试图颠覆传统软件开发范式的种种努力,也不是为了让软件消失,而是为了让它以更智能的方式继续存在。
我建了一个“Bridgic开源技术交流群”,后面会在群里发布项目的开发进展及计划,并讨论相关技术。感兴趣的朋友可以扫描下面的二维码进群。如果二维码过期,请加微信ID: zhtielei,备注“来自Bridgic社区”。
(正文完)
其它精选文章: