同样的老故事:关于代理编排工程

2026-03-18 · 原文链接

去年在一次黑客松上,有人问我:“我能用你家 20 美元的 AI 订阅做出 Facebook 吗?”我尴尬地笑了。

现在你可以。信息流、个人主页、点赞、评论、认证,一整个周末,再加一个 20 美元的 Claude 订阅就行。可说实话?当我看到它跑起来时,并没有惊叹,反而有点失落。因为这个问题一开始就问错了。没人需要另一个 Facebook 克隆。代码从来都不是让 Facebook 值得万亿美元的原因。

代码现在可以批量生产了。可整个行业仍在倾尽全力把“生产代码”提升 10%。

这种努力有个名字:代理编排工程。我自己也花过真功夫:接过钩子、设计过多代理流程、调过子代理。可我反复得出的结论是:有用的部分并不新,新的部分又撑不久,经济账也从来算不通。老故事换了个新 buzzword。

把行话都剥掉,看看真正起作用的是什么。

“背压机制”“上下文防火墙”“渐进式披露”“黄金原则”——几个月的博客、会议演讲、arXiv 论文。

但你看看团队几个月迭代后真正留下来的,总是同一套东西:测试、linter、CI、清晰的文档、git 纪律、架构契约。让代理能验证自己的输出。

这些书我们三十年前就有了。把“写好测试”称作 AI 革命,就像把“洗手”叫做医学突破。对,重要,但不新。

真正新颖的部分:子代理编排、推理三明治、基于 trace 的优化——肮脏的秘密是,多数复杂东西都可以拿掉,结果几乎不变。

Pi 这个自称“极简终端编码编排”的编码代理,啥都没有:没有子代理、没有计划模式、没有 MCP。只有模型、文件工具和 shell。人们每天都用它交付真实的软件。有时候,少反而更多。

价值曲线是阶跃函数。我们早就跨过去了。

任务要么完成,要么没完成。没有什么“完成了 73%”。模型在过去一年越过了这个阈值。这才是重要的跃迁。代理编排工程活在它之后的平台期——在一个微不足道的基线和 Terminal Bench 上最好的编排之间打磨,而一次模型升级就能免费给你 5–10 分。

下一个巨大跃迁来自下一个模型,而不是更多中间件。

没有乘数效应。

Google 把 85 亿次日搜索的 CTR 提升 1% = 每年约 15 亿美元。相同优化,数十亿次同质交易。这就是乘数效应。

编码没有。每个任务都是离散的。可靠性提高 15% = 普通开发者每隔几天多完成一个任务。而且不像广告,人还在回路里,他们会看输出、评判它,需要时会重跑。

AI 把代码供给大幅扩张了,边际成本趋近于零。可需求没变:值得解决的问题数量、愿意付费的用户、分发难度,全都没变。

一万个人这个周末都能做出 Facebook,但仍然只有一个值得用——那个有你朋友的。约束从来不是“我们能不能写出代码”。

还有一点我觉得这场编排讨论一直忽略:几乎零成本、每秒 1000 tokens 的 Opus 4.6,可能比今天价格下的 Opus 5 更重要。当推理几乎免费时,你不需要聪明的编排来让第一次就成功。并行跑 20 次,让 CI 选赢家。重试成本趋近于零时,蛮力胜过优雅。

我觉得这之所以流行,是因为这几乎是我们唯一能做的事。

我不是在否定。我也包括自己。

你训练不了模型,那是 Anthropic 和 OpenAI 的工作。你控制不了定价或推理速度。你改不了公司的产品市场契合。你也“变不出”用户。

但你可以改 AGENTS.md,可以加一个 hook,可以接一条子代理。于是你就做了,而且感觉像在工程,因为确实是:你写代码、测量、迭代。它有真实、有效工作的形状。

但我觉得我们应该诚实地问自己:这真是我们该把时间花在的地方吗?还是我们只是在优化手能摸到的东西,因为真正重要的东西——产品、分发、单元经济——更难也更吓人?

我没有一个干净的答案,但我觉得这个问题值得坐下来好好想。

如果只有一件事值得做:

让你的代码可被代理自证。类型系统。能快速失败的测试。代理能触发并读懂的 CI。模块之间清晰的契约。

这才是杠杆。每个花哨的编排组件都在试图复刻一个简单想法:给代理一个明确无歧义的信号,告诉它输出是否正确,然后让它迭代。如果你的代码库能做到这一点,代理会用任何编排把剩下的事情做完,不管多简单。

agent = model + harness

harness 这一项每个季度都在缩小。

agent ≈ model

现在的游戏是成本和速度。这两者都不是编排能解决的。

我知道有人会不同意,这没关系。如果你在做编排、它确实让你更快交付,那就继续。但如果你一直隐隐觉得自己花在“配置代理”上的时间比真正“用它去做事”还多,也许该退一步,问问真正的瓶颈是什么。

代码从来都不是难点。老故事。