同样的老故事：关于代理编排工程

去年在一次黑客松上，有人问我：“我能用你家 20 美元的 AI 订阅做出 Facebook 吗？”我尴尬地笑了。

现在你可以。信息流、个人主页、点赞、评论、认证，一整个周末，再加一个 20 美元的 Claude 订阅就行。可说实话？当我看到它跑起来时，并没有惊叹，反而有点失落。因为这个问题一开始就问错了。没人需要另一个 Facebook 克隆。代码从来都不是让 Facebook 值得万亿美元的原因。

代码现在可以批量生产了。可整个行业仍在倾尽全力把“生产代码”提升 10%。

这种努力有个名字：代理编排工程。我自己也花过真功夫：接过钩子、设计过多代理流程、调过子代理。可我反复得出的结论是：有用的部分并不新，新的部分又撑不久，经济账也从来算不通。老故事换了个新 buzzword。

把行话都剥掉，看看真正起作用的是什么。

“背压机制”“上下文防火墙”“渐进式披露”“黄金原则”——几个月的博客、会议演讲、arXiv 论文。

但你看看团队几个月迭代后真正留下来的，总是同一套东西：测试、linter、CI、清晰的文档、git 纪律、架构契约。让代理能验证自己的输出。

这些书我们三十年前就有了。把“写好测试”称作 AI 革命，就像把“洗手”叫做医学突破。对，重要，但不新。

真正新颖的部分：子代理编排、推理三明治、基于 trace 的优化——肮脏的秘密是，多数复杂东西都可以拿掉，结果几乎不变。

Pi 这个自称“极简终端编码编排”的编码代理，啥都没有：没有子代理、没有计划模式、没有 MCP。只有模型、文件工具和 shell。人们每天都用它交付真实的软件。有时候，少反而更多。

价值曲线是阶跃函数。我们早就跨过去了。

任务要么完成，要么没完成。没有什么“完成了 73%”。模型在过去一年越过了这个阈值。这才是重要的跃迁。代理编排工程活在它之后的平台期——在一个微不足道的基线和 Terminal Bench 上最好的编排之间打磨，而一次模型升级就能免费给你 5–10 分。

下一个巨大跃迁来自下一个模型，而不是更多中间件。

没有乘数效应。

Google 把 85 亿次日搜索的 CTR 提升 1% = 每年约 15 亿美元。相同优化，数十亿次同质交易。这就是乘数效应。

编码没有。每个任务都是离散的。可靠性提高 15% = 普通开发者每隔几天多完成一个任务。而且不像广告，人还在回路里，他们会看输出、评判它，需要时会重跑。

AI 把代码供给大幅扩张了，边际成本趋近于零。可需求没变：值得解决的问题数量、愿意付费的用户、分发难度，全都没变。

一万个人这个周末都能做出 Facebook，但仍然只有一个值得用——那个有你朋友的。约束从来不是“我们能不能写出代码”。

还有一点我觉得这场编排讨论一直忽略：几乎零成本、每秒 1000 tokens 的 Opus 4.6，可能比今天价格下的 Opus 5 更重要。当推理几乎免费时，你不需要聪明的编排来让第一次就成功。并行跑 20 次，让 CI 选赢家。重试成本趋近于零时，蛮力胜过优雅。

我觉得这之所以流行，是因为这几乎是我们唯一能做的事。

我不是在否定。我也包括自己。

你训练不了模型，那是 Anthropic 和 OpenAI 的工作。你控制不了定价或推理速度。你改不了公司的产品市场契合。你也“变不出”用户。

但你可以改 AGENTS.md，可以加一个 hook，可以接一条子代理。于是你就做了，而且感觉像在工程，因为确实是：你写代码、测量、迭代。它有真实、有效工作的形状。

但我觉得我们应该诚实地问自己：这真是我们该把时间花在的地方吗？还是我们只是在优化手能摸到的东西，因为真正重要的东西——产品、分发、单元经济——更难也更吓人？

我没有一个干净的答案，但我觉得这个问题值得坐下来好好想。

如果只有一件事值得做：

让你的代码可被代理自证。类型系统。能快速失败的测试。代理能触发并读懂的 CI。模块之间清晰的契约。

这才是杠杆。每个花哨的编排组件都在试图复刻一个简单想法：给代理一个明确无歧义的信号，告诉它输出是否正确，然后让它迭代。如果你的代码库能做到这一点，代理会用任何编排把剩下的事情做完，不管多简单。

agent = model + harness

harness 这一项每个季度都在缩小。

agent ≈ model

现在的游戏是成本和速度。这两者都不是编排能解决的。

我知道有人会不同意，这没关系。如果你在做编排、它确实让你更快交付，那就继续。但如果你一直隐隐觉得自己花在“配置代理”上的时间比真正“用它去做事”还多，也许该退一步，问问真正的瓶颈是什么。

代码从来都不是难点。老故事。