开源 Agent 搭配 Frontier Advisor：通过训练与 Harness 工程匹配前沿性能

结合开源 agent harness、前沿工具使用与 Fireworks 原生后训练，通过系统级编排提升性能。

TL;DR. 我们在 Harvey 的 Legal Agent Benchmark 上探索了两种系统级技术：它们能降低对单次前沿模型调用的依赖，同时以更低成本达到前沿级性能。

Harness 工程：一个开源 GLM 5.1 worker 会在能够改善结果的子任务上，自主触发 Claude Opus 4.7 作为可调用的 advisor；最终达到 18 / 100 all-pass，成本为 $368，而 Opus 端到端运行是 14 / 100，成本为 $954。

Fireworks 上的后训练：在 LAB 轨迹上对 Kimi K2.6 进行监督微调（SFT），达到 15 / 100 all-pass，成本为 $84；而强化微调（RFT）在 46 个 rollout step 中将 mean score 从 0.863 提升到 0.886。

这两种方法都运行在用于训练与服务的 Fireworks 平台上，消除了实验与生产之间传统意义上的落差。

“在 Fireworks 上，将开源 worker 模型与前沿工具使用、后训练结合起来，可以在 Legal Agent Benchmark 上缩小与前沿性能之间的大部分差距，同时提升成本效率与系统可控性。” — Harvey 应用研究负责人 Niko Grupen

Harvey all-pass 与成本 — 图 1：我们在 100 个任务的 LAB 切片上运行的各配置的 All-pass / 100 与总成本对比：Claude Opus 4.7（闭源基线）、Kimi K2.6（基础版与 SFT）、GLM 5.1（仅 worker），以及 GLM 5.1 + Opus 4.7 advisor。Harness 在 GLM 5.1 单独运行的基础上额外让 6 个任务完全通过，比 Opus 多 4 个；100 个任务总成本为 $368。大约是仅使用 GLM 5.1 worker 侧成本的 3 倍，但仍只有 Opus 单独运行 $954 成本的约 39%。GLM 5.1 + Opus 4.7 advisor 在成本和质量上都超过 Claude Opus。Harness all-pass vs. cost 在 100 任务切片上，以相同配置重复运行时，all-pass 标准误约为 2.5pp（约 2.5 个任务 / 100）。

测试

作为 Harvey LAB 的研究合作伙伴，Fireworks 先取了一个 100 任务的初始切片，并在最强的开源与闭源模型上运行；随后叠加了我们认为整个领域投入不足的两种干预：一个采用开源 worker 与 frontier advisor 的混合 harness，以及 Fireworks 原生后训练能力。

这个 100 任务切片是 1,250 任务 LAB 发布版的分布镜像子集，保留了完整 benchmark 的实践领域组合。这与 Harvey 在发布文章的 Initial Results 中采用的抽样方法一致。

这项实验之所以必要，是因为智能本身是不平整的：一个能解决前沿数学或竞赛级代码生成的模型，仍然可能在结构化法律起草上遇到困难；面对特定领域评估，没有捷径可走。对于业内争论了两年的这个问题，LAB 是我们所知最干净的公开实验场：

开源模型能做到前沿质量的法律 AI 吗？

联合团队的设置在同一个平台上运行答案的两半：Fireworks 在同一套基础设施上完成训练、评估与服务。因此，针对 LAB 微调出的模型，就是逐 bit 完全相同、用于承载生产流量的那个模型。无需跨越研究到生产之间的鸿沟。

开源在质量上具备竞争力，在成本上占据优势

在 LAB 的连续 mean-score 指标上，GLM 5.1 在我们评估的开源模型中排名最高，mean score 为 0.8921，直接站到了前沿模型旁边：Claude Opus 4.7 为 0.911，GPT-5.5 为 0.892。Kimi K2.6（0.863）和 DeepSeek V4 Pro（0.871）略低一些，但仍然明确具备服务生产级法律工作负载的可行性。

在 LAB 的 all-pass 指标，也就是生产就绪度指标上，闭源前沿模型保持小幅领先：Opus 4.7 为 14 / 100，GPT-5.5 为 11 / 100，GLM 5.1 为 12 / 100。这个差距正是本文后半部分的重点；下面描述的两种干预弥合了其中大部分差距。

成本是最醒目的结论。GLM 5.1 在 100 任务运行中以 $121 的成本达到 0.8921 mean。GPT-5.5 几乎相同的 0.892 成本为 $560。Claude Opus 4.7 的 0.911 mean 与 14 / 100 all-pass 运行成本为 $954，约为任何开源候选模型的 8 倍。

“客户提出的问题不再是‘我们如何在每个 query 上都用最聪明的模型。’而是‘我们如何在真正需要的 query 上获得前沿质量输出，并在不需要时使用一个我们可控的模型。’”

Harvey 在开源和闭源模型上的 mean score 与 all pass — 图 2：在 100 任务切片上，开源与闭源模型在 LAB 两项指标上的表现。左图：mean score，开源领先模型与闭源前沿模型之间的差距落在 2 分以内。右图：all-pass / 100，这是一项严格的生产指标，闭源前沿模型仍保持小幅领先。右图也是联合团队通过后训练和 multi-agent harness 干预获得提升的位置。图 2 — 开源与闭源模型的 mean score 和 all-pass 在 100 任务切片上，以相同配置重复运行时，mean score 标准误约为 0.009（约 1pp）；all-pass 标准误约为 2.5pp（约 2.5 个任务 / 100）。

Harvey LAB 上的质量与成本 — 图 3：100 任务 LAB 切片上的质量与总成本对比——紫色为开源模型，黑色为闭源模型。成本使用对数刻度，从左到右递减；y 轴越高越好。图 3 — LAB 上的质量与成本在 100 任务切片上，以相同配置重复运行时，mean score 标准误约为 0.009（约 1pp）。

混合 harness：开源 worker，将 frontier advisor 作为可调用工具

对一个法律任务来说，单次 LLM 调用是错误的工作单元：推理链很长，引用纪律不容出错，而在 all-pass 评分下，任何一个遗漏的标准都会让整个任务失败。为了解决这个问题，团队构建了一个小型、有明确取向的 multi-agent harness，以开源 worker 为核心。这个配置很直接：核心采用开放权重，编排逻辑可供团队检查与调优，前沿模型被作为可调用工具调用，而不是成为承重式依赖。

将 frontier advisor 作为可调用工具。 把 Opus 4.7 视为 worker 可在困难子任务上调用的 advisor，是 harness 节省成本的关键。GLM 5.1 worker 完成大部分推理、起草和工具调用。这里没有外部 router 或 orchestrator。worker 会在自己需要第二意见时主动拉入 advisor：检索、起草、验证。整个运行过程中，advisor 平均每个任务仅被调用 0.83 次——稀疏但有针对性。这捕获了端到端运行前沿模型的大部分质量提升，却只需要一小部分单 query 成本；同时也给了我们一个可调的成本/性能旋钮：在复杂事项上增加 advisor 调用，在常规事项上减少调用。

Harness trace 显示出一个可识别的模式。与仅使用 GLM 5.1 的运行相比，worker 的 turn count 明显上升：模型到达某个不确定步骤（通常在验证阶段，偶尔在起草中途），调用 advisor 获取指导或 review，然后带着响应提供的信息继续后续 trajectory。advisor 做的写作更少，做的 steering 更多；worker 则完成那些原本不知道自己该做的其余工作。稀疏的 advisor 调用，带来其后更密集的 worker 活动。

这个 harness 将 GLM 5.1 从 12 / 100 all-pass 提升到 18 / 100——高于 Claude Opus 4.7 的 14 / 100；100 个任务成本为 $368，约为 Opus $954 单独运行成本的 39%（图 1）。与 Opus 相比，在两个轴上都很清晰：−$586，+4 个 all-pass 任务。与仅 GLM 的基线相比，advisor 带来 +6 个 all-pass 任务，额外成本为 +$246——成本确实增加了，但这是在仍以开源 worker 为核心的前提下击败 Opus 的成本。

Fireworks 上的后训练

Fireworks 上的后训练，是 harness 工程在模型侧的对应物。Harness 改变模型在推理时被如何调用；后训练则改变模型本身，把一个强大的开源基础模型转化为领域专用模型。我们在 Kimi K2.6 上运行的两个实验，都提升了其在 100 任务切片上的 hold-out 分数：mean score 从 0.863 的基础版本提升到 SFT 后的 0.876，以及 RFT 后的 0.886。Fireworks 平台支持完整栈：SFT、RFT、全参数或 LoRA、自定义 loss function，以及专用基础设施，并且都在模型服务所用的同一个 endpoint 上完成。（至于这在实践中为什么重要——以及多数微调运行实际会在哪里失败——可参见 Fireworks 关于微调瓶颈的文章。）我们刻意选择 Kimi K2.6，因为它的万亿参数 mixture-of-experts 规模会迫使平台处理我们在生产中真正想运行的那类训练；让这件事变得可行所需的工程能力，是 Fireworks 关于扩展和优化前沿模型训练一文的主题。

监督微调（SFT）。 这个 recipe 是我们能想到的最简单方案：一方面因为 LAB trajectory 数据已经足够干净，可以直接使用；另一方面，我们想清楚展示当团队止步于 prompting 时，桌面上还剩下多少提升空间。让 Kimi K2.6 跑一遍 LAB，保留通过 LAB rubric criteria 的 completions（高质量 trajectories），然后把它们放进一个 Fireworks SFT job。不需要 reward model，不需要人工重新标注，也不需要架构变更。All-pass 从 11 / 100 提升到 15 / 100，mean score 从 0.863 提升到 0.876，而推理成本基本不变（100 任务运行中为 $84 vs. $75）。在栈的其他部分没有任何变化的情况下，额外 4 个任务完全通过——图 1 将这个 SFT 位移与 harness 配置和闭源基线放在一起展示。

强化微调（RFT）。 RFT 直接针对 LAB evaluator 训练，使用逐 criteria 的 rewards，而不是只模仿通过的 trajectories。当 SFT 开始进入平台期时，这是自然的下一步。我们用与 SFT 运行不同的一份训练集样本进行 RFT，基础模型同样是 Kimi K2.6。每个 rollout step 的信号，是在 LAB eval set 上连续评估得到的 100 任务 mean score。跨越 46 个 rollout step，平滑后的 mean score 从起始的 0.82 上升到最终 step 的 0.886；并在 step 43 到 44 之间从 0.864 跳到 0.882，单步超过 Kimi K2.6 基础版（0.863）和 SFT checkpoint（0.876）。RFT 比 SFT 噪声更大、计算更密集，但到 step 46 时，它恰好补上了单靠 SFT 留在桌面上的那些 criteria。

这两个实验共同说明了一件比任一单独结果更重要的事。Fireworks 能够在专用基础设施上，以 Kimi K2.6 的参数规模完成完整后训练，并通过逐 bit 完全一致的交接进入 serving endpoint；从 prompt 到 checkpoint 再到生产，都在同一个平台上完成。最终上线的模型，就是训练运行产出的那个模型——训练与服务之间没有数值漂移，没有第二套部署流水线，也没有研究到生产的鸿沟。支撑这种交接的数值对齐工作（大多数平台悄悄损失准确率的地方），详见 Fireworks 的 MoE 数值计算文章。

Harvey 在 kimi k2.6 上的 SFT 和 RFT 训练增量 — 图 4：在 100 任务 LAB 切片上，RFT 跨 46 个 rollout step 的 trajectory。浅粉色为原始逐 step mean score，粗粉色为平滑结果（w=7），最终 checkpoint 标记在 step 46。平滑序列在 step 43 和 44 之间从 0.864 跳到 0.882，单步超过 Kimi K2.6 基础版（0.863）和 SFT checkpoint（0.876）。最终平滑 mean score：0.886。训练增量：Kimi K2.6 上的 SFT 和 RFT 在 100 任务切片上，以相同配置重复运行时，mean score 标准误约为 0.009（约 1pp）。

“前沿模型是作为可调用工具出现的，而不是产品构建其上的依赖。”

Legal Agent Benchmark

Harvey 最近开源了 Legal Agent Benchmark (LAB)：这是一套覆盖 24 个实践领域的 1,250 个任务，并包含 75,000+ 条专家编写 rubric criteria 的 benchmark。每个任务都是基于客户事项环境的合伙人风格指令，包含一个必须交付的 deliverable 和一套 rubric。LAB 建立在 Harvey 早先的 BigLaw Bench 工作之上，并将其从短程 Q&A 扩展到长程、多文档、严格遵守引用规范的任务——这才是法律实践真正的样子。

LAB 如何为模型评分

LAB 使用两个指标。Mean score 是模型通过的 rubric criteria 占比，并在整个 suite 上取平均。0.90 mean 表示模型大约命中了每十条 criteria 中的九条。All-pass 则很严格：只有当某个任务 rubric 中的每一条 criteria 都通过时，该任务才计数。它是 LAB 用来衡量生产就绪度的评分指标，因为一份 deal-team report 如果只抓住了十个风险中的八个，并不是有 80% 的用处，而是在实质上不完整。

“一份 deal-team report 如果只抓住了十个风险中的八个，并不是有 80% 的用处，而是在实质上不完整。”

这两个指标讲述的是同一个模型的不同侧面。高 mean 但低 all-pass，说明这是一个总体很强、但会在严格 criteria 长尾上失败的模型。Mean 小幅提升但 all-pass 大幅跃升，则说明模型学会了把任务干净地收尾。我们在全文中同时报告两者，因为我们拉动的每个 lever 对它们的影响都不同。

我们与 Harvey 后训练前沿规模模型的第一步

这个 100 任务切片只是一个快照。联合团队已经在规划下一组实验：

•改进最佳开放权重模型上的后训练——我们正在探索通过更具信息量的 reward modeling 与增强训练技术，进一步提升领先开放权重模型（Kimi K2.6、GLM 5.1、DeepSeek V4 Pro）在 LAB 上的后训练效果。
•Harness 工程——将 advisor 机制扩展到更多实践领域，并研究 worker turn-count expansion（上文所述的行为模式）是否是合适的调优 lever，或者是否可以让更小的专用开源模型与 worker 并行，处理目前由 advisor 承接的子任务。我们也在研究 turn 之间的 context compaction，将其作为 LAB trajectory 长度下的成本与质量 lever。

共同主线是平台。这两项工作和本文中的训练与 harness 一样，都运行在服务生产模型的同一个 Fireworks endpoint 上。逐 bit 完全一致的交接让这个循环变得可处理：模型团队可以微调，对照 LAB 评估，并发布结果，而无需跨越研究到生产的鸿沟。我们接下来交付的所有东西，都会通过同一个循环。

在 LAB 上胜出的模式很直接：以开放权重为核心，只在会改变答案的地方调用前沿智能。

注：全文成本数字均为基于当前 serverless rates 的估算——开源模型（GLM 5.1、Kimi K2.6、DeepSeek V4 Pro）使用 Fireworks 价格，Anthropic（Claude）和 OpenAI（GPT）使用公开 API 价格。数字反映 100 任务切片上的总推理成本，并会随 token mix 和价格变化而变动。