结合开源 agent harness、前沿工具使用与 Fireworks 原生后训练,通过系统级编排提升性能。
TL;DR. 我们在 Harvey 的 Legal Agent Benchmark 上探索了两种系统级技术:它们能降低对单次前沿模型调用的依赖,同时以更低成本达到前沿级性能。
Harness 工程:一个开源 GLM 5.1 worker 会在能够改善结果的子任务上,自主触发 Claude Opus 4.7 作为可调用的 advisor;最终达到 18 / 100 all-pass,成本为 $368,而 Opus 端到端运行是 14 / 100,成本为 $954。
Fireworks 上的后训练:在 LAB 轨迹上对 Kimi K2.6 进行监督微调(SFT),达到 15 / 100 all-pass,成本为 $84;而强化微调(RFT)在 46 个 rollout step 中将 mean score 从 0.863 提升到 0.886。
这两种方法都运行在用于训练与服务的 Fireworks 平台上,消除了实验与生产之间传统意义上的落差。
“在 Fireworks 上,将开源 worker 模型与前沿工具使用、后训练结合起来,可以在 Legal Agent Benchmark 上缩小与前沿性能之间的大部分差距,同时提升成本效率与系统可控性。” — Harvey 应用研究负责人 Niko Grupen

测试
作为 Harvey LAB 的研究合作伙伴,Fireworks 先取了一个 100 任务的初始切片,并在最强的开源与闭源模型上运行;随后叠加了我们认为整个领域投入不足的两种干预:一个采用开源 worker 与 frontier advisor 的混合 harness,以及 Fireworks 原生后训练能力。
这个 100 任务切片是 1,250 任务 LAB 发布版的分布镜像子集,保留了完整 benchmark 的实践领域组合。这与 Harvey 在发布文章的 Initial Results 中采用的抽样方法一致。
这项实验之所以必要,是因为智能本身是不平整的:一个能解决前沿数学或竞赛级代码生成的模型,仍然可能在结构化法律起草上遇到困难;面对特定领域评估,没有捷径可走。对于业内争论了两年的这个问题,LAB 是我们所知最干净的公开实验场:
开源模型能做到前沿质量的法律 AI 吗?
联合团队的设置在同一个平台上运行答案的两半:Fireworks 在同一套基础设施上完成训练、评估与服务。因此,针对 LAB 微调出的模型,就是逐 bit 完全相同、用于承载生产流量的那个模型。无需跨越研究到生产之间的鸿沟。
开源在质量上具备竞争力,在成本上占据优势
在 LAB 的连续 mean-score 指标上,GLM 5.1 在我们评估的开源模型中排名最高,mean score 为 0.8921,直接站到了前沿模型旁边:Claude Opus 4.7 为 0.911,GPT-5.5 为 0.892。Kimi K2.6(0.863)和 DeepSeek V4 Pro(0.871)略低一些,但仍然明确具备服务生产级法律工作负载的可行性。
在 LAB 的 all-pass 指标,也就是生产就绪度指标上,闭源前沿模型保持小幅领先:Opus 4.7 为 14 / 100,GPT-5.5 为 11 / 100,GLM 5.1 为 12 / 100。这个差距正是本文后半部分的重点;下面描述的两种干预弥合了其中大部分差距。
成本是最醒目的结论。GLM 5.1 在 100 任务运行中以 $121 的成本达到 0.8921 mean。GPT-5.5 几乎相同的 0.892 成本为 $560。Claude Opus 4.7 的 0.911 mean 与 14 / 100 all-pass 运行成本为 $954,约为任何开源候选模型的 8 倍。
“客户提出的问题不再是‘我们如何在每个 query 上都用最聪明的模型。’而是‘我们如何在真正需要的 query 上获得前沿质量输出,并在不需要时使用一个我们可控的模型。’”


混合 harness:开源 worker,将 frontier advisor 作为可调用工具
对一个法律任务来说,单次 LLM 调用是错误的工作单元:推理链很长,引用纪律不容出错,而在 all-pass 评分下,任何一个遗漏的标准都会让整个任务失败。为了解决这个问题,团队构建了一个小型、有明确取向的 multi-agent harness,以开源 worker 为核心。这个配置很直接:核心采用开放权重,编排逻辑可供团队检查与调优,前沿模型被作为可调用工具调用,而不是成为承重式依赖。
将 frontier advisor 作为可调用工具。 把 Opus 4.7 视为 worker 可在困难子任务上调用的 advisor,是 harness 节省成本的关键。GLM 5.1 worker 完成大部分推理、起草和工具调用。这里没有外部 router 或 orchestrator。worker 会在自己需要第二意见时主动拉入 advisor:检索、起草、验证。整个运行过程中,advisor 平均每个任务仅被调用 0.83 次——稀疏但有针对性。这捕获了端到端运行前沿模型的大部分质量提升,却只需要一小部分单 query 成本;同时也给了我们一个可调的成本/性能旋钮:在复杂事项上增加 advisor 调用,在常规事项上减少调用。
Harness trace 显示出一个可识别的模式。与仅使用 GLM 5.1 的运行相比,worker 的 turn count 明显上升:模型到达某个不确定步骤(通常在验证阶段,偶尔在起草中途),调用 advisor 获取指导或 review,然后带着响应提供的信息继续后续 trajectory。advisor 做的写作更少,做的 steering 更多;worker 则完成那些原本不知道自己该做的其余工作。稀疏的 advisor 调用,带来其后更密集的 worker 活动。
这个 harness 将 GLM 5.1 从 12 / 100 all-pass 提升到 18 / 100——高于 Claude Opus 4.7 的 14 / 100;100 个任务成本为 $368,约为 Opus $954 单独运行成本的 39%(图 1)。与 Opus 相比,在两个轴上都很清晰:−$586,+4 个 all-pass 任务。与仅 GLM 的基线相比,advisor 带来 +6 个 all-pass 任务,额外成本为 +$246——成本确实增加了,但这是在仍以开源 worker 为核心的前提下击败 Opus 的成本。
Fireworks 上的后训练
Fireworks 上的后训练,是 harness 工程在模型侧的对应物。Harness 改变模型在推理时被如何调用;后训练则改变模型本身,把一个强大的开源基础模型转化为领域专用模型。我们在 Kimi K2.6 上运行的两个实验,都提升了其在 100 任务切片上的 hold-out 分数:mean score 从 0.863 的基础版本提升到 SFT 后的 0.876,以及 RFT 后的 0.886。Fireworks 平台支持完整栈:SFT、RFT、全参数或 LoRA、自定义 loss function,以及专用基础设施,并且都在模型服务所用的同一个 endpoint 上完成。(至于这在实践中为什么重要——以及多数微调运行实际会在哪里失败——可参见 Fireworks 关于微调瓶颈的文章。)我们刻意选择 Kimi K2.6,因为它的万亿参数 mixture-of-experts 规模会迫使平台处理我们在生产中真正想运行的那类训练;让这件事变得可行所需的工程能力,是 Fireworks 关于扩展和优化前沿模型训练一文的主题。
监督微调(SFT)。 这个 recipe 是我们能想到的最简单方案:一方面因为 LAB trajectory 数据已经足够干净,可以直接使用;另一方面,我们想清楚展示当团队止步于 prompting 时,桌面上还剩下多少提升空间。让 Kimi K2.6 跑一遍 LAB,保留通过 LAB rubric criteria 的 completions(高质量 trajectories),然后把它们放进一个 Fireworks SFT job。不需要 reward model,不需要人工重新标注,也不需要架构变更。All-pass 从 11 / 100 提升到 15 / 100,mean score 从 0.863 提升到 0.876,而推理成本基本不变(100 任务运行中为 $84 vs. $75)。在栈的其他部分没有任何变化的情况下,额外 4 个任务完全通过——图 1 将这个 SFT 位移与 harness 配置和闭源基线放在一起展示。
强化微调(RFT)。 RFT 直接针对 LAB evaluator 训练,使用逐 criteria 的 rewards,而不是只模仿通过的 trajectories。当 SFT 开始进入平台期时,这是自然的下一步。我们用与 SFT 运行不同的一份训练集样本进行 RFT,基础模型同样是 Kimi K2.6。每个 rollout step 的信号,是在 LAB eval set 上连续评估得到的 100 任务 mean score。跨越 46 个 rollout step,平滑后的 mean score 从起始的 0.82 上升到最终 step 的 0.886;并在 step 43 到 44 之间从 0.864 跳到 0.882,单步超过 Kimi K2.6 基础版(0.863)和 SFT checkpoint(0.876)。RFT 比 SFT 噪声更大、计算更密集,但到 step 46 时,它恰好补上了单靠 SFT 留在桌面上的那些 criteria。
这两个实验共同说明了一件比任一单独结果更重要的事。Fireworks 能够在专用基础设施上,以 Kimi K2.6 的参数规模完成完整后训练,并通过逐 bit 完全一致的交接进入 serving endpoint;从 prompt 到 checkpoint 再到生产,都在同一个平台上完成。最终上线的模型,就是训练运行产出的那个模型——训练与服务之间没有数值漂移,没有第二套部署流水线,也没有研究到生产的鸿沟。支撑这种交接的数值对齐工作(大多数平台悄悄损失准确率的地方),详见 Fireworks 的 MoE 数值计算文章。

“前沿模型是作为可调用工具出现的,而不是产品构建其上的依赖。”
Legal Agent Benchmark
Harvey 最近开源了 Legal Agent Benchmark (LAB):这是一套覆盖 24 个实践领域的 1,250 个任务,并包含 75,000+ 条专家编写 rubric criteria 的 benchmark。每个任务都是基于客户事项环境的合伙人风格指令,包含一个必须交付的 deliverable 和一套 rubric。LAB 建立在 Harvey 早先的 BigLaw Bench 工作之上,并将其从短程 Q&A 扩展到长程、多文档、严格遵守引用规范的任务——这才是法律实践真正的样子。
LAB 如何为模型评分
LAB 使用两个指标。Mean score 是模型通过的 rubric criteria 占比,并在整个 suite 上取平均。0.90 mean 表示模型大约命中了每十条 criteria 中的九条。All-pass 则很严格:只有当某个任务 rubric 中的每一条 criteria 都通过时,该任务才计数。它是 LAB 用来衡量生产就绪度的评分指标,因为一份 deal-team report 如果只抓住了十个风险中的八个,并不是有 80% 的用处,而是在实质上不完整。
“一份 deal-team report 如果只抓住了十个风险中的八个,并不是有 80% 的用处,而是在实质上不完整。”
这两个指标讲述的是同一个模型的不同侧面。高 mean 但低 all-pass,说明这是一个总体很强、但会在严格 criteria 长尾上失败的模型。Mean 小幅提升但 all-pass 大幅跃升,则说明模型学会了把任务干净地收尾。我们在全文中同时报告两者,因为我们拉动的每个 lever 对它们的影响都不同。
我们与 Harvey 后训练前沿规模模型的第一步
这个 100 任务切片只是一个快照。联合团队已经在规划下一组实验:
- •改进最佳开放权重模型上的后训练——我们正在探索通过更具信息量的 reward modeling 与增强训练技术,进一步提升领先开放权重模型(Kimi K2.6、GLM 5.1、DeepSeek V4 Pro)在 LAB 上的后训练效果。
- •Harness 工程——将 advisor 机制扩展到更多实践领域,并研究 worker turn-count expansion(上文所述的行为模式)是否是合适的调优 lever,或者是否可以让更小的专用开源模型与 worker 并行,处理目前由 advisor 承接的子任务。我们也在研究 turn 之间的 context compaction,将其作为 LAB trajectory 长度下的成本与质量 lever。
共同主线是平台。这两项工作和本文中的训练与 harness 一样,都运行在服务生产模型的同一个 Fireworks endpoint 上。逐 bit 完全一致的交接让这个循环变得可处理:模型团队可以微调,对照 LAB 评估,并发布结果,而无需跨越研究到生产的鸿沟。我们接下来交付的所有东西,都会通过同一个循环。
在 LAB 上胜出的模式很直接:以开放权重为核心,只在会改变答案的地方调用前沿智能。
注:全文成本数字均为基于当前 serverless rates 的估算——开源模型(GLM 5.1、Kimi K2.6、DeepSeek V4 Pro)使用 Fireworks 价格,Anthropic(Claude)和 OpenAI(GPT)使用公开 API 价格。数字反映 100 任务切片上的总推理成本,并会随 token mix 和价格变化而变动。