
什么是 Harness Engineering?
Harness Engineering(驾驭工程)是指围绕 AI Agent(智能体)设计和构建约束机制、反馈回路、工作流控制和持续改进循环的系统工程实践。它不优化模型本身,而是优化模型运行的"环境"。
"Harness"一词在英文中本意为"马具"。如果将拥有强大能力的 AI 大模型比作一匹动力十足但难以预测的野马,那么 Harness 就是套在马身上、让人能够控制其方向和力量的装备。
— 核心隐喻
其核心理念可以概括为 "Humans steer, agents execute"(人类掌舵,代理执行)。通过构建受控的工程环境,Harness Engineering 确保 AI 能够在明确的边界和约束下高效、可靠地工作,从而将 AI 从"演示级玩具"转变为"生产级工具"。

FIG.01 — EQUINE MOTION SYSTEM · HARNESS METAPHOR
从提示工程到驾驭工程的演进

FIG.02 — AI SYSTEM EVOLUTION ROADMAP · DWG-2026-AI-EVO
Prompt Engineering
提示工程
怎么对 AI 说
打磨一次性指令(如 Few-shot、角色扮演),高度依赖人工经验,难以规模化复用。
Context Engineering
上下文工程
给 AI 看什么
动态构建完整上下文(知识库、历史记录),但仍处于被动响应模式,缺乏主动控制。
Harness Engineering
驾驭工程
AI 在什么条件下运行
全生命周期控制系统设计 — 约束、反馈、架构规则、工具链管理,让 AI Agent 持续稳定地工作。
Harness 的五大核心支柱

FIG.03 — INTEGRATED AI & AUTOMATION FRAMEWORK · TECHNICAL BLUEPRINT
工具编排
Tool Orchestration
明确界定 Agent 可以访问哪些工具(文件系统、API、数据库)及所需权限,为 Agent 划定能力边界。
护栏与安全约束
Guardrails
使用确定性规则防止 Agent 采取破坏性行动。将架构规则“代码化”,通过自定义 Linter 和结构化测试强制约束输出。
错误恢复与反馈循环
Feedback Loops
通过自动化重试、自我验证循环(编写-测试-修复闭环)和回滚机制,让 AI 自主从错误中学习和纠正。
可观测性
Observability
记录 Agent 的每一个动作、工具调用和 Token 消耗。通过日志和追踪分析故障模式,持续优化 Harness 环境。
人机协作检查点
Human-in-the-Loop
在关键决策点设置人工审批网关,将人类判断力放置在成本最高的环节,而非让人类微管理 Agent。
为什么 Harness Engineering 最近如此火爆?
OpenAI 的百万行代码实验
OpenAI 团队发布了一篇关于 Harness Engineering 的重磅文章,分享了他们内部的实验项目。一个仅由 3 人起步的团队,在完全不手动编写任何一行源代码的强制约束下,花费 5 个月时间,完全依靠 Codex(AI 编码智能体)构建了一个包含超过 100 万行代码的产品。
团队散布了 88 个 AGENTS.md 文件作为 AI 的导航地图,编写了详尽的架构约束,并部署了"垃圾回收 Agent"(GC Agent)来定期清理技术债务和过时文档。
合并 PR 数
1,500+
Pull Requests
人均日产出
3.5
PRs / 工程师 / 天
效率提升
~10x
相比传统开发
手写代码
0
行

FIG.04 — INTELLIGENT AUTOMATION WORKFLOW
环境优化带来的巨大性能跃升
改变 AI 的工作环境,比升级模型带来的收益更大
在 Terminal Bench 2.0 基准测试中,LangChain 团队在底层模型参数未做任何修改的情况下,仅通过优化 Agent 运行的外部环境(添加文档结构、自我验证回路和循环检测),就让编码 Agent 的得分大幅跃升。
52.8%
优化前
66.5%
优化后
排名从全球第 30 位跃升至第 5 位 · 模型未变
安全研究员 Can Boluk 仅仅改变了 Agent 的代码编辑格式(从传统的 patch 改为带有行号和哈希锚点的 Hashline 格式),就让模型得分实现了惊人的跃升。
6.7%
Patch 格式
68.3%
Hashline 格式
一个格式的改变 = 十个模型升级
"在 AI Agent 编码领域,决定结果好坏的最大变量,往往不是模型有多聪明,而是模型被放在了一个什么样的环境里。"
工程师角色的重构
Harness Engineering 的兴起不仅是技术的演进,更是对软件工程师职业定位的重塑。在这一新范式下,工程师的核心任务正在发生根本性的转变。
"软件工程团队的主要工作不再是编写代码,而是设计环境、指定意图,并构建反馈循环,从而让智能体能够进行可靠的工作。"
— OpenAI Codex 团队
未来的工程师将从传统的"代码编写者"转型为"系统驾驭者"(System Harnesser)。他们的日常工作将聚焦于编写配置文件、设计工具 API、构建反馈闭环、定义架构约束以及分析 Agent 的运行日志。
过去:代码编写者
- -手动编写业务逻辑
- -逐行调试代码
- -人工 Code Review
- -关注语法和实现细节
未来:系统驾驭者
- +编写 AGENTS.md 配置
- +设计反馈循环与约束
- +分析 Agent 运行日志
- +关注系统架构和环境
参考资料
Harness Engineering
Birgitta Böckeler · Martin Fowler
Harness Engineering: Leveraging Codex in an Agent-First World
OpenAI · OpenAI Blog
Effective Harnesses for Long-Running Agents
Anthropic · Anthropic
Improving Deep Agents with Harness Engineering
LangChain · LangChain Blog
What Is Harness Engineering? Complete Guide (2026)
NxCode Team · NxCode