思想笔记
OpenAI 原文
Deep Dive Knowledge Base

Harness Engineering
驾驭工程深度解析

AI Agent 时代的工程范式革命。从提示工程到上下文工程,再到驾驭工程 —— 一份关于如何让 AI 在生产环境中可靠工作的完整知识图谱。

264,000+
行 AI 生成代码
0
人工程师团队
1
个月构建周期
0
行手写代码
01
DEFINITION

什么是 Harness Engineering?

Harness Engineering(驾驭工程)是指围绕 AI Agent(智能体)设计和构建约束机制、反馈回路、工作流控制和持续改进循环的系统工程实践。它不优化模型本身,而是优化模型运行的"环境"。

"Harness"一词在英文中本意为"马具"。如果将拥有强大能力的 AI 大模型比作一匹动力十足但难以预测的野马,那么 Harness 就是套在马身上、让人能够控制其方向和力量的装备。

— 核心隐喻

其核心理念可以概括为 "Humans steer, agents execute"(人类掌舵,代理执行)。通过构建受控的工程环境,Harness Engineering 确保 AI 能够在明确的边界和约束下高效、可靠地工作,从而将 AI 从"演示级玩具"转变为"生产级工具"。

Harness 概念图 - 马具隐喻

FIG.01 — EQUINE MOTION SYSTEM · HARNESS METAPHOR

02
EVOLUTION

从提示工程到驾驭工程的演进

AI 工程范式演进图

FIG.02 — AI SYSTEM EVOLUTION ROADMAP · DWG-2026-AI-EVO

第一阶段2022-2024

Prompt Engineering

提示工程

核心关注

怎么对 AI 说

打磨一次性指令(如 Few-shot、角色扮演),高度依赖人工经验,难以规模化复用。

第二阶段2025

Context Engineering

上下文工程

核心关注

给 AI 看什么

动态构建完整上下文(知识库、历史记录),但仍处于被动响应模式,缺乏主动控制。

第三阶段2026

Harness Engineering

驾驭工程

核心关注

AI 在什么条件下运行

全生命周期控制系统设计 — 约束、反馈、架构规则、工具链管理,让 AI Agent 持续稳定地工作。

03
ARCHITECTURE

Harness 的五大核心支柱

五大核心支柱架构图

FIG.03 — INTEGRATED AI & AUTOMATION FRAMEWORK · TECHNICAL BLUEPRINT

01

工具编排

Tool Orchestration

明确界定 Agent 可以访问哪些工具(文件系统、API、数据库)及所需权限,为 Agent 划定能力边界。

02

护栏与安全约束

Guardrails

使用确定性规则防止 Agent 采取破坏性行动。将架构规则“代码化”,通过自定义 Linter 和结构化测试强制约束输出。

03

错误恢复与反馈循环

Feedback Loops

通过自动化重试、自我验证循环(编写-测试-修复闭环)和回滚机制,让 AI 自主从错误中学习和纠正。

04

可观测性

Observability

记录 Agent 的每一个动作、工具调用和 Token 消耗。通过日志和追踪分析故障模式,持续优化 Harness 环境。

05

人机协作检查点

Human-in-the-Loop

在关键决策点设置人工审批网关,将人类判断力放置在成本最高的环节,而非让人类微管理 Agent。

04
IMPACT

为什么 Harness Engineering 最近如此火爆?

CASE 01

OpenAI 的百万行代码实验

OpenAI 团队发布了一篇关于 Harness Engineering 的重磅文章,分享了他们内部的实验项目。一个仅由 3 人起步的团队,在完全不手动编写任何一行源代码的强制约束下,花费 5 个月时间,完全依靠 Codex(AI 编码智能体)构建了一个包含超过 100 万行代码的产品。

团队散布了 88 个 AGENTS.md 文件作为 AI 的导航地图,编写了详尽的架构约束,并部署了"垃圾回收 Agent"(GC Agent)来定期清理技术债务和过时文档。

合并 PR 数

1,500+

Pull Requests

人均日产出

3.5

PRs / 工程师 / 天

效率提升

~10x

相比传统开发

手写代码

0

OpenAI 百万行代码实验

FIG.04 — INTELLIGENT AUTOMATION WORKFLOW

CASE 02

环境优化带来的巨大性能跃升

改变 AI 的工作环境,比升级模型带来的收益更大

LangChain 实验

在 Terminal Bench 2.0 基准测试中,LangChain 团队在底层模型参数未做任何修改的情况下,仅通过优化 Agent 运行的外部环境(添加文档结构、自我验证回路和循环检测),就让编码 Agent 的得分大幅跃升。

52.8%

优化前

66.5%

优化后

排名从全球第 30 位跃升至第 5 位 · 模型未变

Hashline 格式实验

安全研究员 Can Boluk 仅仅改变了 Agent 的代码编辑格式(从传统的 patch 改为带有行号和哈希锚点的 Hashline 格式),就让模型得分实现了惊人的跃升。

6.7%

Patch 格式

68.3%

Hashline 格式

一个格式的改变 = 十个模型升级

"在 AI Agent 编码领域,决定结果好坏的最大变量,往往不是模型有多聪明,而是模型被放在了一个什么样的环境里。"

05
FUTURE

工程师角色的重构

Harness Engineering 的兴起不仅是技术的演进,更是对软件工程师职业定位的重塑。在这一新范式下,工程师的核心任务正在发生根本性的转变。

"软件工程团队的主要工作不再是编写代码,而是设计环境、指定意图,并构建反馈循环,从而让智能体能够进行可靠的工作。"

— OpenAI Codex 团队

未来的工程师将从传统的"代码编写者"转型为"系统驾驭者"(System Harnesser)。他们的日常工作将聚焦于编写配置文件、设计工具 API、构建反馈闭环、定义架构约束以及分析 Agent 的运行日志。

过去:代码编写者

  • -手动编写业务逻辑
  • -逐行调试代码
  • -人工 Code Review
  • -关注语法和实现细节

未来:系统驾驭者

  • +编写 AGENTS.md 配置
  • +设计反馈循环与约束
  • +分析 Agent 运行日志
  • +关注系统架构和环境