从Prompt到Harness：AI工程的三次进化

2023 年，所有人在学怎么写 prompt。

2025 年，前沿的人开始讲 context engineering。

2026 年，一个新词出现了：Harness Engineering。

这不是营销概念。它来自一个真实的工程实验——OpenAI 的一个七人团队，用 Codex 智能体写了一个完整的生产级产品。零行手写代码，1500 个 Pull Request，一百万行代码，历时五个月。

这篇文章讲的就是：他们是怎么做到的，以及这件事对所有用 AI 写代码的人意味着什么。

三个时代

Prompt Engineering（2023-2024）：你怎么问

这是最早的阶段。你学会了用”请扮演一个高级工程师”开头，学会了 few-shot、chain of thought、角色扮演。你精心雕琢每一个词，测试不同的措辞，搜集别人分享的”万能 prompt”。

核心问题是：怎么用一段文字让模型给出最好的回答。

它有效，但有天花板。因为你只在优化一个变量——输入的那段文字。模型的上下文窗口就那么大，你的 prompt 写得再好，模型看不到项目的全貌，它的回答就是无根之木。就像你面试一个候选人，只给他看了一道题，却指望他理解你整个系统的设计哲学。

Context Engineering（2025）：你给模型看什么

Andrej Karpathy 在 2025 年提出了一个关键观点：与其优化 prompt，不如优化送给模型的上下文。不只是你的问题，还包括相关文档、代码库结构、工具定义、历史对话、甚至实时的运行指标。

这就是从”怎么问老师一个好问题”进化成了”怎么给老师一份完整的背景材料”。

这个转变带来了实实在在的能力跃升。RAG（检索增强生成）成了标配，MCP（Model Context Protocol）让模型可以动态连接外部工具和数据源，长上下文窗口让你可以把整个代码库塞给模型。

但当 AI 智能体开始真正自主执行任务时——自己读代码、自己跑命令、自己提 PR、自己决定下一步做什么——光给好的上下文就不够了。因为上下文解决的是”看见”的问题，不是”行为”的问题。一个智能体可以看见你所有的架构文档，但它照样可能写出违反架构的代码。看见规则和遵守规则，是两件事。

Harness Engineering（2026）：整个系统怎么运作

2026 年 2 月，HashiCorp 联合创始人 Mitchell Hashimoto 给了这个实践一个名字：”Engineer the Harness”——工程化那个套在 AI 外面的缰绳。

几天后，OpenAI 发布了那篇报告。再几天，Martin Fowler 跟进了分析文章。一篇 arXiv 论文对其做了形式化定义。这个概念在几周内从一个口头说法变成了一个有严肃工程实践支撑的学科方向。

Harness 不是 prompt，不是 context，而是包裹在 AI 智能体周围的整个运行环境：它能用什么工具，不能碰什么东西，犯错了怎么被纠正，人类怎么监控它，以及最关键的——它的错误如何被系统性地消灭，而不只是被个案修复。

OpenAI 的实验：零行手写代码造产品

这是目前最有说服力的案例。

OpenAI 的一个小团队——三名核心工程师——用 Codex 智能体从零构建了一个内部软件产品。五个月，大约 1500 个 PR，超过一百万行代码。没有一行是人手写的。

这个数字本身已经足够震撼。但真正值得关注的不是”AI 写了多少代码”，而是”人类做了什么让 AI 能写这么多代码”。

他们的 harness 包含三层：

第一层：增强的知识库。不是简单的 README，而是一整套持续更新的项目文档——架构约定、命名规范、模块边界、数据结构定义。智能体每次开始工作前都会读取这些文件，就像新员工入职第一天先读公司 wiki。类似于 CLAUDE.md、.cursorrules 这些配置文件的高级版本。而且，他们让智能体也能访问生产环境的可观测性数据和浏览器——不只是读代码，还能看到代码跑起来的样子。

第二层：架构约束的强制执行。这是最关键的一层。他们不靠”请遵守我们的架构”这种 prompt 来约束智能体，而是用确定性工具——自定义 linter、结构化测试（类似 Java 里的 ArchUnit）、pre-commit hook。智能体生成的代码必须通过这些门槛才能合入。通不过就打回，没有商量。

为什么这一层如此重要？因为他们发现了一个反直觉的事实：限制解空间反而让智能体更高效，而不是更低效。当智能体可以生成任何代码时，它会浪费大量 token 探索死胡同。当 harness 定义了清晰的边界——只能用这些模式、只能依赖这些模块、接口必须长这样——智能体反而收敛得更快，产出质量更高。

这就像写十四行诗：格律的约束不是枷锁，而是让诗歌成其为诗歌的东西。

第三层：熵管理。这是最有意思的部分。他们发现，AI 写代码时间长了会产生”熵”——文档和实际代码不一致、架构边界逐渐模糊、命名风格漂移、死代码累积。人类代码库也有这个问题，但 AI 生成的代码因为速度太快，熵的积累速度也快得多。

于是他们专门跑”垃圾回收”智能体，定期扫描项目，找出不一致的地方并修复。本质上，这是用 AI 来清理 AI 造成的混乱——一种自我维护的生态系统。

Mitchell Hashimoto 的原话：”每次你发现智能体犯了一个错误，你就花时间把解决方案工程化进系统里，让它永远不能再犯同样的错。”

这就是 harness 的核心哲学：把经验教训编码进环境本身，而不是编码进 prompt。 Prompt 是一次性的嘱咐，harness 是永久性的制度。

为什么 Prompt 不够用了

一个核心发现：模型不能可靠地评估自己的输出。

这和人类的盲点一样——你写了一段代码，你自己觉得没问题，但 code review 时同事一眼就看出了 bug。AI 也是如此。它生成的代码可能通过了功能测试，但违反了你团队的架构约定；可能风格一致，但引入了微妙的性能退化；可能单看每个 PR 都没问题，但连续一百个 PR 之后，系统的整体一致性已经悄悄崩塌了。

Anthropic 的研究也证实了这一点：模型在自我评估上存在系统性盲区。

Harness 的解决方案借鉴了 GAN 的思路：生成器和评估器分离。一个智能体写代码，另一个智能体审查。审查者有不同的指令、不同的关注点、不同的检查清单。再加上确定性工具（linter、测试）作为最后一道防线。

这个模式意味着一个根本性的转变：你不再试图造一个完美的 AI 程序员，而是造一个有组织架构的 AI 编程团队——有人写、有人查、有制度兜底。

对你意味着什么

如果你现在用 Claude Code、Cursor 或者 Copilot 写代码，你可能已经在无意识地做 harness engineering 的初级版本了：

你写的 CLAUDE.md 或 .cursorrules？那是 harness 的知识库层。
你设的 pre-commit hook 和 lint 规则？那是 harness 的约束层。
你偶尔手动检查 AI 生成的代码是否偏离了架构？那是 harness 的熵管理层（只是手动的）。

三个时代不是替代关系，而是嵌套关系。Harness 包含 context，context 包含 prompt。你学会的东西都没浪费，只是需要一个更大的框架来组织它们。

但核心认知的转变是：停止优化 AI 本身，开始优化 AI 运行的环境。

这就像管理团队。你不会通过反复教一个实习生”请写好代码”来提升团队产出——你会建立代码规范、CI/CD 流程、code review 制度、架构文档、新人入职手册。好的管理者不创造依赖，创造系统。

AI 智能体，就是你的新队友。能力极强，产出惊人，但需要体系化的工程环境来保证质量。

Harness，就是那套工程环境。

而现在，这个学科才刚刚开始。

All posts

2026-05-09 19:41:06 从Prompt到Harness：AI工程的三次进化
2026-03-06 14:43:17 Anthropic给Claude写了一部”宪法”，长达23000字
2026-03-06 14:42:17 一个月更新30+功能，Claude到底在卷什么？
2026-01-15 20:21:13 Claude Code进阶用法：创建者Boris的13个专家技巧
2025-11-26 14:37:41 分享window下安装 .NET 9
2024-01-02 16:34:31 分享一个hyperf的grpc 日志切面
2023-10-20 10:04:42 常用便捷linux命令
2023-06-20 23:36:28 自动化部署流程
2023-06-06 15:19:37 快速清空MySQL的一张表
2023-04-11 15:06:39 MySQL事务的四大特性以及实现原理
2023-03-31 10:06:44 使用GitLab CI/CD的基本步骤
2022-09-30 15:58:36 git 脑图
2022-04-18 17:18:25 phpstan 使用指南
2021-06-19 17:02:51 wsl/wsl2 和proxifier 冲突解决
2021-04-10 18:23:27 进程间有哪些通信方式
2021-03-29 18:29:11 go学习笔记
2021-03-27 21:30:54 slice 实现原理及使用技巧
2021-03-24 12:47:38 mysql 锁
2021-03-24 12:45:23 子弹redis
2020-12-18 14:40:19 go 得到程序运行的垃圾收集器更多细节
2020-12-05 15:44:20 进程小工具
2020-11-17 16:26:54 mongodb的一些查询
2020-11-08 17:43:56 composer 2
2020-05-18 21:32:04 gitlab的介绍和安装
2020-05-04 16:34:19 redis的持久化和选择
2020-04-13 00:56:47 跳表 skip list
2020-04-06 23:30:28 MySQL主从备份
2020-04-06 23:30:00 MySQL处理常见需求
2020-04-06 23:29:05 MySQL设计规范
2020-04-01 01:49:50 排序算法
2020-03-30 01:26:59 docker的镜像与容器
2020-03-28 21:43:07 docker 安装
2020-03-26 01:54:26 看操作系统_清华大学(向勇、陈渝) 笔记 1.2 1.3
2020-03-02 15:41:24 mysql 批量更新
2020-01-15 01:11:15 递归删除
2019-11-20 16:58:40 理解inode
2019-10-05 14:32:02 TCP的三次握手
2019-10-03 09:17:24 套接字
2019-09-30 16:17:50 网络工具
2019-09-08 02:48:27 html
2019-09-07 19:10:07 认识客户端-服务端网络模型的基本概念
2019-06-20 16:56:17 mysql从myisam迁移到innodb全过程
2018-03-12 16:22:56 MVC的工作原理
2018-03-08 16:22:02 web资源防盗链
2018-03-07 10:55:04 数据库缓存层的优化
2018-03-06 08:28:27 高并发解决方案
2018-03-04 09:00:38 php的会话控制技术 session与cookie
2018-02-28 10:04:24 php的常量及其数据类型
2018-02-27 16:23:12 php的变量以及引用变量的工作原理
2018-02-26 08:34:42 laravel上手
2018-02-22 06:15:51 腾讯php面试题目训练
2018-02-07 01:01:07 centos升级gcc4.4.7到4.8.2
2018-01-29 02:49:47 window下swoole拓展的安装
2018-01-25 03:04:23 mysql启动错误，The server quit without updating PID file (/usr/local/mysql/var/VM_157_231_centos.pid)
2018-01-22 09:32:54 dht爬虫
2018-01-21 06:53:08 从想下载知乎上的视频衍生的ffmpeg
2018-01-19 01:45:54 股票估值
2018-01-17 09:49:20 鸟哥的linux私房菜读书笔记-记录一点linux的小知识
2018-01-11 02:40:47 市盈率
2018-01-05 03:14:16 自然语言处理
2017-12-26 05:55:11 netbeans的debug功能
2017-12-13 07:11:08 git比较好理解的记录
2017-12-04 07:08:49 centos,shadowsocks 服务端搭建
2017-12-01 08:31:22 使用python的you-get下载油管视频
2017-11-28 11:20:21 fping window
2017-11-28 08:09:16 linux centos配置Nginx支持HTTPS访问 Let’s Encrypt
2017-11-15 08:37:44 apache2.2 支持中文url mod_encoding的扩展的编译与安装
2017-11-10 03:01:09 linux awk,sort,uniq,head 分析apache日志文件
2017-11-08 06:42:46 php的session机制
2017-11-08 02:18:12 linux下安装phpredis拓展
2017-11-08 01:52:12 linux tar 命令详解
2017-11-06 03:16:45 Can’t connect to local MySQL server through socket ‘/var/lib/mysql/mysql.sock’ (2)
2017-11-03 05:51:50 linux设置SSH无密码登录
2017-11-02 10:02:13 lsyncd 记录
2017-11-02 03:33:33 httpd开机启动以及“service httpd does not support chkconfig”
2017-10-31 02:50:42 阿里云oss上传文件及挂载硬盘
2017-10-23 01:49:52 linux三大利器–grep|sed|awk
2017-10-11 08:34:44 elasticsearch suggester学习记录
2017-10-06 16:25:40 kibana的操作指南CURD
2017-10-06 15:10:37 倒排索引
2017-10-05 02:14:25 Elasticsearch 分布式概念
2017-09-30 09:11:45 Elasticsearch学习记录
2017-09-21 01:01:00 scrapy-redis 实现分布式爬虫
2017-09-20 13:25:22 基于window下使用tor作为python爬虫切换IP
2017-09-13 14:08:39 蜘蛛侠英雄归来
2017-09-08 08:13:51 畅想未来
2017-08-23 02:48:47 关于window底下用pip 安装 scipy
2017-08-15 10:04:09 scapy教程初接触(3)—xpath语法和css语法
2017-08-12 09:23:08 scapy教程初接触(2)—编辑main.py文件
2017-08-10 17:05:57 scapy教程初接触(1)
2017-08-08 08:34:22 nginx的重新编译
2017-08-07 15:37:02 sqlmap +dvwa +Proxifier 完整（大概）教程
2017-08-01 17:32:58 正则表达式-贪婪与懒惰 python篇
2017-08-01 08:05:49 pip install scrapy 遇到的坑
2017-07-31 14:31:33 使用virtualenv和virtualenvwrapper搭建python的虚拟环境
2017-07-30 16:44:03 爱在三部曲《爱在黎明破晓前》《爱在日落黄昏前》《爱在午夜降临前》
2017-07-27 17:07:23 极速风流 rush
2017-07-10 06:09:34 自己用的vim配置
2017-07-09 07:57:37 路边野餐有感
2017-07-06 06:09:24 线程与进程
2017-06-25 08:53:14 Restful API 实战
2017-06-17 19:37:38 牯岭街少年杀人事件–一部没有反派的电影
2017-06-17 08:33:10 nginx wordpress 伪静态规则配置
2017-05-06 17:56:44 观《摔跤吧！爸爸》
2017-04-20 11:39:03 记科目二
2017-04-18 02:30:59 香港两天之旅
2017-04-12 17:57:26 纪念重要的4月15日
2017-04-04 06:14:26 奥斯卡的游戏规则
2017-04-03 19:33:28 首次观看奇葩说
2017-03-29 16:58:21 微信ai 自动回复机器人教程
2017-03-28 17:35:00 重新开始好好做人

从Prompt到Harness：AI工程的三次进化

All posts

Other pages

发表回复取消回复

从Prompt到Harness：AI工程的三次进化

All posts

Other pages

发表回复 取消回复

发表回复取消回复