Context Engineering过时了吗?AI新风口‘Harness Engineering’崛起,OpenAIAnthropic齐发力?
摘要:原文: https:mp.weixin.qq.comsO_K5s6qjI7Kp_eOU_we4Fg 欢迎关注公zh: AI-Frontiers LLM往期文章推荐 3年,从0到全球领跑:万字长文拆解DeepSeek大模型技术演进 从
原文: https://mp.weixin.qq.com/s/O_K5s6qjI7Kp_eOU_we4Fg
欢迎关注公zh: AI-Frontiers
LLM往期文章推荐
3年,从0到全球领跑:万字长文拆解DeepSeek大模型技术演进
从ResNet到mHC:DeepSeek重构残差连接,额外开销仅6.7%,附复现代码
收藏!LLM开发全链路:5大步骤+15大框架,从数据治理到RLHF一文通关
收藏!LLM-RL训练框架:3大流派+6大框架,一文搞定
万字长文解读Qwen进化史:27篇论文深度复盘Qwen模型家族
随着LLM从简单的chatbot演进为可自主执行复杂任务的Agent,AI圈的范式正在发生深刻的转变。
最近,AI圈内又火了一个新名词:Harness Engineering。
遥想当年,Prompt Engineering刚摸到门道,Context Engineering闪亮登场;Context Engineering刚弄明白,Harness Engineering又强势来袭。短短一个月,整个社区都在热议,从OpenClaw到智能Agent,再到「未来人类究竟该扮演什么角色」,话题热度居高不下。
Harness Engineering的起源与社区爆发历程
Harness Engineering并非横空出世,而是由行业先驱在解决AI Agent落地痛点时,不断的实践累积而成的共识。这一过程标志着开发者从「指令编写者」向「系统架构师」的身份转变。
Mitchell Hashimoto的先驱性探索
Harness Engineering术语的普及,很大程度上归功于HashiCorp的联合创始人、Terraform的创造者Mitchell Hashimoto。2月5日,在他的技术博客「My AI Adoption Journey」(https://mitchellh.com/writing/my-ai-adoption-journey)中,分享了 AI 编程六条进阶路径。并指出:即便使用最强模型,简单交互无法解决生产级复杂问题。靠改提示词修复 Agent 错误,只会陷入「打地鼠」式循环,旧问题刚改、新幻觉又来。
Hashimoto提出Harness Engineering,其核心思想:每当Agent出错,不用自然语言临时修正,而是用工程化约束、闭环校验与自动化工具,从逻辑上杜绝同类问题复现。即,将基础设施即代码(IaC)的严谨性带入了 AI 领域,确立了治理架工程的基调:构建一个「确定性」的壳,来包裹「概率性」的核。
OpenAI 的规模化验证
在Hashimoto的理念Harness Engineering出现后,仅6天后,OpenAI Codex团队发布了一项震撼性的实验报告「Harness engineering: leveraging Codex in an agent-first world」(https://openai.com/zh-Hans-CN/index/harness-engineering/),将Harness Engineering概念推向了社区讨论的巅峰。OpenAI宣布,在无人工手写代码的情况下,构建了超100万行代码的生产级应用。
项目的核心并非依赖某种「超级提示词」,而是一套高度自动化的Harness Engineering系统。工程师角色转为「领航员」与「环境设计师」,通过严格分层架构(Types→Config→Repo→Service→Runtime→UI),并由 Codex自动生成Linter与结构化测试,强制约束架构。
Anthropic的理论深化
一个月后,在OpenAI发布官方博客的同一时期,Anthropic也发布了题为「Harness design for long-running application development」(https://www.anthropic.com/engineering/harness-design-long-running-apps)的技术文章,为 Harness Engineering概念提供了更深层次的技术内涵。Anthropic的文章重点关注了长期运行应用的工程设计,特别是在前端设计和自主软件工程领域的实践。
Anthropic分享了Harness Design的两个核心经验:将任务分解为可处理的块,以及使用结构化工件在会话之间传递上下文。最终结果是一个三智能体架构(规划器、生成器和评估器)能够在数小时的自主编码会话中生成丰富的全栈应用。
值得注意的是,Anthropic的实践特别强调了上下文重置(context reset)的重要性。
