AI学习笔记|长程开发的Harness设计
🤔 用大模型做长程应用开发,是不是常遇这些问题?上下文满了,模型写乱、草草收尾?模型自评自夸,产出平庸无亮点?这篇笔记基于Anthropic实验室研究,聚焦智能体脚手架(Harness)核心设计,拆解痛点、实验细节与核心结论,帮你高效用大模型做长程应用开发👇
---
📌 大模型长期任务的2大瓶颈及解决办法
❌ 上下文焦虑:窗口填满后,模型易失连贯、草草收尾;
✅ 核心解决:上下文重置,清空窗口重启智能体,通过结构化交接工件传递信息,比单纯压缩更高效
❌ 自评偏差:模型自评易自夸,尤其主观设计类任务,产出平庸;
✅ 核心解决:借鉴GAN思路,拆分生成器(执行任务)与评估器(评判质量),用外部评估倒逼产出升级
---
🎨 前端实验:用生成器-评估器循环打破平庸
核心:4大评估维度(设计质量、原创性高权重,工艺、功能性常规权重),评估器截图反馈、生成器迭代5-15轮,实现创意突破(如普通博物馆网站升级为3D透视画廊)
---
💻 全栈实验(V1·Opus 4.5):三智能体系统
三智能体分工明确:规划者将简短提示扩为完整产品规格;生成器以“Sprint”模式开发单个功能并自评;评估器模拟真实用户测试;关键:提前定冲刺契约,避免偏离规范
实验对比(复古2D游戏工具):单智能体(20分钟/$9)产出无效、核心逻辑损坏;全脚手架(6小时/$200)含16个功能(含AI关卡生成),可正常游玩
---
🔧 迭代优化(V2·Opus 4.6):极简设计,移除冗余
优化重点:移除Sprint机制与上下文重置(模型能力提升,无需拆解重置);评估器改为终末单次测试;DAW实验验证:耗时缩至3小时50分、成本$124.7,实现编曲视图等核心功能+AI音乐代理
---
✨ 核心结论
1. 评估器价值:仅当任务超出模型单次可靠输出边界时,外部评估才显作用;
2. 动态适配:模型升级后,需剥离上下文重置等冗余组件;
3. 核心方向:模型越强,越需设计新脚手架,应对更复杂任务
---
总结:智能体脚手架是随模型能力动态调整的核心辅助框架,抓住“痛点破解+实验验证+迭代优化”,就能让大模型高效搞定长程应用开发~