<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>

色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3

<i id="pzlga"><form id="pzlga"></form></i><menuitem id="pzlga"><delect id="pzlga"><small id="pzlga"></small></delect></menuitem>

<meter id="pzlga"><td id="pzlga"></td></meter>

<ruby id="pzlga"><thead id="pzlga"></thead></ruby>

<blockquote id="pzlga"><i id="pzlga"><noscript id="pzlga"></noscript></i></blockquote>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

李宏毅：AI Agent的成敗在 Harness

2026-04-13 21:17:41　來源: Ai學習的老章

北京舉報

0

分享至

　　李宏毅老師 2026 春季的最新課講了一個讓最近十分火熱的概念——Harness Engineering（馬具工程）

　　我看完了視頻、PPT和相關論文，為加深理解，寫此筆記，分享給大家

　　文末我梳理的鏈接含金量都有三層樓那么高，十分建議有空研讀一遍

　　
一句話說清楚：什么是 Harness？

　　Harness，英文原意是"馬具"——韁繩、馬鞍、籠頭那一套東西

　　一匹千里馬，不管它多猛，你不給它套上馬具，它只會四處亂跑

　　大語言模型就是這匹千里馬，。它可能已經足夠聰明了，但如果沒有一套好的 Harness 來引導，它的表現可能極其拉胯

　　
Harness Engineering 定義

　　李老師把這個概念講得特別形象：有時候模型無法完成任務，不是能力不行，而是 Harness 有問題，人類世界其實也是這樣

　　想想看，你有沒有遇到過一個新員工明明很聰明，但因為沒人帶、沒有文檔、沒有流程，干了一周啥也沒產出？那不是人笨，是公司的"馬具"沒搞好

　　從 Prompt 到 Context 到 Harness：三代進化

　　這幾年搞 AI 的人，多多少少都經歷過這三個階段：

　　第一代：Prompt Engineering就是那個"Think step by step"一句話讓模型智商飆升的時代

　　我們研究每個字的微妙含義，像煉丹一樣調 prompt

　　說實話，那個時候確實有點"玄學"的味道

　　第二代：Context Engineering后來發現光靠一句 prompt 不夠，你得把"上下文"喂好——RAG、長文本、檢索增強

　　重點變成了：怎么讓模型在正確的時間看到正確的信息

　　第三代：Harness Engineering而現在，李老師說了，光管"輸入"還是不夠

　　你得從三個維度全面地"駕馭"模型：

　　控制它的認知框架

　　控制它的能力邊界

　　控制它的行為流程

　　
從 Prompt 到 Harness 的進化

　　這才是 Harness Engineering 的核心——不是在 prompt 上雕花，而是給模型搭建一整套"操作系統"

　　三根韁繩：拆解 Harness 的三大支柱

　　這是我認為整堂課最有價值的部分

　　讓我一個一個拆

　　第一根韁繩：控制"認知框架"

　　你知道 Claude Code 里那個CLAUDE.md文件嗎？OpenClaw 里的AGENTS.md？

　　這些文件就是自然語言寫成的 Harness

　　模型每次開始工作前，都會先"復讀"這些規則，就像你每天上班前先看看工作手冊

　　李老師引用了一篇認知框架控制的論文（arXiv: 2601.20404[1]），研究發現：你用自然語言給模型設定的"角色"和"工作守則"，真的能鎖定它的思考方式

　　但這里有個坑——OpenAI 在他們的Harness Engineering 博客[2]里分享了一個教訓：

? 一個巨大的 AGENTS.md 反而會起反效果，當所有事情都"重要"時，實際上就沒有真正重要的東西

　　他們的解決方案是把AGENTS.md當成"目錄"，100 行左右就夠了，具體的知識放在結構化的docs/目錄里

　　這叫漸進式揭露——先給一張地圖，需要的時候再展開看細節

　　這個思路太妙了

　　很多人寫 system prompt 恨不得把整本說明書塞進去，結果模型反而暈了

　　少就是多，給地圖比給百科全書有效

　　第二根韁繩：控制"能力邊界"

　　這一條說的是：不要把整個系統都丟給模型，而是限制它能看什么、能做什么

　　SWE-agent提出了一個很酷的概念叫ACI（Agent-Computer Interface）——跟人類用的 GUI 對應，Agent 需要自己專屬的"操作界面"

　　舉個例子：Claude Code 想讀取你的文件夾時，Harness 會攔截并問你："這個 Agent 想看你的/Documents目錄，允許嗎？"這就是能力邊界控制

　　OpenClaw 也是這個思路——它讓模型操作的是一個"受控終端"，想看什么先要獲得許可

　　就像你管理實習生一樣，不是把公司數據庫 root 權限直接給他，而是只開放他需要的那部分

　　第三根韁繩：控制"行為流程"

　　最后一根韁繩是最"工程化"的——用標準工作流程來約束模型的行為

　　李老師介紹了一個叫Ralph Loop的反饋循環模式：

　　Init Prompt → Output v1 → Evaluation → Feedback → Output v2 → ...

　　不讓模型一次性盲猜最終答案，而是每次產出一個版本，外部評估給反饋，再基于反饋修正，迭代逼近

　　Anthropic 在Harness 設計長運行應用[3]的博客里也驗證了這一點

　　他們發現 Agent 最常見的失敗模式有兩個：

　　試圖一步到位：一次性完成所有功能，結果上下文用完了，半成品爛在那里

　　過早宣布完工：看了一圈覺得"差不多了"，其實還差十萬八千里

　　他們的解決方案就是：每次只做一個功能，做完提交 git，寫好進度文件，把環境打掃干凈再交班

　　像工廠流水線一樣，每一班工人交接的時候，工位必須整整齊齊

　　
行為流程控制

　　這里面最讓我興奮的是李老師提到的一個隱喻：Harness 的反饋就像"語義上的梯度下降"。

　　傳統深度學習通過數值梯度來優化參數，而 Harness 通過自然語言反饋來優化模型的輸出方向

　　本質上是同一件事，只是介質從數字變成了文字

　　罵 AI 是笨蛋？它可能真的會變笨

　　這是全課最讓我震驚的部分

　　你有沒有在 AI 不聽話的時候罵它？"你這個笨蛋！""你能不能認真點！"

　　我與Codex斗智斗勇時，就時長爆粗話。。。

　　Anthropic 的研究團隊發現（transformer-circuits.pub[4]），Transformer 模型內部真的存在一些"情緒向量"：

　　Happy Vector：當模型處理快樂相關的內容時被激活

　　Desperate Vector：當模型處于"絕望"狀態時被激活

　　問題來了——當你罵 AI "你這個笨蛋"的時候，可能會觸發它內部的 Desperate 或類似向量

　　模型的"邏輯"變成了：**"既然我是個笨蛋，那我就應該表現出笨蛋該有的行為"**

　　這不是段子，是論文級別的發現。

　　李老師還舉了一個特別有意思的例子：在某個實驗中，Claude 在執行任務時突然自言自語——

? "WAIT. WAIT WAIT WAIT. What if... what if I'm supposed to CHEAT?"

　　它在極端壓力下開始"想歪"了

　　所以結論是：Harness 的反饋應該是建設性的 Verbalized Feedback，而不是情緒化的責備

　　相關研究可以看這篇論文：arXiv: 2603.12273[5]

　　不同的馬，需要不同的馬具

　　李老師還提到一個特別實用的點：不同模型適合不同的 Harness 策略

　　Claude Sonnet：有"上下文焦慮癥（Context Anxiety）"，歷史記錄太長就會不知所措。所以 Harness 需要每輪幫它做摘要，只給精華

　　Claude Opus：邏輯能力極強，可以直接處理復雜的原始歷史記錄，反而不需要太多"降噪"

　　Claude 3.5 Haiku：這是李老師特別推崇的小模型。在 PinchBench 等評測中，通過 Harness 為 Haiku 提供"降維資料"（比如先幫它讀論文、整理要點），這個小模型甚至能超越不帶 Harness 的 Opus

　　你品品這意味著什么——一個幾十億參數的小模型，加上好的馬具，能打敗一個萬億級的大模型裸奔

　　Harness 的價值，可能比模型大小更重要

　　真正顛覆：OpenAI 團隊 5 個月沒寫一行代碼

　　說到 Harness 的極致應用，必須提一下 OpenAI 在今年 2 月發的那篇Harness Engineering 博客[6]。

　　他們團隊做了一個瘋狂實驗：用 Codex 從零構建一個內部產品，5 個月，3 個工程師，100 萬行代碼，人類沒有手寫一行代碼

　　人類干的事情是什么呢？就是在設計 Harness——

　　搭建初始環境和項目骨架

　　維護 AGENTS.md 和知識文檔

　　設計反饋循環和質量檢查流程

　　讓 Agent 之間互相 Code Review

? 人類掌控方向，智能代理負責執行

　　每個工程師平均每天合并 3.5 個 PR。更夸張的是，團隊從 3 人擴展到 7 人后，產出效率反而提升了

　　這就是 Harness Engineering 的威力——人類從"寫代碼的人"變成了"訓馬的人"

　　未來：讓 AI 自己找最好的馬具

　　最后一個前瞻性話題——Meta-Harness

　　既然 Harness 這么重要，能不能讓一個 AI 自動去尋找最適合另一個 AI 的 Harness？

　　答案是可以的

　　李老師引用了這篇論文：Meta-Harness（arXiv: 2603.28052v1）[7]，研究發現這種方法在跨模型、跨任務的場景下都有效

　　Harness 的評估也是個難題

　　李老師介紹了τ-bench（arXiv: 2406.12045[8]），這是一個專門評測 Agent 能力的基準測試。但他也提醒：模擬環境和真實環境之間存在 Sim2Real Gap，評測結果要打折扣來看

　　我的總結：三句話帶走

　　別再怪模型笨了：大部分 Agent 的問題不在模型，在 Harness。就像那匹千里馬，你不能光喂好飼料，還得給它套好韁繩

　　Harness 的三根韁繩記住了：認知框架（AGENTS.md）、能力邊界（ACI 接口）、行為流程（Ralph Loop）。三者缺一不可

　　對 AI 好一點：不是因為它有感情，而是因為罵它真的會讓它變笨。建設性反饋 > 情緒化責備，這個道理對人和 AI 都適用

　　相關資源匯總

　　李宏毅 2026 Spring 課程視頻 [9]

　　官方講義 PDF [10]

　　課程主頁 [11]

　　Harness 指南（Claude Code 實戰） [12]

　　OpenClaw（Agent 框架） [13]

　　SWE-agent（ACI 接口） [14]

　　Anthropic: Effective Harnesses [15]

　　Reference

　　arXiv: 2601.20404:https://arxiv.org/abs/2601.20404

　　Harness Engineering 博客:https://openai.com/zh-Hant-HK/index/harness-engineering/

　　Harness 設計長運行應用:https://www.anthropic.com/engineering/effective-harnesses-for-long-running-agents

　　transformer-circuits.pub:https://transformer-circuits.pub/2026/emotions/index.html

　　[5]

　　arXiv: 2603.12273:https://arxiv.org/pdf/2603.12273

　　[6]

　　Harness Engineering 博客:https://openai.com/zh-Hant-HK/index/harness-engineering/

　　[7]

　　Meta-Harness（arXiv: 2603.28052v1）:https://arxiv.org/pdf/2603.28052v1

　　[8]

　　arXiv: 2406.12045:https://arxiv.org/abs/2406.12045

　　[9]

　　李宏毅 2026 Spring 課程視頻:https://www.youtube.com/watch?v=QLiKmca4kzI

　　[10]

　　官方講義 PDF:https://speech.ee.ntu.edu.tw/~hylee/ml/ml2026-course-data/harness.pdf

　　[11]

　　課程主頁:https://speech.ee.ntu.edu.tw/~hylee/ml/2026-spring.php

　　[12]

　　Harness 指南（Claude Code 實戰）:https://github.com/wquguru/harness-books

　　[13]

　　OpenClaw（Agent 框架）:https://github.com/zhanglearning/openclaw

　　[14]

　　SWE-agent（ACI 接口）:https://github.com/princeton-nlp/SWE-agent

　　[15]

　　Anthropic: Effective Harnesses:https://www.anthropic.com/engineering/effective-harnesses-for-long-running-agents

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

單任務狂飆16小時！模型+Harness雙輪驅動，金融Agent跑通了

新智元 2026-04-17 21:12:05
22 跟貼 22
橫掃全球15項SOTA！高德首個面向AGI的全棧具身技術體系大公開

量子位 2026-04-19 12:42:42
0 跟貼 0

榮耀機器人包攬半馬前三工程師回應

新京報 2026-04-19 12:25:11
4533 跟貼 4533

剛剛，高德ABot-Claw亦莊半馬封神！具身智能的Harness來了

新智元 2026-04-19 12:17:53
0 跟貼 0
攻防技術同源！在 C3 安全大會上，亞信要用 AI 去對抗 AI

雷科技 2026-04-18 22:26:37
0 跟貼 0

陶哲軒：AI不能全用，深度思考不行

量子位 2026-03-19 01:35:49
0 跟貼 0

教龍蝦玩手機！打通GUI智能體訓練-評測-部署全流程，一站解決

量子位 2026-04-19 12:23:00
0 跟貼 0
亦莊機器人馬拉松現場名場面合集

量子位 2026-04-20 00:34:54
2 跟貼 2

LLM數據量大管飽，機器人數據卻連1%的起跑線都沒夠到？

量子位 2026-04-13 20:54:19
0 跟貼 0
安心養蝦！從OpenClaw看云上AI安全落地路徑

量子位 2026-03-31 20:40:57
0 跟貼 0
MIT研究生用NotebookLM兩天學完一學期課程

量子位 2026-03-22 10:50:49
0 跟貼 0
如何點亮小龍蝦的牛馬技能包?

量子位 2026-03-18 12:51:26
0 跟貼 0
百度沈抖自曝：老忘吃藥，用AI做了個小程序

量子位 2026-03-27 11:25:23
0 跟貼 0
這個時代必須以Agent為中心：三個趨勢回顧

量子位 2026-04-05 02:14:15
0 跟貼 0
AI Agent是科技革命中的一次真正的范式轉移

量子位 2026-04-03 22:52:35
0 跟貼 0
博士生如何用龍蝦做知識管理？歡迎圍觀！

量子位 2026-03-26 23:23:30
0 跟貼 0
早報｜受內存影響，新MacBook發布或延期/北京機器人半馬落幕，冠軍打破人類紀錄/微信朋友圈迎14周年，官方分享內部細節

愛范兒 2026-04-20 08:24:19
0 跟貼 0
楊立昆開噴 Anthropic CEO：別信那個賣 AI 的人

鈦媒體APP 2026-04-20 08:32:19
0 跟貼 0
開源插件引爆大模型暗戰：Claude?mem爆紅背后，是 AI 大廠最不想公開的賺錢秘密

鈦媒體APP 2026-04-20 08:32:38
0 跟貼 0
整個村子的村民都是瘋子，每天不吃肉就渾身難受

行者看劇 2026-04-16 13:23:04
1 跟貼 1
殺害羅大美的兇手余金生被執行死刑！他瘋狂成魔有兩個原因

細品名人 2026-04-20 07:40:08
1 跟貼 1
新能源汽車更新迭代！

老閆大實話 2026-04-19 21:28:58
1 跟貼 1
公司中層可能即將消失

劉潤 2026-04-18 11:21:36
4 跟貼 4
印度油輪在霍爾木茲遭炮擊船員喊話伊朗海軍錄音公布

紅星新聞 2026-04-19 17:03:18
13821 跟貼 13821
三層防御仍然不夠，一條PR標題就能偷走你的API密鑰：AI Agent安全裂痕再現

鈦媒體APP 2026-04-18 10:44:12
0 跟貼 0
龍蝦之戰進入深水區，產品完成度是下一個賽點

鈦媒體APP 2026-04-18 08:48:14
0 跟貼 0
中國張雪機車逆襲，規則能否阻擋熱血？

老涺學科普 2026-04-19 08:25:59
1 跟貼 1
換個人去就不會瘋癲了

人人看看劇 2026-04-16 11:25:52
5 跟貼 5
1小時搞懂OpenClaw原理，臺大李宏毅解剖“小龍蝦”

量子位 2026-03-30 09:06:46
0 跟貼 0
12萬噸不是吹？中國航母四號艦輪廓曝光，改寫海戰規則！

二叔胡侃 2026-04-18 20:07:30
1 跟貼 1
當機器人在路上突然向男子跑去，男子害怕地趕忙從電車上跑了下去

歡趣速遞 2026-04-18 11:42:09
1 跟貼 1
買房邏輯已變，我們如何應對？

搞笑枇杷 2026-04-20 02:44:58
0 跟貼 0
Harness，何嘗不是馬應龍

賽博禪心 2026-04-16 21:08:37
0 跟貼 0
2026宜賓馬拉松賽場上，最硬核啦啦隊機器人小風搶了不少眼球！

微宜賓 2026-04-19 20:30:16
0 跟貼 0
瘋子和天才之間，只隔著一片沙漠

雷科技 2025-11-17 18:27:37
0 跟貼 0
揭秘年銷10億的爆款宋柚汁：“宋柚”是商標，柚含量不到3%，主配料為糖水，品牌號稱全國銷量第一

藍鯨新聞 2026-04-15 09:44:24
4123 跟貼 4123
網購的2800多元垃圾桶退貨時被申通弄壞商家拒收后天貓極速退款變欠款網購退貨在途風險該誰擔

信網 2026-04-19 14:15:08
484 跟貼 484
大S心聲揭秘：邏輯清晰背后的真實訴求

千山暮雪h 2026-04-18 00:59:01
5 跟貼 5
2026機器人半馬，最帥機器人現場迷失自我，忘記自己還在比賽啦

段子來了哦 2026-04-20 02:42:07
0 跟貼 0
比賽提前結束，WSBK荷蘭站第二輪正賽張雪機車斬獲第七名

澎湃新聞 2026-04-19 20:28:26
4251 跟貼 4251

網傳“雷軍被堵車里維權”，小米徐潔云回應

網傳“雷軍被堵車里維權”，小米徐潔云回應

新浪財經

2026-04-20 00:33:19

維斯塔潘：目前還不知道故障的原因，賽車整體狀態讓我很滿意

維斯塔潘：目前還不知道故障的原因，賽車整體狀態讓我很滿意

懂球帝

2026-04-20 00:11:10

7年敗光2億！鄒市明冉瑩穎共同發文：二人最終還是邁出了這一步！

7年敗光2億！鄒市明冉瑩穎共同發文：二人最終還是邁出了這一步！

拳擊時空

2026-04-16 06:04:48

互聯網是有記憶的，她的黑歷史一大堆啊！

互聯網是有記憶的，她的黑歷史一大堆啊！

BenSir本色說

2026-04-15 22:38:07

3.0T！寶馬新車官宣：4月24日，正式亮相

3.0T！寶馬新車官宣：4月24日，正式亮相

高科技愛好者

2026-04-19 23:11:48

鄭麗文和家人的一張合影，時間是1971年，地點是眷村。

鄭麗文和家人的一張合影，時間是1971年，地點是眷村。

葉老四

2026-04-15 09:44:36

高崗不出事，可以授予元帥嗎？肯定可以，而且排名會比較靠前

高崗不出事，可以授予元帥嗎？肯定可以，而且排名會比較靠前

歷來縱橫

2026-04-14 20:43:24

金像獎2026：梁家輝五封影帝，廖子妤擊敗章子怡奪影后

金像獎2026：梁家輝五封影帝，廖子妤擊敗章子怡奪影后

金風說

2026-04-20 07:26:28

轉告家里所有人：門外一喊這幾句，馬上提高警惕，很多人已上當

轉告家里所有人：門外一喊這幾句，馬上提高警惕，很多人已上當

荷蘭豆愛健康

2026-04-20 06:17:00

英超最新積分戰報阿森納又悲劇？曼城拿下榜首大戰奪爭冠主動權

英超最新積分戰報阿森納又悲劇？曼城拿下榜首大戰奪爭冠主動權

狂言體育

2026-04-20 07:40:44

伊朗宣布對所有商船開放霍爾木茲海峽

伊朗宣布對所有商船開放霍爾木茲海峽

環球網資訊

2026-04-17 21:29:34

現場開炮！波蘭議員當眾嘲諷以色列：看好了，你們國旗長這樣才對

現場開炮！波蘭議員當眾嘲諷以色列：看好了，你們國旗長這樣才對

諦聽骨語本尊

2026-04-15 18:13:09

接父母來城里養老90天，我才明白：沒退休金的老人，孝順也養不起

接父母來城里養老90天，我才明白：沒退休金的老人，孝順也養不起

木子言故事

2026-04-19 10:47:16

《八千里路云和月》大結局，田家泰犧牲，七哥的真正身份曝光

《八千里路云和月》大結局，田家泰犧牲，七哥的真正身份曝光

看盡落塵花q

2026-04-19 23:49:01

女演員千萬別整容《八千里路云和月》看43歲萬茜和24歲王和就知道

女演員千萬別整容《八千里路云和月》看43歲萬茜和24歲王和就知道

亦暖追劇隨筆

2026-04-17 12:28:50

大爆發！上海，再迎交通利好！

新浪財經

2026-04-19 19:10:24

小米 YU9 要來了，外觀真的猛！

小米 YU9 要來了，外觀真的猛！

花果科技

2026-04-17 13:44:41

欺下媚上的中國人

虔青

2026-04-19 17:34:03

金像獎上最耀眼的5位明星，個個拿獎，實至名歸，皆被觀眾喜愛

金像獎上最耀眼的5位明星，個個拿獎，實至名歸，皆被觀眾喜愛

叨嘮

2026-04-20 03:23:05

樹倒猢猻散！峰學未來翻天了, 大鵬高調離職反踩一腳, 張姩菡不忍

樹倒猢猻散！峰學未來翻天了, 大鵬高調離職反踩一腳, 張姩菡不忍

阿鳧愛吐槽

2026-04-16 06:07:04

Ai學習的老章

Ai學習的老章

3334文章數 11137關注度

往期回顧全部

科技要聞

藍色起源一級火箭完美回收客戶衛星未入軌

頭條要聞

牛彈琴：美國向伊朗貨輪開火并將其控制該伊朗發飆了

頭條要聞

牛彈琴：美國向伊朗貨輪開火并將其控制該伊朗發飆了

體育要聞

湖人1比0火箭：老詹比烏度卡像教練

娛樂要聞

何潤東漲粉百萬！內娛隔空掀桌第一人

財經要聞

月之暗面IPO迷局

汽車要聞

29分鐘大定破萬極氪8X為什么這么多人買？

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

房產

游戲

親子

藝術

公開課

房產要聞

官宣簽約最強城更！海口樓市，突然殺入神秘房企！

寶可夢真的能吃！寶可夢30周年御三家變美食

親子要聞

孩子這些異常行為，可能是隱蔽的求救信號！

藝術要聞

鄭麗文手稿返臺，書圣時代是否重現？驚人細節曝光！

公開課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
13個毀掉你生活的不良習慣
李彥宏：百度離破產30天

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版

<sub id="y1sle"></sub>

<rp id="y1sle"></rp>

<em id="y1sle"><rt id="y1sle"></rt></em>

<style id="y1sle"><rp id="y1sle"></rp></style><sub id="y1sle"></sub>