<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      Meta-Harness讓Haiku性能狂飆,甚至追平Opus!

      0
      分享至


      新智元報道

      編輯:傾傾

      【新智元導讀】如果未來的某天,AI智能體可以給自己調參數,修bug,會發生什么?

      就在這兩天,斯坦福IRIS Lab的博士生Yoonho Lee聯合MIT、威斯康星大學的研究者放出一篇新論文,把AI智能體優化的邏輯翻了個個兒。

      作者陣容十分豪華。導師是機器人學習明星學者Chelsea Finn,合作者里還有DSPy框架作者Omar Khattab。

      曾經,大家卷模型本身的參數量、訓練數據、RLHF。但Meta-Harness另辟蹊徑:支撐模型運行的那層「腳手架」同樣決定生死。

      這些東西以前全靠人工調。現在,Meta-Harness讓AI自己來干這活。


      結果十分完美:Claude Haiku 4.5的成功率達到37.6%,登頂所有Haiku智能體榜首;Claude Opus 4.6更是達到76.4%,僅次于榜一ForgeCode。

      模型是商品,Harness決定成敗

      harness指的是一整套基礎設施:系統提示詞、工具定義、重試邏輯、上下文管理、子代理協調、生命周期鉤子。

      模型本身只是個大腦,harness才是讓這個大腦能干活的身體。

      這個概念在2026年突然爆火,業界終于意識到,同一個模型,換個harness,性能差距可以大到離譜

      2月,工程師Can B?lük做了個實驗。

      他只改編輯格式,不動模型,15個LLM的編碼性能提升了5到14個百分點,輸出token還減少了約20%。


      更夸張的是,GPT-4 Turbo僅僅換了一種編輯格式,準確率就從26%飆升到59%。

      同樣的模型,性能差了一倍多,唯一變量是harness。

      Agent = Model + Harness,成了最熱門的趨勢

      模型提供智能,harness讓智能變得有用。

      Claude Code、Codex在做同一件事:精心設計harness來彌補模型的短板。

      那么問題來了,harness工程目前高度依賴人工。

      工程師得手動寫提示詞、調工具接口、設計重試策略,然后跑測試、看日志、猜哪里出了問題、改代碼、再跑測試。

      這個循環費時費力,而且很多失敗模式根本不是人能輕易診斷的。

      Meta-Harness想做的,就是把這個循環自動化。

      400倍信息量:AI自己「復盤+迭代」

      Meta-Harness嘗試著給優化器看更多東西。聽起來簡單,但這恰恰是過去所有方法的瓶頸。

      論文這張對比表,列出了主流文本每一步能看到多少上下文:


      Meta-Harness 與主流優化方法的上下文觀察量對比。

      Self-Refine只看最近一次輸出加自我批評,大約1000 token;

      OPRO看過去幾輪的方案和分數,大約2000 token;

      TextGrad、AlphaEvolve、GEPA這些更先進的方法,也就在8000到26000 token之間。

      Meta-Harness呢?最高1000萬token,差距是400倍。

      為什么需要這么多?因為harness工程產生的失敗模式,往往藏在執行軌跡的細節里。

      一個任務跑失敗了,原因可能是十步之前的某個工具調用返回了截斷的輸出,導致后續推理全歪。

      如果優化器只能看到一個「失敗」的標量分數,或者一段壓縮過的摘要,它根本沒法定位問題。

      Meta-Harness的做法,是給proposer一個完整的文件系統。

      這個文件系統里裝著所有歷史候選harness的源代碼、每一輪的執行軌跡、命令日志、錯誤信息、超時行為、評分結果。

      Proposer可以用grep、cat這些標準工具自己去翻,想看哪個文件就看哪個,想搜哪個關鍵詞就搜哪個。

      優化器不再是在固定prompt上做推理,而是一個會檢索信息、瀏覽歷史、編輯代碼的代理。

      proposer用的是Claude Code,它不需要被喂壓縮過的信息,它有能力自己決定看什么、怎么看。

      整個搜索循環很直白:

      1. Proposer讀取文件系統里的歷史記錄

      2. 分析哪些任務失敗了、失敗原因是什么

      3. 針對性地重寫harness代碼

      4. 新harness跑測試,結果寫回文件系統

      5. 循環繼續


      Meta-Harness 核心優化閉環示意圖。Proposer 從“包含全部歷史經驗”的文件系統讀取完整軌跡(①),提出新的 Harness 代碼 → 結合 LLM 執行任務并評估(②)→ 將 Proposed Code、Reasoning Traces、Eval Score 等全部日志存回文件系統(③),實現自我迭代。

      論文展示了一個19任務子集上的搜索過程。

      從Terminus-KIRA基線的28.5%起步,到第7輪迭代就漲到了46.5%。


      Meta-Harness 在 19 任務子集上的迭代優化過程。從 Terminus-KIRA 基線 28.5% 的成功率起步,第 7 輪迭代達到 46.5%,展示了通過完整執行軌跡診斷實現的高效 harness 優化。

      每一輪都基于具體的執行軌跡做「反事實診斷」——如果我當時這樣處理,結果會不會不一樣?

      舉個例子,第7輪的改進是在第一次LLM調用之前先跑一條shell命令,把環境依賴信息注入到初始prompt里。

      加一條命令,省掉無謂的試錯。 這種程度的診斷精度,靠壓縮摘要是做不到的。

      89個任務,小模型登頂

      Meta-Harness分了三個場景做了測試:文本分類、數學推理、代碼代理。

      代碼代理用的基準是TerminalBench-2,它包含89個Docker化任務,覆蓋代碼翻譯、分布式機器學習配置、系統編程、生物信息學、密碼分析等領域。

      每個任務都是二元評分,跑5次取平均,難度相當高。

      因為它們需要長程自主執行、處理復雜依賴、應對截斷的終端輸出,還得有相當的領域知識。

      這個基準被幾乎所有主流前沿實驗室用來衡量代碼代理的實際能力,是繼SWE-bench之后又一個被廣泛認可的「真實工作」測試集。

      Meta-Harness的做法是優化完整的編碼harness,包括系統提示詞、工具定義、完成檢測邏輯、上下文管理,全部都在優化范圍內。

      Proposer會讀取每個任務的執行軌跡,診斷失敗模式,然后提出針對性修復。

      結果,Claude Haiku 4.5的成功率達到37.6%,在所有Haiku 4.5代理中排名第一,超過第二名Goose的35.5%

      Claude Opus 4.6的成功率高達76.4%,在所有Opus 4.6代理中排名第二,僅次于ForgeCode的81.8%

      需要強調的是,Haiku是Claude系列里最輕量的版本,參數量遠小于Opus。

      傳統思路下,小模型就是不如大模型,性能天花板是硬傷。

      但Meta-Harness證明,通過優化harness,小模型的天花板可以被顯著抬高。


      Meta-Harness 端到端優化結果總結。(左)在文本分類任務上,Meta-Harness 以極少的評估次數就超越了 ACE、OpenEvolve 等先前方法;(右)在 TerminalBench-2 基準上,Meta-Harness 優化的 Claude Haiku 4.5 harness 達到 37.6% 通過率,超越所有已報道的 Haiku 4.5 harness(包括 Goose 35.5% 和 Terminus-KIRA 33.7%),實現小模型登頂。

      不止代碼:文本分類和數學推理同樣有效

      Meta-Harness不只在代碼任務上管用。

      在文本分類場景下,研究者用了三個數據集:LawBench(215個類別)、Symptom2Disease(22個類別)、USPTO-50k(180個類別),模型是GPT-OSS-120B。

      跑了20輪進化迭代,每輪2個候選,總共產出40個候選harness。

      最佳發現的harness在測試集上達到48.6%準確率,比之前的SOTA方法ACE高出7.7個百分點

      甚至它的成本更低——Meta-Harness只用了45.5K上下文token,而ACE用了203K。


      Meta-Harness 在文本分類任務上的表現。

      研究者還做了直接對比實驗,把Meta-Harness和兩個代表性的程序搜索方法放在一起,給同樣的proposer和評估預算。

      結果是,Meta-Harness用十分之一的評估次數就追平了它們的最終準確率,而最終準確率還比它們高出10個百分點以上。


      Harness Optimizer 搜索進度對比。Meta-Harness(紅色曲線)在極少的 Harness Evaluations 下快速達到最高性能,顯著優于 OpenEvolve、TTTDiscover、ACE 等方法,展現了完整執行軌跡帶來的效率優勢。

      原因就是OpenEvolve和PUCT都把歷史壓縮成固定的prompt格式,丟掉了執行軌跡。Meta-Harness保留了一切。

      在數學推理場景下,Meta-Harness搜索的是檢索增強的推理策略。

      語料庫里有超過50萬道題,來自8個開源數據集。

      研究者在250道題的搜索集上進化出一個檢索harness,然后在200道IMO級別的題目上測試,還額外用了5個搜索時從未見過的模型。

      單一發現的檢索harness在5個新模型上平均提升了4.7個百分點(從34.1%到38.8%),而且是在模型不變的情況下。


      Meta-Harness 檢索策略的跨模型遷移能力。

      這說明Meta-Harness發現的策略是可遷移的,不是只對特定模型有效的過擬合技巧。

      模型能力的競爭正在進入一個新階段。

      過去幾年,前沿實驗室比的是誰的模型更強、參數更多、訓練數據更大、benchmark分數更高。

      但現在,GPT-5、Claude 4、Gemini 3在很多任務上已經拉不開太大差距。

      真正的差距在哪里?在harness。

      同一個模型,配上不同的harness,性能可以差一倍。

      而harness工程目前還高度依賴人工經驗,沒有系統化的方法論,也沒有自動化的工具。

      模型是智能的來源,harness是智能的放大器,而現在,優化harness本身也可以交給AI來做。

      這可能是LLM應用開發進入下一階段的標志。

      參考資料:

      https://x.com/yoonholeee/status/2038640635482456118

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      日本九州大學的中國交換生辦完合約手機,沒有按契約進行還款,拿著手機回中國了……

      日本九州大學的中國交換生辦完合約手機,沒有按契約進行還款,拿著手機回中國了……

      日本物語
      2026-04-02 20:39:33
      曼城4-0利物浦,賽后評分:曼城9號排第一

      曼城4-0利物浦,賽后評分:曼城9號排第一

      俯身沖頂
      2026-04-04 21:35:37
      皇馬客戰馬略卡:姆巴佩、安赫爾、阿諾德首發,維尼修斯替補

      皇馬客戰馬略卡:姆巴佩、安赫爾、阿諾德首發,維尼修斯替補

      懂球帝
      2026-04-04 21:42:07
      上海人喜歡的車型又變了:特斯拉Model Y排第6,途觀L高居第2

      上海人喜歡的車型又變了:特斯拉Model Y排第6,途觀L高居第2

      柳先說
      2026-03-24 21:52:18
      凱特王妃復活節“時裝秀”:歷年絕美造型全回顧,英倫優雅天花板

      凱特王妃復活節“時裝秀”:歷年絕美造型全回顧,英倫優雅天花板

      世界王室那些事
      2026-04-04 14:15:06
      俄羅斯讓中國心涼?真正可怕的不是西方圍堵,而是我們低估了自己

      俄羅斯讓中國心涼?真正可怕的不是西方圍堵,而是我們低估了自己

      聞識
      2026-03-29 16:08:56
      陳光標第一次碰到鋼板,在張雪的陽謀前招架不住

      陳光標第一次碰到鋼板,在張雪的陽謀前招架不住

      一莎觀察
      2026-04-03 15:36:41
      為什么大家都說這個熱巴是假的?細思極恐,真的熱巴去哪里了?

      為什么大家都說這個熱巴是假的?細思極恐,真的熱巴去哪里了?

      娛樂小丸子
      2026-03-30 09:53:37
      朱立倫無條件力挺鄭麗文,藍營大佬集體轉向,只有一人還在沉默

      朱立倫無條件力挺鄭麗文,藍營大佬集體轉向,只有一人還在沉默

      地球記
      2026-04-04 22:53:32
      62歲何賽飛蹲油菜花田,穿布衣白發蒼蒼,這身材氣質誰頂得住?

      62歲何賽飛蹲油菜花田,穿布衣白發蒼蒼,這身材氣質誰頂得住?

      娛樂領航家
      2026-04-04 20:00:03
      特朗普為何沒發聲?昔日顧問:他可能正慌著呢!

      特朗普為何沒發聲?昔日顧問:他可能正慌著呢!

      看看新聞Knews
      2026-04-04 18:59:02
      2019年,滴滴司機鐘元被執行死刑,死前害怕不已,跪地不停懺悔

      2019年,滴滴司機鐘元被執行死刑,死前害怕不已,跪地不停懺悔

      南宗歷史
      2026-03-17 01:08:53
      局勢再度升級!首艘開往中國的油輪遭到襲擊,是誤傷還是警告

      局勢再度升級!首艘開往中國的油輪遭到襲擊,是誤傷還是警告

      小叨娛樂
      2026-04-03 18:12:33
      場均19.3分6助攻!命中率65%!他才20歲,恭喜文班,你的哈登來了

      場均19.3分6助攻!命中率65%!他才20歲,恭喜文班,你的哈登來了

      籃球信息社
      2026-04-04 22:06:08
      西方媒體:就算中國全力以赴,也不可能按時建成這樣龐大的工程

      西方媒體:就算中國全力以赴,也不可能按時建成這樣龐大的工程

      筆墨V
      2026-04-04 14:32:29
      4S店蹭飯260次龐先生本想直播澄清,結果一不小心說漏嘴了

      4S店蹭飯260次龐先生本想直播澄清,結果一不小心說漏嘴了

      西樓知趣雜談
      2026-04-02 13:09:45
      文章近照曝光!發際線后移嚴重,和大女兒聚餐,臉色紅潤愛吃面食

      文章近照曝光!發際線后移嚴重,和大女兒聚餐,臉色紅潤愛吃面食

      潮鹿逐夢
      2026-04-04 18:27:16
      美麗是女人最好的補品

      美麗是女人最好的補品

      疾跑的小蝸牛
      2026-03-03 19:31:24
      山東一男嬰日夜啼哭,母親掀開被子后,將月嫂當場掐死

      山東一男嬰日夜啼哭,母親掀開被子后,將月嫂當場掐死

      罪案洞察者
      2025-03-31 09:35:41
      1-0!青島海牛終結3連敗,但也出現了丑陋一幕,擊潰河南打破魔咒

      1-0!青島海牛終結3連敗,但也出現了丑陋一幕,擊潰河南打破魔咒

      汪星人喲
      2026-04-04 17:28:58
      2026-04-04 23:44:49
      新智元 incentive-icons
      新智元
      AI產業主平臺領航智能+時代
      14893文章數 58248關注度
      往期回顧 全部

      科技要聞

      內存一年漲四倍!國產手機廠商集體漲價

      頭條要聞

      特朗普發文:距離一切災難降臨在伊朗頭上僅剩48小時

      頭條要聞

      特朗普發文:距離一切災難降臨在伊朗頭上僅剩48小時

      體育要聞

      剎不住的泰格·伍茲,口袋里的兩粒藥丸

      娛樂要聞

      Q女士反擊,否認逼宋寧峰張婉婷離婚

      財經要聞

      中微董事長,給半導體潑點冷水

      汽車要聞

      17萬級海豹07EV 不僅續航長還有9分鐘滿電的快樂

      態度原創

      房產
      健康
      親子
      教育
      家居

      房產要聞

      小陽春全面啟動!現房,才是這波行情里最穩的上車票

      干細胞抗衰4大誤區,90%的人都中招

      親子要聞

      孕婦買200元水果被丈夫罵后續:雙標到極致,家境曝光,網友勸離

      教育要聞

      高二英語80多分,如何提分,才能突破140?

      家居要聞

      溫馨多元 愛的具象化

      無障礙瀏覽 進入關懷版