<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      一些大模型,高分低能,為何?

      0
      分享至

      這篇文章的思路來自 Philipp Schmid,由 minghao 推薦
      https://www.philschmid.de/agent-harness-2026

      很多人,會有這個體驗
      有些模型,在排行榜上分數很高,但實際用起來經常翻車
      問個問題還行,讓干活就開始犯蠢

      原因很簡單

      排行榜測的是單輪能力,或者幾輪簡單交互

      但真實場景里,你讓 Agent 跑一個復雜任務,可能要調用幾十上百次工具,跑幾個小時

      排行榜 1% 的差距,測不出 50 步之后的差異

      這就是「持久性」問題

      有些模型,可能足夠聰明,一兩次嘗試就能解開難題
      但跑了一個小時后,可能無法遵循最初的指令,或者在中間步驟的推理出錯

      怎么解決?
      Philipp Schmid 提了一個概念,叫 Agent Harness

      Harness 是什么

      Harness 本意是馬具、挽具,引申為「駕馭某物的裝置」

      軟件領域最常見的用法是 test harness 測試框架

      Agent Harness 是同樣的思路:
      包裹在 AI 模型外層,管理 Agent 長周期運行的基礎設施層

      用計算機來類比:

      模型是 CPU,提供原始算力

      上下文窗口是內存,有限的、易失的工作記憶

      Agent Harness 是操作系統,管理上下文、處理啟動流程、提供標準驅動

      Agent 是應用程序,運行在操作系統之上的具體用戶邏輯


      Philipp Schmid 畫的示意圖,一目了然

      Harness 的層級比 Agent 框架更高

      框架提供的是構建模塊,工具接口、Agent 循環的實現

      Harness 提供的是預設 Prompt、工具調用的規范化處理、生命周期鉤子,以及開箱即用的能力,規劃、文件系統訪問、子 Agent 管理

      對開發者來說,這意味著可以跳過「造操作系統」,直接專注于定義 Agent 的獨特邏輯

      目前通用型 Harness 還很少。Claude Code 是這個品類的典型代表,Claude Agent SDK 和 LangChain DeepAgents 也在嘗試標準化

      Harness 能做三件事

      驗證真實進展
      新模型頻繁發布,Harness 讓用戶能快速測試最新模型在自己場景下的表現,而不是看排行榜猜

      釋放模型潛力
      沒有 Harness,用戶體驗可能落后于模型能力。好的 Harness 讓開發者能用經過驗證的工具和最佳實踐來構建 Agent

      創造反饋閉環
      Harness 把模糊的、多步驟的 Agent 工作流轉化為可記錄、可評分的結構化數據。哪一步出了問題,一目了然

      苦澀教訓

      Rich Sutton 寫過一篇文章叫《苦澀的教訓

      核心觀點:利用算力的通用方法,每次都能打敗手工編碼的人類知識

      這個教訓正在 Agent 開發領域上演

      Manus 在六個月內重構了五次 Harness,去除僵化的假設

      LangChain 一年內重新架構了三次「Open Deep Research」Agent

      Vercel 砍掉了 80% 的 Agent 工具,換來更少的步驟、更少的 Token、更快的響應

      每次新模型發布,都有不同的最優 Agent 架構方式

      2024 年需要復雜手工流水線的能力,到 2026 年可能只需要一個上下文窗口內的 Prompt 就能搞定

      如果過度設計控制流,下一次模型更新就會讓系統崩潰

      怎么做

      至于該怎么做,原作者給到了三條原則:

      從簡單開始
      不要構建龐大的控制流。提供健壯的原子工具,讓模型自己規劃。實現護欄、重試和驗證

      為刪除而構建
      讓架構模塊化。新模型會替代你的邏輯,必須隨時準備好撕掉代碼

      Harness 就是數據集
      競爭優勢不再是 Prompt,而是 Harness 捕獲的軌跡數據。每一次 Agent 在工作流后期未能遵循指令的失敗案例,都可以用來訓練下一代模型

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      除夕當天,牢記1不洗、2不倒、3不回、4不空、5要吃,吉祥過大年

      除夕當天,牢記1不洗、2不倒、3不回、4不空、5要吃,吉祥過大年

      秀廚娘
      2026-02-15 08:45:25
      吃著中國,想著日本?哈薩克斯坦距離烏克蘭第二,到底還有多遠?

      吃著中國,想著日本?哈薩克斯坦距離烏克蘭第二,到底還有多遠?

      靜夜史君
      2026-02-15 23:47:18
      米蘭冬奧會速滑男子500米!前三名均破奧運紀錄!高亭宇獲第七

      米蘭冬奧會速滑男子500米!前三名均破奧運紀錄!高亭宇獲第七

      小蘭看體育
      2026-02-15 17:21:27
      是國米球迷!意大利參議院議長:國米在主場贏尤文會感到雙倍快樂

      是國米球迷!意大利參議院議長:國米在主場贏尤文會感到雙倍快樂

      硯底沉香
      2026-02-16 02:03:14
      美媒:美司法部致函國會議員的愛潑斯坦案名單竟出現夢露等人,美議員質疑“故意混淆視聽”

      美媒:美司法部致函國會議員的愛潑斯坦案名單竟出現夢露等人,美議員質疑“故意混淆視聽”

      環球網資訊
      2026-02-15 19:38:08
      馬筱梅情人節曬幸福!汪小菲去臺北過節,小玥兒和箖箖跟后外婆睡

      馬筱梅情人節曬幸福!汪小菲去臺北過節,小玥兒和箖箖跟后外婆睡

      離離言幾許
      2026-02-14 23:12:38
      TOP14位身高170以上的女神,有顏有燈有演技

      TOP14位身高170以上的女神,有顏有燈有演技

      素然追光
      2026-01-02 02:45:02
      網紅幼虎去世后被“替身”直播,死亡7天后飼養員稱“正曬太陽”;區政府成立調查組,信息上報、跨園轉運真相成謎

      網紅幼虎去世后被“替身”直播,死亡7天后飼養員稱“正曬太陽”;區政府成立調查組,信息上報、跨園轉運真相成謎

      大風新聞
      2026-02-15 18:00:11
      體壇名將放棄中國國籍,轉為美國國籍,14歲時在亞運會創造歷史

      體壇名將放棄中國國籍,轉為美國國籍,14歲時在亞運會創造歷史

      米修體育
      2026-01-24 12:47:31
      應急管理部派出工作組趕赴江蘇東海事故現場指導工作

      應急管理部派出工作組趕赴江蘇東海事故現場指導工作

      國際在線
      2026-02-16 02:55:03
      今年沒有年三十,什么時候貼春聯最好?2個黃金時段定好

      今年沒有年三十,什么時候貼春聯最好?2個黃金時段定好

      白淺娛樂聊
      2026-02-15 12:49:58
      佘詩曼辛苦一年終于放假游泰國,偷拍媽媽挑水果背面照充滿幸福

      佘詩曼辛苦一年終于放假游泰國,偷拍媽媽挑水果背面照充滿幸福

      老頭的傳奇色彩
      2026-02-14 19:05:06
      美國歷史上第一位二百五總統即將誕生,就是當今美國總統特朗普…

      美國歷史上第一位二百五總統即將誕生,就是當今美國總統特朗普…

      福建平子
      2026-02-08 13:17:52
      偷雞摸狗,好賭成性?離過年僅四天,何慶魁的體面被兒子撕得粉碎

      偷雞摸狗,好賭成性?離過年僅四天,何慶魁的體面被兒子撕得粉碎

      筆墨V
      2026-02-14 18:34:18
      房子里有“不干凈”的東西,會有以下3種特征,占一樣也不得了

      房子里有“不干凈”的東西,會有以下3種特征,占一樣也不得了

      神奇故事
      2026-01-05 23:24:05
      古巴已進入倒計時。

      古巴已進入倒計時。

      素顏為誰傾城人
      2026-02-15 05:04:46
      原來iPhone信號差是沒開對,這個隱藏設置一開,信號直接滿格

      原來iPhone信號差是沒開對,這個隱藏設置一開,信號直接滿格

      小柱解說游戲
      2026-02-13 12:20:15
      谷愛凌再遭美國網友網暴:沒收她的財產!回美國是非法滯留 魯比奧查她

      谷愛凌再遭美國網友網暴:沒收她的財產!回美國是非法滯留 魯比奧查她

      小椰的奶奶
      2026-02-13 08:02:35
      福特號突然出動了,伊朗這下是真難了!

      福特號突然出動了,伊朗這下是真難了!

      Ck的蜜糖
      2026-02-16 02:51:46
      2026春晚第五次彩排完成,趙本山宋丹丹回歸懸疑終揭曉

      2026春晚第五次彩排完成,趙本山宋丹丹回歸懸疑終揭曉

      丁羂解說
      2026-02-15 14:12:01
      2026-02-16 05:08:49
      賽博禪心
      賽博禪心
      拜AI古佛,修賽博禪心
      293文章數 36關注度
      往期回顧 全部

      科技要聞

      發春節紅包的大廠都被約談了

      頭條要聞

      大學生寒假為媽媽店鋪當中老年服裝模特 撞臉明星

      頭條要聞

      大學生寒假為媽媽店鋪當中老年服裝模特 撞臉明星

      體育要聞

      NBA三分大賽:利拉德帶傷第三次奪冠

      娛樂要聞

      2026央視春晚最新劇透 重量級嘉賓登場

      財經要聞

      誰在掌控你的胃?起底百億"飄香劑"江湖

      汽車要聞

      奔馳中國換帥:段建軍離任,李德思接棒

      態度原創

      本地
      數碼
      游戲
      家居
      房產

      本地新聞

      春花齊放2026:《駿馬奔騰迎新歲》

      數碼要聞

      盲測顯示:音頻發燒友無法分辨銅線、香蕉與濕泥傳輸的音頻信號

      LPL第一賽段還未結束,亞運會已有3隊退出LOL比賽,包括東道主

      家居要聞

      中古雅韻 樂韻伴日常

      房產要聞

      三亞新機場,又傳出新消息!

      無障礙瀏覽 進入關懷版