<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>

色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3

<sub id="eo8zl"><i id="eo8zl"></i></sub>

<p id="eo8zl"><li id="eo8zl"><menuitem id="eo8zl"></menuitem></li></p>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

一些大模型，高分低能，為何？

2026-01-06 17:25:38　來源: 賽博禪心

北京舉報

0

分享至

這篇文章的思路來自 Philipp Schmid，由 minghao 推薦
https://www.philschmid.de/agent-harness-2026

很多人，會有這個體驗
有些模型，在排行榜上分數很高，但實際用起來經常翻車
問個問題還行，讓干活就開始犯蠢

原因很簡單

排行榜測的是單輪能力，或者幾輪簡單交互

但真實場景里，你讓 Agent 跑一個復雜任務，可能要調用幾十上百次工具，跑幾個小時

排行榜 1% 的差距，測不出 50 步之后的差異

這就是「持久性」問題

有些模型，可能足夠聰明，一兩次嘗試就能解開難題
但跑了一個小時后，可能無法遵循最初的指令，或者在中間步驟的推理出錯

怎么解決？
Philipp Schmid 提了一個概念，叫 Agent Harness

Harness 是什么

Harness 本意是馬具、挽具，引申為「駕馭某物的裝置」

軟件領域最常見的用法是 test harness 測試框架

Agent Harness 是同樣的思路：
包裹在 AI 模型外層，管理 Agent 長周期運行的基礎設施層

用計算機來類比：

模型是 CPU，提供原始算力

上下文窗口是內存，有限的、易失的工作記憶

Agent Harness 是操作系統，管理上下文、處理啟動流程、提供標準驅動

Agent 是應用程序，運行在操作系統之上的具體用戶邏輯

Philipp Schmid 畫的示意圖，一目了然

Harness 的層級比 Agent 框架更高

框架提供的是構建模塊，工具接口、Agent 循環的實現

Harness 提供的是預設 Prompt、工具調用的規范化處理、生命周期鉤子，以及開箱即用的能力，規劃、文件系統訪問、子 Agent 管理

對開發者來說，這意味著可以跳過「造操作系統」，直接專注于定義 Agent 的獨特邏輯

目前通用型 Harness 還很少。Claude Code 是這個品類的典型代表，Claude Agent SDK 和 LangChain DeepAgents 也在嘗試標準化

Harness 能做三件事

驗證真實進展
新模型頻繁發布，Harness 讓用戶能快速測試最新模型在自己場景下的表現，而不是看排行榜猜

釋放模型潛力
沒有 Harness，用戶體驗可能落后于模型能力。好的 Harness 讓開發者能用經過驗證的工具和最佳實踐來構建 Agent

創造反饋閉環
Harness 把模糊的、多步驟的 Agent 工作流轉化為可記錄、可評分的結構化數據。哪一步出了問題，一目了然

苦澀教訓

Rich Sutton 寫過一篇文章叫《苦澀的教訓》

核心觀點：利用算力的通用方法，每次都能打敗手工編碼的人類知識

這個教訓正在 Agent 開發領域上演

Manus 在六個月內重構了五次 Harness，去除僵化的假設

LangChain 一年內重新架構了三次「Open Deep Research」Agent

Vercel 砍掉了 80% 的 Agent 工具，換來更少的步驟、更少的 Token、更快的響應

每次新模型發布，都有不同的最優 Agent 架構方式

2024 年需要復雜手工流水線的能力，到 2026 年可能只需要一個上下文窗口內的 Prompt 就能搞定

如果過度設計控制流，下一次模型更新就會讓系統崩潰

怎么做

至于該怎么做，原作者給到了三條原則：

從簡單開始
不要構建龐大的控制流。提供健壯的原子工具，讓模型自己規劃。實現護欄、重試和驗證

為刪除而構建
讓架構模塊化。新模型會替代你的邏輯，必須隨時準備好撕掉代碼

Harness 就是數據集
競爭優勢不再是 Prompt，而是 Harness 捕獲的軌跡數據。每一次 Agent 在工作流后期未能遵循指令的失敗案例，都可以用來訓練下一代模型

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

GLM-5真夠頂：超24小時跑代碼，700次工具調用、800次切上下文！

量子位 2026-02-14 16:11:24
5 跟貼 5
CMU開源首份Agentic Search日志數據，把Agent拆開給你看

機器之心Pro 2026-02-09 12:05:13
0 跟貼 0

編程已死，鍵盤長草！Claude Code之父對談Kaparthy，全程爆金句

新智元 2026-02-04 11:41:01
62 跟貼 62

字節豆包2.0發布：推理成本降一個數量級，正面對標GPT-5和Gemini 3

華爾街見聞官方 2026-02-14 17:29:39
66 跟貼 66
透視高層住宅：從建設到衰敗的資產邏輯。一起來聽聽

豎笛小魔王 2026-02-15 04:08:45
23 跟貼 23

Agent、圖像、視頻全是大版本升級：春晚還沒開，豆包AI就火了

機器之心Pro 2026-02-14 16:36:33
4 跟貼 4

程序員不許寫代碼！OpenAI硬核實驗：3人指揮AI，5個月造出百萬行

新智元 2026-02-15 12:12:36
11 跟貼 11
重塑軟件工程：從Vibe Coding走向Spec Coding

鈦媒體APP 2026-02-11 09:37:53
46 跟貼 46

熱搜炸了！DeepSeek被罵回應冷漠，官方回應來了

雷科技 2026-02-13 23:04:59
51 跟貼 51
大模型最難的AI Infra，用Vibe Coding搞定

機器之心Pro 2026-01-07 15:33:06
0 跟貼 0
美媒發出感慨：美國過時了中國出乎意料成了熱門

環球時報 2026-02-15 12:00:05
14700 跟貼 14700
當AI開始“記得”你：與兩位創業者拆解AI記憶技術

DeepTech深科技 2026-02-14 12:28:54
0 跟貼 0
2026年的AI：向人立心，向實立命 | 2026商業新愿景

經濟觀察報 2026-02-14 11:20:06
0 跟貼 0
人類首遭AI網暴社死？OpenClaw改代碼遭拒，怒寫小作文報復

新智元 2026-02-15 09:29:24
70 跟貼 70
OpenClaw狂跑兩周，打醒了硬件和Agent廠商

鈦媒體APP 2026-02-13 18:33:07
1 跟貼 1
萬億思考模型奪下IMO金牌，無縫接入OpenClaw！一句話手搓丐版PS

新智元 2026-02-15 12:17:21
18 跟貼 18
企業做知識問答助手，最大的坑是邊界失控

互聯網悅讀筆記 2026-02-13 18:26:56
0 跟貼 0
微軟放話一年消滅白領！硅谷老板流行借助AI親自上手一切

新智元 2026-02-15 19:06:11
9 跟貼 9
“SaaS已死，SaaS到來”！Altman預言“全AI企業”時代開啟

華爾街見聞官方 2026-02-15 11:46:16
17 跟貼 17
OpenAI高管：工程師變成“魔法師”，AI將開啟新一輪創業狂潮

華爾街見聞官方 2026-02-15 16:00:24
3 跟貼 3
就愛看大張偉說段子，全程無邏輯吐槽，閻鶴祥笑到起不來身

琴音似君語 2026-02-14 08:19:45
1 跟貼 1
大逆轉！最低溫-1℃！冷空氣即將抵達廣西

環球網資訊 2026-02-15 15:34:20
39 跟貼 39
AI催生巨量Token消耗、內存硬件緊缺算力租賃熱潮下，運營商加碼布局液冷服務器

每日經濟新聞 2026-02-15 19:35:15
7 跟貼 7
Seedance一騎絕塵背后：中國AI春節前為何“殺瘋了”？

澎湃新聞 2026-02-15 07:50:28
118 跟貼 118
小鳥從小比較嬌貴，必須要手養它才行，有了模型養幾十只不是問題

發怒的福貓 2026-02-13 13:39:20
2 跟貼 2
海南封關后首個春運：瓊州海峽過海車票售罄，官方提示“黃牛”陷阱

澎湃新聞 2026-02-15 11:39:08
52 跟貼 52
重慶兩套法拍房以192萬余元起拍，物業欠費卻達108萬余元，物業方回應：實際欠費28萬余元，80萬余元滯納金可協商處理

極目新聞 2026-02-15 14:37:25
4312 跟貼 4312
極佳視界斬獲全球第一后，GigaBrain-0.5M*再進化

機器之心Pro 2026-02-14 15:39:15
0 跟貼 0
神二十乘組談舷窗裂紋發現過程:通過40倍顯微鏡看清楚

央視新聞客戶端 2026-02-15 22:52:38
586 跟貼 586
最高可得2888元！剛剛，千問APP宣布發放口令紅包

大象新聞 2026-02-15 17:59:05
46 跟貼 46
保費沒收、程序沒走完，日本急著釋放中國船長，讓漁民別去釣魚島

軍衛防務 2026-02-15 12:08:12
0 跟貼 0
上海二手房交易中心烏泱泱擠滿人，感受樓市“小陽春”｜新春走基層

每日經濟新聞 2026-02-15 09:23:08
491 跟貼 491
眼鏡布不是用來擦眼鏡的？原來這么多年，一直用錯了

環球網資訊 2026-02-15 12:46:03
70 跟貼 70
玩游戲打個字能讓電腦也受影響？

手談姬 2026-02-15 23:45:30
4 跟貼 4
張之臻布里斯班奪冠！

揚子晚報 2026-02-15 14:23:22
97 跟貼 97
機械門鎖+門搭扣原理，運作邏輯全解析構，一看就懂

七怪看世界 2026-02-14 11:30:14
1 跟貼 1
國投瑞銀LOF出臺補償方案：1000元以下損失全額補償

界面新聞 2026-02-15 21:28:21
443 跟貼 443
跨大西洋關系裂痕加劇歐洲高調提“戰略自主”

國際在線 2026-02-15 10:07:34
157 跟貼 157
安徽高速最新路況

黃河新聞網呂梁頻道 2026-02-15 11:27:19
4 跟貼 4
溫州知名房開！終結破產

甌越聲音 2026-02-16 00:06:09
0 跟貼 0

除夕當天，牢記1不洗、2不倒、3不回、4不空、5要吃，吉祥過大年

除夕當天，牢記1不洗、2不倒、3不回、4不空、5要吃，吉祥過大年

秀廚娘

2026-02-15 08:45:25

吃著中國，想著日本？哈薩克斯坦距離烏克蘭第二，到底還有多遠？

吃著中國，想著日本？哈薩克斯坦距離烏克蘭第二，到底還有多遠？

靜夜史君

2026-02-15 23:47:18

米蘭冬奧會速滑男子500米！前三名均破奧運紀錄！高亭宇獲第七

米蘭冬奧會速滑男子500米！前三名均破奧運紀錄！高亭宇獲第七

小蘭看體育

2026-02-15 17:21:27

是國米球迷！意大利參議院議長：國米在主場贏尤文會感到雙倍快樂

是國米球迷！意大利參議院議長：國米在主場贏尤文會感到雙倍快樂

硯底沉香

2026-02-16 02:03:14

美媒：美司法部致函國會議員的愛潑斯坦案名單竟出現夢露等人，美議員質疑“故意混淆視聽”

美媒：美司法部致函國會議員的愛潑斯坦案名單竟出現夢露等人，美議員質疑“故意混淆視聽”

環球網資訊

2026-02-15 19:38:08

馬筱梅情人節曬幸福！汪小菲去臺北過節，小玥兒和箖箖跟后外婆睡

馬筱梅情人節曬幸福！汪小菲去臺北過節，小玥兒和箖箖跟后外婆睡

離離言幾許

2026-02-14 23:12:38

TOP14位身高170以上的女神，有顏有燈有演技

TOP14位身高170以上的女神，有顏有燈有演技

素然追光

2026-01-02 02:45:02

網紅幼虎去世后被“替身”直播，死亡7天后飼養員稱“正曬太陽”；區政府成立調查組，信息上報、跨園轉運真相成謎

網紅幼虎去世后被“替身”直播，死亡7天后飼養員稱“正曬太陽”；區政府成立調查組，信息上報、跨園轉運真相成謎

大風新聞

2026-02-15 18:00:11

體壇名將放棄中國國籍，轉為美國國籍，14歲時在亞運會創造歷史

體壇名將放棄中國國籍，轉為美國國籍，14歲時在亞運會創造歷史

米修體育

2026-01-24 12:47:31

應急管理部派出工作組趕赴江蘇東海事故現場指導工作

應急管理部派出工作組趕赴江蘇東海事故現場指導工作

國際在線

2026-02-16 02:55:03

今年沒有年三十，什么時候貼春聯最好？2個黃金時段定好

今年沒有年三十，什么時候貼春聯最好？2個黃金時段定好

白淺娛樂聊

2026-02-15 12:49:58

佘詩曼辛苦一年終于放假游泰國，偷拍媽媽挑水果背面照充滿幸福

佘詩曼辛苦一年終于放假游泰國，偷拍媽媽挑水果背面照充滿幸福

老頭的傳奇色彩

2026-02-14 19:05:06

美國歷史上第一位二百五總統即將誕生，就是當今美國總統特朗普…

美國歷史上第一位二百五總統即將誕生，就是當今美國總統特朗普…

福建平子

2026-02-08 13:17:52

偷雞摸狗，好賭成性？離過年僅四天，何慶魁的體面被兒子撕得粉碎

偷雞摸狗，好賭成性？離過年僅四天，何慶魁的體面被兒子撕得粉碎

筆墨V

2026-02-14 18:34:18

房子里有“不干凈”的東西，會有以下3種特征，占一樣也不得了

房子里有“不干凈”的東西，會有以下3種特征，占一樣也不得了

神奇故事

2026-01-05 23:24:05

古巴已進入倒計時。

素顏為誰傾城人

2026-02-15 05:04:46

原來iPhone信號差是沒開對，這個隱藏設置一開，信號直接滿格

原來iPhone信號差是沒開對，這個隱藏設置一開，信號直接滿格

小柱解說游戲

2026-02-13 12:20:15

谷愛凌再遭美國網友網暴：沒收她的財產！回美國是非法滯留魯比奧查她

谷愛凌再遭美國網友網暴：沒收她的財產！回美國是非法滯留魯比奧查她

小椰的奶奶

2026-02-13 08:02:35

福特號突然出動了，伊朗這下是真難了！

福特號突然出動了，伊朗這下是真難了！

Ck的蜜糖

2026-02-16 02:51:46

2026春晚第五次彩排完成，趙本山宋丹丹回歸懸疑終揭曉

2026春晚第五次彩排完成，趙本山宋丹丹回歸懸疑終揭曉

丁羂解說

2026-02-15 14:12:01

拜AI古佛，修賽博禪心

293文章數 36關注度

往期回顧全部

科技要聞

發春節紅包的大廠都被約談了

頭條要聞

大學生寒假為媽媽店鋪當中老年服裝模特撞臉明星

頭條要聞

大學生寒假為媽媽店鋪當中老年服裝模特撞臉明星

體育要聞

NBA三分大賽:利拉德帶傷第三次奪冠

娛樂要聞

2026央視春晚最新劇透重量級嘉賓登場

財經要聞

誰在掌控你的胃？起底百億"飄香劑"江湖

汽車要聞

奔馳中國換帥：段建軍離任，李德思接棒

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

本地

數碼

游戲

家居

房產

本地新聞

春花齊放2026：《駿馬奔騰迎新歲》

數碼要聞

盲測顯示：音頻發燒友無法分辨銅線、香蕉與濕泥傳輸的音頻信號

LPL第一賽段還未結束，亞運會已有3隊退出LOL比賽，包括東道主

家居要聞

中古雅韻樂韻伴日常

本真棲居愛暖伴流年
簡雅閑居靜享時光柔
寧靜港灣靈動與詩意

房產要聞

三亞新機場，又傳出新消息！

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版

<style id="kbinu"></style>

<sub id="kbinu"><rt id="kbinu"></rt></sub>

<style id="kbinu"></style>

<p id="kbinu"></p>