網易首頁 > 網易號 > 正文申請入駐

LLM把簡單任務復雜化，Karpathy無語：有些任務無需那么多思考

2025-08-12 11:16:52　來源: 機器之心Pro

北京舉報

分享至

機器之心報道

編輯：冷貓

隨著推理大模型和思維鏈的出現與普及，大模型具備了「深度思考」的能力，不同任務的泛用性得到了很大的提高。

借助思維鏈，大模型能夠對任務進行深入分析，完成任務規劃與拆解，從而勝任長周期、復雜度高的工作。同時，我們也能更直觀地了解模型的推理與分析過程，從中發現執行環節中的問題，并有針對性地調整指令，以更高效地完成目標。

可以說，有了「深度思考」的推理模型，才有了現在擁有多種輔助功能與自主能力的 AI 智能體。

但現在的大模型漸漸有些偏科了。為了構建應用能力更強的智能體，對長周期的復雜任務能力的追求已經影響到了大模型的推理模式。

不知道大家在平常使用 AI 工具的時候有沒有發現，打開了深度思考后，一些簡單的任務也需要很多的思考，展示了非常冗長的思維鏈，而不打開深度思考的時候，又很難準確的得到想要的回復。

這種現象越來越明顯了，尤其是當大模型進入工作流（例如編碼工作）的時候，其負面效應就更加顯著。

這不，AI 領域的大牛 Andrej Karpathy 也感覺到不對勁，發了長文推來指出這個令人無語的現象。

Karpathy 說，「LLM 在默認狀態下正變得比我日常使用需求更具『自主代理（Agentic）』傾向，甚至有些超出了我的平均使用場景」。

最明顯的的確是編碼任務，模型現在往往會進行較長時間的推理，傾向于在整個代碼庫中列出并搜索（grep）文件，會反復進行網絡搜索，對一些在開發中、且明顯并不完整的代碼里極少出現的邊緣情況過度分析、過度思考，甚至在非常簡單的查詢中，也常常需要幾分鐘后才返回結果。

尤其是在簡單的任務中，比如在運行腳本前快速檢查索引錯誤或其他低級錯誤，根本不需要如此復雜的任務分析和代碼處理。

因此 Karpathy 不得不經常打斷 LLM，并用類似這樣的指令限制它：「停，你想得太多了。只看這一份文件。不要用任何工具。不要過度設計。

這帶來了很多麻煩，不僅是在編碼任務，我們發現日常使用 LLM 工具時候的類似打斷情況也越來越多了。

簡單拿剛發布幾天的 GPT-5 舉個例子，發布時 OpenAI 顯然意識到深度思考的問題，所以他們強調 GPT-5 是一個集成模型，也就是說，你用它的時候不需要在不同模型之間切換，它會自己決定何時需要深入思考。

但這個問題顯然沒有這么簡單。記得當時 GPT-4o 模型的圖像編輯生成功能很好用，但在更新到新模型后就不太一樣了。

我們給了 GPT-5 這個指令：「去除圖中文字，把這張圖變得高清一些，機器人的臉看起來更溫和一些」，希望它能夠調用圖像編輯的功能。

但結果它就開始進行「深度思考」了：

經過了 38 秒的思考，它考慮了很多細節，但仍然未能開始使用圖像生成功能，導致不得不打斷它的任務進程。

或許這也是用戶們無比懷念 GPT-4o 的原因之一。

正如 Karpathy 指出的，隨著默認模式逐漸向這種「超深度思考」的高代理化狀態靠攏，我們反而更需要一個相反的選項—— 一種更直接有效的方式去表達或傳達我的意圖和任務的緊迫程度，從「快速看一眼」到「花 30 分鐘徹底確認后再回來」都能精確指定。

網友們也苦「過度思考」久矣，甚至為此回到了最樸素的使用方法。

對于這件事，Karpathy覺得罪魁禍首似乎是大模型「在長周期任務上進行了大量基準測試優化」，為了在基準測試上得到更好的成績，LLM的思考就更傾向于長周期的復雜任務的實現，因此影響了普通任務的響應。

他指出了兩種情境：

1. 我招呼同事過來看我屏幕上打開的一個文件，問他「這樣對嗎？」

2. 我讓某人坐在桌前，他們有 2 個小時來作答。這是一場考試，風險很高。題目是「這樣對嗎？」

人類協作者能很自然地區分情境 1 和情境 2。但 LLM 并不知道你問的是 1 還是 2，而隨著時間推移、基準測試的不斷「極限化」，它會越來越傾向于假設你問的是情境 2。

這指出了大模型過度思考，復雜化任務的可能原因，大模型的發展不能完全以基準測試分數作為追求。

關于大模型的「過度思考」，有相關經歷和想法歡迎在評論區分享。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

成立兩年半登頂全球AI創作社區，背后是中國團隊在“賣情緒”?

量子位 2026-01-22 19:14:54
0 跟貼 0
PixelRefer ：讓AI從“看大圖”走向“看懂每個對象”

機器之心Pro 2025-11-11 12:49:23
0 跟貼 0

全網瘋轉，Claude Code之父神級代碼首次公開！10億美金秘密來了

新智元 2026-01-24 17:04:22
1 跟貼 1

你刷到的視頻是真的么？用物理規律拆穿Sora謊言

機器之心Pro 2025-11-05 16:27:02
0 跟貼 0
陳天奇、賈揚清點贊：Vibe Coding版PyTorch，連論文都是AI寫的

機器之心Pro 2026-01-23 16:51:26
1 跟貼 1

微軟發布醫療時序基座模型：4540億數據預訓練，解決不規則采樣

量子位 2026-01-24 13:16:13
0 跟貼 0

十二個問題解剖VLA，深度對話小米陳龍、上交穆堯

DeepTech深科技 2026-01-24 21:04:47
0 跟貼 0
死磕機器人大腦的北大副教授，和我們聊了聊具身領域最大的“偏見”

36氪 2026-01-24 21:41:08
0 跟貼 0

行業最大規模具身數據集！出自簡智機器人GenRobot.AI

量子位 2026-01-05 17:11:41
0 跟貼 0
機器人管家Figure 03來了，承包一切家務！

量子位 2025-10-11 10:13:00
0 跟貼 0
機器人疊衣，靈巧手抓萬物，超實用機器人組合來了

量子位 2025-07-29 03:31:41
0 跟貼 0
五八智能四足機器人平臺Q20A，適用于千行百業

量子位 2025-09-30 15:35:41
0 跟貼 0
AI健康助手能取代搜索引擎嗎？

DeepTech深科技 2026-01-24 21:07:22
0 跟貼 0
格斗冠軍機器人突然發瘋！嚇呆研究人員

量子位 2025-07-25 09:10:58
0 跟貼 0
廚師長分享香辣紅油的使用方法：“拌面條”“麻辣雞塊”

美食作家王剛 2026-01-24 14:16:23
3 跟貼 3
讓LLM不再話癆，快手HiPO框架來了

機器之心Pro 2025-11-03 15:10:48
0 跟貼 0
拋梗沒人接，推理沒人聽，為啥如今還是被徹底淪為了棄子？

人間百態中的溫馨 2026-01-23 07:59:45
1 跟貼 1
把它「畫」進隱空間！新框架RoT探索大模型隱空間推理新范式

機器之心Pro 2026-01-23 17:21:24
0 跟貼 0
1223一年級：這個類型的題目，幾乎都這樣填，可以這樣輔導孩子

我服子佩 2026-01-24 10:14:21
1 跟貼 1
退休局長和舞伴相處，美女發出指令讓大爺心急，欲擒故縱拿捏住了

凌霄淺談生活 2026-01-24 00:28:29
0 跟貼 0
試點城市名單公示鄭州、開封入選中央財政將撥款

極目新聞 2026-01-24 18:10:04
266 跟貼 266
1斤315元水果新“刺客”銷售暴漲產區多在山東四川

大象新聞 2026-01-21 13:45:03
789 跟貼 789
許媽這盤棋都以為要拖黃了的時候，一張蓋紅戳文件直接把桌給掀了

春風自如 2026-01-22 07:16:48
88 跟貼 88
Cursor不香了？前0.01%大神倒戈Claude，萬字叛逃筆記爆火！

新智元 2026-01-24 17:03:52
4 跟貼 4
銀價猛漲！女子3年前買鉆戒送的足銀保溫杯，身價“反超”鉆戒

封面新聞 2026-01-24 00:47:11
1708 跟貼 1708
車企老總稱U23重慶球員奪冠開新車

極目新聞 2026-01-24 16:09:59
2127 跟貼 2127
杜蘭特稱贊謝潑德為烏度卡指明使用方法！以下五人搭檔是贏球關鍵

陌識 2026-01-24 16:57:34
3 跟貼 3
五年級數學簡便計算，題目不難但容易出錯

天天數理學習分享 2026-01-23 10:18:37
3 跟貼 3
從碎片化學習到系統化實戰——主流經方教育大模型橫向測評

生活微看點 2026-01-23 18:08:45
0 跟貼 0
6G專題|面向6G的無線網絡數字孿生架構與實踐

通信世界 2026-01-23 20:43:22
0 跟貼 0
1208二年級:孩子看到題目就懵了，學霸看了一眼就有了思路，厲害

我服子佩 2026-01-23 12:47:07
1 跟貼 1
實探“搶豬肉”風波中的株洲小村：村民否認搶豬肉，對背上罵名感到憋屈，組織方稱很內疚正配合調查

極目新聞 2026-01-24 10:56:06
748 跟貼 748
1209思維挑戰:看到題目就懵了，全班沒有一個會做的

我服子佩 2026-01-23 12:47:20
1 跟貼 1
這才是正常的使用方法

星河拾夢 2026-01-22 08:02:25
4 跟貼 4
超俠：我的超俠科幻

高校科幻 2026-01-23 11:32:41
0 跟貼 0
奧特曼被嚇壞！Codex全家桶上線倒計時，恐將撕開全網漏洞

新智元 2026-01-24 19:35:23
1 跟貼 1
老婆盛菜時大叔幫倒忙，不料下一秒就被“制裁”了，網友：論盆的正確使用方法

趣聞焦點 2026-01-23 17:22:02
0 跟貼 0
Here we go！羅馬諾：西漢姆與阿達瑪-特拉奧雷達成口頭協議

懂球帝 2026-01-24 19:20:28
2 跟貼 2
國際白銀突破100美元 28→100僅用9個月

財聯社 2026-01-23 23:22:29
539 跟貼 539
斯基拉：恩-內斯里將租借加盟尤文，各方有信心48小時內完成

懂球帝 2026-01-24 17:05:44
0 跟貼 0

手機 / 數碼

房產 / 家居

LLM把簡單任務復雜化，Karpathy無語：有些任務無需那么多思考

特斯拉Cybercrab即將落地 每公里不到1塊錢

越共中央政治局"新面孔"接近一半 現任國家主席沒出現

越共中央政治局"新面孔"接近一半 現任國家主席沒出現

當家球星打替補，他們在故意擺爛？

回歸還是頂流 鳳凰傳奇將現身馬年春晚

“百年老字號”張小泉遭60億債務壓頂

有增程和純電版可選 日產NX8或于3-4月間上市

態度原創

傅佩榮：這對父子的對話，揭開了時下多數家庭的傷疤

正式官宣！三亞又一所名校要來了！

華為Pura 80系列開啟新年禮遇：至高優惠1500元，到手即享鴻蒙6

砸15億！史玉柱打造的“野生”建筑，竟是巨人網絡總部！

自尊心很強的孩子該怎么疏導

特斯拉Cybercrab即將落地每公里不到1塊錢

越共中央政治局"新面孔"接近一半現任國家主席沒出現

越共中央政治局"新面孔"接近一半現任國家主席沒出現

回歸還是頂流鳳凰傳奇將現身馬年春晚

有增程和純電版可選日產NX8或于3-4月間上市