<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      LLM把簡單任務復雜化,Karpathy無語:有些任務無需那么多思考

      0
      分享至



      機器之心報道

      編輯:冷貓

      隨著推理大模型和思維鏈的出現與普及,大模型具備了「深度思考」的能力,不同任務的泛用性得到了很大的提高。

      借助思維鏈,大模型能夠對任務進行深入分析,完成任務規劃與拆解,從而勝任長周期、復雜度高的工作。同時,我們也能更直觀地了解模型的推理與分析過程,從中發現執行環節中的問題,并有針對性地調整指令,以更高效地完成目標。

      可以說,有了「深度思考」的推理模型,才有了現在擁有多種輔助功能與自主能力的 AI 智能體。

      但現在的大模型漸漸有些偏科了。為了構建應用能力更強的智能體,對長周期的復雜任務能力的追求已經影響到了大模型的推理模式。

      不知道大家在平常使用 AI 工具的時候有沒有發現,打開了深度思考后,一些簡單的任務也需要很多的思考,展示了非常冗長的思維鏈,而不打開深度思考的時候,又很難準確的得到想要的回復。

      這種現象越來越明顯了,尤其是當大模型進入工作流(例如編碼工作)的時候,其負面效應就更加顯著。

      這不,AI 領域的大牛 Andrej Karpathy 也感覺到不對勁,發了長文推來指出這個令人無語的現象。



      Karpathy 說,「LLM 在默認狀態下正變得比我日常使用需求更具『自主代理(Agentic)』傾向,甚至有些超出了我的平均使用場景」。

      最明顯的的確是編碼任務,模型現在往往會進行較長時間的推理,傾向于在整個代碼庫中列出并搜索(grep)文件,會反復進行網絡搜索,對一些在開發中、且明顯并不完整的代碼里極少出現的邊緣情況過度分析、過度思考,甚至在非常簡單的查詢中,也常常需要幾分鐘后才返回結果。

      尤其是在簡單的任務中,比如在運行腳本前快速檢查索引錯誤或其他低級錯誤,根本不需要如此復雜的任務分析和代碼處理。

      因此 Karpathy 不得不經常打斷 LLM,并用類似這樣的指令限制它:「停,你想得太多了。只看這一份文件。不要用任何工具。不要過度設計。

      這帶來了很多麻煩,不僅是在編碼任務,我們發現日常使用 LLM 工具時候的類似打斷情況也越來越多了。

      簡單拿剛發布幾天的 GPT-5 舉個例子,發布時 OpenAI 顯然意識到深度思考的問題,所以他們強調 GPT-5 是一個集成模型,也就是說,你用它的時候不需要在不同模型之間切換,它會自己決定何時需要深入思考。

      但這個問題顯然沒有這么簡單。記得當時 GPT-4o 模型的圖像編輯生成功能很好用,但在更新到新模型后就不太一樣了。

      我們給了 GPT-5 這個指令:「去除圖中文字,把這張圖變得高清一些,機器人的臉看起來更溫和一些」,希望它能夠調用圖像編輯的功能。

      但結果它就開始進行「深度思考」了:



      經過了 38 秒的思考,它考慮了很多細節,但仍然未能開始使用圖像生成功能,導致不得不打斷它的任務進程。

      或許這也是用戶們無比懷念 GPT-4o 的原因之一。

      正如 Karpathy 指出的,隨著默認模式逐漸向這種「超深度思考」的高代理化狀態靠攏,我們反而更需要一個相反的選項—— 一種更直接有效的方式去表達或傳達我的意圖和任務的緊迫程度,從「快速看一眼」到「花 30 分鐘徹底確認后再回來」都能精確指定。

      網友們也苦「過度思考」久矣,甚至為此回到了最樸素的使用方法。





      對于這件事,Karpathy覺得罪魁禍首似乎是大模型「在長周期任務上進行了大量基準測試優化」,為了在基準測試上得到更好的成績,LLM的思考就更傾向于長周期的復雜任務的實現,因此影響了普通任務的響應。



      他指出了兩種情境:

      1. 我招呼同事過來看我屏幕上打開的一個文件,問他「這樣對嗎?」

      2. 我讓某人坐在桌前,他們有 2 個小時來作答。這是一場考試, 風險很高。題目是「這樣對嗎?」

      人類協作者能很自然地區分情境 1 和情境 2。但 LLM 并不知道你問的是 1 還是 2,而隨著時間推移、基準測試的不斷「極限化」,它會越來越傾向于假設你問的是情境 2。

      這指出了大模型過度思考,復雜化任務的可能原因,大模型的發展不能完全以基準測試分數作為追求。

      關于大模型的「過度思考」,有相關經歷和想法歡迎在評論區分享。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      熱身賽:國足2-2戰平莫斯科斯巴達,朱鵬宇、林良銘分別破門

      熱身賽:國足2-2戰平莫斯科斯巴達,朱鵬宇、林良銘分別破門

      懂球帝
      2026-01-24 12:26:15
      華人首富黃仁勛現身上海菜市場,還給攤主發紅包,太接地氣

      華人首富黃仁勛現身上海菜市場,還給攤主發紅包,太接地氣

      雷科技
      2026-01-24 20:24:00
      中國鬧了個“烏龍”!本想種麥子保產量,卻意外解決了千年難題!

      中國鬧了個“烏龍”!本想種麥子保產量,卻意外解決了千年難題!

      青梅侃史啊
      2026-01-23 22:03:21
      觸目驚心!2025俄羅斯高校集體崩盤,無一所進全球前200

      觸目驚心!2025俄羅斯高校集體崩盤,無一所進全球前200

      老馬拉車莫少裝
      2026-01-22 21:24:42
      【首發】曼城迎狼隊,格伊迎首秀

      【首發】曼城迎狼隊,格伊迎首秀

      體壇周報
      2026-01-24 22:07:28
      特朗普搞定格陵蘭馬上撤回對加邀請,下一步就是搞伊朗和加拿大

      特朗普搞定格陵蘭馬上撤回對加邀請,下一步就是搞伊朗和加拿大

      邵旭峰域
      2026-01-23 14:56:26
      葉劍英的最后一任妻子,21歲時嫁給51歲的葉帥,現年96歲身體硬朗

      葉劍英的最后一任妻子,21歲時嫁給51歲的葉帥,現年96歲身體硬朗

      雍親王府
      2026-01-24 06:00:03
      目睹80歲父親臨終的經歷后,我才明白:有些病不治才是最大的孝順

      目睹80歲父親臨終的經歷后,我才明白:有些病不治才是最大的孝順

      小馬達情感故事
      2025-12-14 18:55:03
      無腦維護牢A的人,才是真正的崇洋媚外者

      無腦維護牢A的人,才是真正的崇洋媚外者

      熊太行
      2025-12-30 09:12:32
      20元香煙四強同臺競技!哪款才是煙民心中的 “口糧之王”?

      20元香煙四強同臺競技!哪款才是煙民心中的 “口糧之王”?

      復轉這些年
      2026-01-22 23:45:26
      baby關喆滑雪被證實!男方已婚三胎被罵不配,黃曉明坦言不會復婚

      baby關喆滑雪被證實!男方已婚三胎被罵不配,黃曉明坦言不會復婚

      八星人
      2026-01-22 10:14:09
      德國牽頭,北約11國軍演劍指美軍,馬克龍對特朗普下重手

      德國牽頭,北約11國軍演劍指美軍,馬克龍對特朗普下重手

      兵說
      2026-01-23 21:13:48
      東風導彈泄密案:間諜郭萬鈞一家三口,全部被處以死刑

      東風導彈泄密案:間諜郭萬鈞一家三口,全部被處以死刑

      冰點歷史
      2025-07-15 09:33:13
      谷愛凌回應代表中國參賽

      谷愛凌回應代表中國參賽

      上觀新聞
      2026-01-24 06:37:08
      天塌了!留學圈爆火的“帶球回國”,一下子撕開了鍍金夢最諷刺的真相

      天塌了!留學圈爆火的“帶球回國”,一下子撕開了鍍金夢最諷刺的真相

      鬼菜生活
      2026-01-23 12:29:17
      7場造6球!金球巨星降維打擊,明演姆巴佩,如今徹底不裝了

      7場造6球!金球巨星降維打擊,明演姆巴佩,如今徹底不裝了

      阿泰希特
      2026-01-24 11:19:09
      商業航天,利好!本周多股大漲

      商業航天,利好!本周多股大漲

      證券時報e公司
      2026-01-24 18:36:07
      長得漂亮卻壞事做盡,3次入獄,被摘除4處器官的她,如今過得怎樣

      長得漂亮卻壞事做盡,3次入獄,被摘除4處器官的她,如今過得怎樣

      銀河史記
      2026-01-23 15:36:04
      江蘇一工程延期因挖到“7000年遺址”?相關部門回應

      江蘇一工程延期因挖到“7000年遺址”?相關部門回應

      大象新聞
      2026-01-24 17:37:10
      財務造假!300391,強制退市!

      財務造假!300391,強制退市!

      環球網資訊
      2026-01-24 12:21:34
      2026-01-24 22:32:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12179文章數 142549關注度
      往期回顧 全部

      科技要聞

      特斯拉Cybercrab即將落地 每公里不到1塊錢

      頭條要聞

      越共中央政治局"新面孔"接近一半 現任國家主席沒出現

      頭條要聞

      越共中央政治局"新面孔"接近一半 現任國家主席沒出現

      體育要聞

      當家球星打替補,他們在故意擺爛?

      娛樂要聞

      回歸還是頂流 鳳凰傳奇將現身馬年春晚

      財經要聞

      “百年老字號”張小泉遭60億債務壓頂

      汽車要聞

      有增程和純電版可選 日產NX8或于3-4月間上市

      態度原創

      教育
      房產
      手機
      藝術
      親子

      教育要聞

      傅佩榮:這對父子的對話,揭開了時下多數家庭的傷疤

      房產要聞

      正式官宣!三亞又一所名校要來了!

      手機要聞

      華為Pura 80系列開啟新年禮遇:至高優惠1500元,到手即享鴻蒙6

      藝術要聞

      砸15億!史玉柱打造的“野生”建筑,竟是巨人網絡總部!

      親子要聞

      自尊心很強的孩子該怎么疏導

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲国产av无码精品无广告| 免费人成年激情视频在线观看| 黑人无码av| 国产精品无码久久久久久| 欧美极品少妇×xxxbbb| 国产三级网| 日韩人妻精品无码| 亚洲精品无amm毛片| 国产精品乱码人妻一区二区三区 | 久热综合在线亚洲精品| 无码h黄肉动漫在线观看| 伊人成人社区| 欧美高清大屁股xxxxx| 99re6在线视频精品免费| 庄浪县| 人妻?无码?中出| 午夜国产小视频| 男女激情无遮挡免费视频| 亚洲色成人www永久在线观看| 亚洲精品久久久久高潮| 熟女少妇精品一区二区| 99啪啪| 五月综合激情婷婷六月色窝| 中文字幕日韩精品人妻| 日韩色图区| 久久精品国产亚洲AⅤ无码| 国产女人好紧好爽| 欧洲熟妇色xxxx欧美老妇软件| 白丝尤物jk自慰制服喷水| 苍井空一区二区波多野结衣av| 国产高清A片| 亚洲3p| 超碰伊人久久大香线蕉综合| 极品熟妇大蝴蝶20p| 午夜无码免费福利视频网址| 宜州市| 亚洲男人av香蕉爽爽爽爽| 人人操网| jzzijzzij亚洲成熟少妇| 丁香五月激情图片| 亚洲一区二区三区在线|