<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      LLM把簡單任務復雜化,Karpathy無語:有些任務無需那么多思考

      0
      分享至



      機器之心報道

      編輯:冷貓

      隨著推理大模型和思維鏈的出現與普及,大模型具備了「深度思考」的能力,不同任務的泛用性得到了很大的提高。

      借助思維鏈,大模型能夠對任務進行深入分析,完成任務規劃與拆解,從而勝任長周期、復雜度高的工作。同時,我們也能更直觀地了解模型的推理與分析過程,從中發現執行環節中的問題,并有針對性地調整指令,以更高效地完成目標。

      可以說,有了「深度思考」的推理模型,才有了現在擁有多種輔助功能與自主能力的 AI 智能體。

      但現在的大模型漸漸有些偏科了。為了構建應用能力更強的智能體,對長周期的復雜任務能力的追求已經影響到了大模型的推理模式。

      不知道大家在平常使用 AI 工具的時候有沒有發現,打開了深度思考后,一些簡單的任務也需要很多的思考,展示了非常冗長的思維鏈,而不打開深度思考的時候,又很難準確的得到想要的回復。

      這種現象越來越明顯了,尤其是當大模型進入工作流(例如編碼工作)的時候,其負面效應就更加顯著。

      這不,AI 領域的大牛 Andrej Karpathy 也感覺到不對勁,發了長文推來指出這個令人無語的現象。



      Karpathy 說,「LLM 在默認狀態下正變得比我日常使用需求更具『自主代理(Agentic)』傾向,甚至有些超出了我的平均使用場景」。

      最明顯的的確是編碼任務,模型現在往往會進行較長時間的推理,傾向于在整個代碼庫中列出并搜索(grep)文件,會反復進行網絡搜索,對一些在開發中、且明顯并不完整的代碼里極少出現的邊緣情況過度分析、過度思考,甚至在非常簡單的查詢中,也常常需要幾分鐘后才返回結果。

      尤其是在簡單的任務中,比如在運行腳本前快速檢查索引錯誤或其他低級錯誤,根本不需要如此復雜的任務分析和代碼處理。

      因此 Karpathy 不得不經常打斷 LLM,并用類似這樣的指令限制它:「停,你想得太多了。只看這一份文件。不要用任何工具。不要過度設計。

      這帶來了很多麻煩,不僅是在編碼任務,我們發現日常使用 LLM 工具時候的類似打斷情況也越來越多了。

      簡單拿剛發布幾天的 GPT-5 舉個例子,發布時 OpenAI 顯然意識到深度思考的問題,所以他們強調 GPT-5 是一個集成模型,也就是說,你用它的時候不需要在不同模型之間切換,它會自己決定何時需要深入思考。

      但這個問題顯然沒有這么簡單。記得當時 GPT-4o 模型的圖像編輯生成功能很好用,但在更新到新模型后就不太一樣了。

      我們給了 GPT-5 這個指令:「去除圖中文字,把這張圖變得高清一些,機器人的臉看起來更溫和一些」,希望它能夠調用圖像編輯的功能。

      但結果它就開始進行「深度思考」了:



      經過了 38 秒的思考,它考慮了很多細節,但仍然未能開始使用圖像生成功能,導致不得不打斷它的任務進程。

      或許這也是用戶們無比懷念 GPT-4o 的原因之一。

      正如 Karpathy 指出的,隨著默認模式逐漸向這種「超深度思考」的高代理化狀態靠攏,我們反而更需要一個相反的選項—— 一種更直接有效的方式去表達或傳達我的意圖和任務的緊迫程度,從「快速看一眼」到「花 30 分鐘徹底確認后再回來」都能精確指定。

      網友們也苦「過度思考」久矣,甚至為此回到了最樸素的使用方法。





      對于這件事,Karpathy覺得罪魁禍首似乎是大模型「在長周期任務上進行了大量基準測試優化」,為了在基準測試上得到更好的成績,LLM的思考就更傾向于長周期的復雜任務的實現,因此影響了普通任務的響應。



      他指出了兩種情境:

      1. 我招呼同事過來看我屏幕上打開的一個文件,問他「這樣對嗎?」

      2. 我讓某人坐在桌前,他們有 2 個小時來作答。這是一場考試, 風險很高。題目是「這樣對嗎?」

      人類協作者能很自然地區分情境 1 和情境 2。但 LLM 并不知道你問的是 1 還是 2,而隨著時間推移、基準測試的不斷「極限化」,它會越來越傾向于假設你問的是情境 2。

      這指出了大模型過度思考,復雜化任務的可能原因,大模型的發展不能完全以基準測試分數作為追求。

      關于大模型的「過度思考」,有相關經歷和想法歡迎在評論區分享。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      不準踏入中國市場一步?我國下達“逐客令”,三星絕望:放過我們

      不準踏入中國市場一步?我國下達“逐客令”,三星絕望:放過我們

      芳芳歷史燴
      2025-12-03 20:03:56
      這晚,姚晨穿一身紅裝,楊冪腿好直,都敗給了全裹出鏡的董潔

      這晚,姚晨穿一身紅裝,楊冪腿好直,都敗給了全裹出鏡的董潔

      訊崽侃天下
      2025-12-06 20:10:01
      特斯拉Optimus人形機器人演示時摔倒,手忙腳亂“摘頭顯”露了餡

      特斯拉Optimus人形機器人演示時摔倒,手忙腳亂“摘頭顯”露了餡

      IT之家
      2025-12-08 14:43:42
      李嘉誠預言要成真了!中國42%城鎮家庭的房子,將面臨這4現實難題

      李嘉誠預言要成真了!中國42%城鎮家庭的房子,將面臨這4現實難題

      巢客HOME
      2025-12-07 04:45:03
      美的集團:已完成100億元股份回購方案,擬注銷公司總股本1.24%

      美的集團:已完成100億元股份回購方案,擬注銷公司總股本1.24%

      界面新聞
      2025-12-08 18:46:47
      邁阿密國際主席馬斯:2026年我們希望拿下美冠杯冠軍

      邁阿密國際主席馬斯:2026年我們希望拿下美冠杯冠軍

      懂球帝
      2025-12-08 16:38:04
      劉亦菲阿布扎比觀賽F1,酷颯造型

      劉亦菲阿布扎比觀賽F1,酷颯造型

      貴州小娟
      2025-12-08 21:42:56
      國防部正式開通海外社交媒體賬號

      國防部正式開通海外社交媒體賬號

      新京報
      2025-12-08 18:39:03
      4+5+2!楊瀚森把221cm埃迪搞麻了,拓記說后悔選小楊,隨后遭打臉

      4+5+2!楊瀚森把221cm埃迪搞麻了,拓記說后悔選小楊,隨后遭打臉

      多多體育
      2025-12-08 09:49:06
      窮可以讓一個女人卑微到什么程度?飯都吃不飽,其他已經不重要了

      窮可以讓一個女人卑微到什么程度?飯都吃不飽,其他已經不重要了

      另子維愛讀史
      2025-11-27 20:34:22
      學霸的努力程度到底有多恐怖?網友評論看呆了

      學霸的努力程度到底有多恐怖?網友評論看呆了

      另子維愛讀史
      2025-12-05 21:17:46
      12月9號正式開播,CCTV1又一部好劇來襲,央視又一部王炸

      12月9號正式開播,CCTV1又一部好劇來襲,央視又一部王炸

      小邵說劇
      2025-12-08 07:51:05
      林青霞崩潰了!12月7日,有媒體報道林青霞香港的豪宅被蟑螂入侵

      林青霞崩潰了!12月7日,有媒體報道林青霞香港的豪宅被蟑螂入侵

      小娛樂悠悠
      2025-12-08 10:12:09
      再下一城!國產C909交付一家新客戶

      再下一城!國產C909交付一家新客戶

      航空筆記
      2025-12-08 20:05:40
      就在今天!12月8日上午,男籃傳來徐杰、廣東宏遠和國家隊消息

      就在今天!12月8日上午,男籃傳來徐杰、廣東宏遠和國家隊消息

      皮皮觀天下
      2025-12-08 13:19:50
      皇馬3000萬中衛重傷4個月 阿隆索哭暈 生死戰后防6將養傷+2人染紅

      皇馬3000萬中衛重傷4個月 阿隆索哭暈 生死戰后防6將養傷+2人染紅

      我愛英超
      2025-12-08 21:46:11
      軍隊全面停止有償服務后,為何部隊醫院仍向社會開放?原因有5點

      軍隊全面停止有償服務后,為何部隊醫院仍向社會開放?原因有5點

      小圣雜談原創
      2025-12-03 09:55:52
      二號位位置上打得如魚得水,勇士后場新星看來不太適合打一號位?

      二號位位置上打得如魚得水,勇士后場新星看來不太適合打一號位?

      稻谷與小麥
      2025-12-08 22:42:30
      斯韋德貝里:我很擅長對付皇馬,希望對所有球隊都像這樣出色

      斯韋德貝里:我很擅長對付皇馬,希望對所有球隊都像這樣出色

      懂球帝
      2025-12-08 23:00:07
      唐山殺警案,9年沒破案,原來兇手就在專案組

      唐山殺警案,9年沒破案,原來兇手就在專案組

      史記趣聞
      2025-12-04 20:55:06
      2025-12-08 23:44:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      11873文章數 142510關注度
      往期回顧 全部

      科技要聞

      國產機械硬盤尚未攻克,華為高管呼吁

      頭條要聞

      江蘇男子貴州投資養羊損失近百萬 543只羊被"躲貓貓"

      頭條要聞

      江蘇男子貴州投資養羊損失近百萬 543只羊被"躲貓貓"

      體育要聞

      一位大學美術生,如何用4年成為頂級跑者?

      娛樂要聞

      章子怡被說拜高踩低 主動和卡梅隆熱聊

      財經要聞

      百億金融爆雷 浙商大佬"朋友圈"也不靈了

      汽車要聞

      純電全尺寸大六座 凱迪拉克"小凱雷德"申報圖曝光

      態度原創

      游戲
      本地
      親子
      公開課
      軍事航空

      KeSPA杯:HLE和T1保持不敗,宙斯和小呂布有望碰撞Faker

      本地新聞

      云游安徽|七千年敘事,第一章寫在蚌埠

      親子要聞

      NF1患兒陷身材矮小困境,生長激素治療的臨床考量與安全監測路徑

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      柬泰沖突細節披露 洪森要求部隊“克制”

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 精品人体无码一区二区三区| 伊人网狼人| 亚洲成人A√| 日韩69永久免费视频| 久久精品免费一区二区| 人妻丰满熟妇无码区免费| youjizzjizz| 97超碰中文字幕| 国产极品美女高潮无套| 国产偷v国产偷v亚洲高清 | 中文字幕日韩精品亚洲一区| 永久免费看mv网站入口| 鹤岗市| 欲香欲色天天天综合和网| 成人丝袜激情一区二区| 天天看av| 兴义市| 放荡的少妇2欧美版| 色优久久| 色77777| 国产精品亚| 无码少妇一区二区| 亚洲日韩在线中文字幕第一页| 日逼av| 泸定县| 文中字幕一区二区三区视频播放| 久久精品久久久久观看99水蜜桃| 97精品| 上林县| 日韩不卡手机视频在线观看| 91九色国产| 亚洲无码2| 一本色道久久亚洲加勒比| 成人天堂资源www在线| 日本熟妇色xxxxx日本免费看| 黄www| 亚洲国精产品| 亚洲成a人片在线观看久| 久久人妻无码一区二区三区av| 日韩1级| 久久一日本道色综合久久|