<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      大模型答題總翻車(幻覺)?先挑錯再寫答案,正確率飆升還不花錢!

      0
      分享至

      你有沒有過這種經歷:做數學題時,自己順著思路算半天得出錯誤答案,可看到同學的錯題后,反而一眼看穿問題所在?現在,清華大學的研究團隊把這個 “人類小技巧” 用在了大模型上,居然讓 AI 的推理能力暴漲 ——關鍵是,不用額外訓練、不用多花錢,只是換個提問方式!

      論文《Asking LLMs to Verify First is Almost Free Lunch》就進行了這項研究。


      核心思想特別簡單:給大模型提問題時,別讓它直接 “一步一步想答案”,而是先扔給它一個候選答案(哪怕是隨機猜的、無關緊要的),讓它先驗證 “這個答案對不對”,再自己寫正確答案。就這么一個小改動,大模型的邏輯錯誤率直接下降,還沒增加多少計算成本~


      圖 1:反向推理路徑(驗證過程)更易構建,且包含與正向推理路徑(標準思維鏈,CoT)互補的信息。

      原來大模型答題,也有 “自我中心” 的小毛病

      我們先搞懂:為啥大模型明明很聰明,卻總在簡單推理題上翻車?

      比如這道經典題:“蝙蝠和球一共1.1美元,蝙蝠比球貴1美元,球多少錢?” 很多人(包括大模型)會脫口而出 “0.1美元”—— 順著 “1.1-1=0.1” 的思路走,完全沒發現邏輯漏洞。

      這就是大模型的 “老毛病”:現在主流的推理方法叫 CoT(逐步思考),讓 AI “一步一步推導”。但 AI 是 “ autoregressive(自回歸)” 生成的,簡單說就是 “順著自己的思路往下說”,更在乎表達流暢,反而容易忽略邏輯嚴謹性—— 就像人太相信自己的第一判斷,陷入 “自我中心”,看不到錯誤。

      而且之前想提升 AI 推理能力,要么得花大價錢訓練模型,要么讓 AI 多算幾十遍采樣答案,成本高得嚇人。

      “先挑錯” 策略:給 AI 一個 “錯題”,它反而更會做!?

      清華團隊的 VF(Verification-First,先驗證)策略,剛好戳中了 AI 的 “軟肋”,還不用多花錢。核心是兩個超有趣的認知規律:

      1. 驗證答案,比自己算答案簡單多了!

      2. 就像老師批改作業比自己做題快 —— 假設答案是 A,你只要倒著推 “這個答案能不能滿足題目條件”,比從零開始推導簡單太多。哪怕給的是錯答案,AI 在驗證時也會理清 “題目該怎么解”,相當于提前搭好了思路框架。從數學上來說,其實是讓大模型的回答事先收斂到相關領域的大的特征空間里,再從大的特征空間里尋找準確的部分進行檢索和回答。而非直接讓大模型跳進最小的特征空間找答案。

      3. 讓 AI “挑別人的錯”,能激活批判性思維!

      4. 人在評價別人時,會不自覺跳出自己的思維定式;AI 也一樣~ 讓它先驗證一個 “外部答案”,能避免它順著自己的錯誤思路一條道走到黑,減少 “想當然” 的錯誤。

      舉兩個例子,一看就懂!


      圖 2:帶有隨機 / 簡單答案的 VF 提示(右側),與標準的 CoT 提示(左側)對比

      這張圖直接對比了 “普通 CoT” 和 “VF 策略” 的區別,兩道題就能看出差距:

      左欄是普通 CoT:AI 順著思路推導,蝙蝠和球的題答錯(算成 0.1 美元),“一年有幾個月有 28 天” 也答錯(只想到 2 月,忘了所有月份都有 28 號)。

      右欄是 VF 策略:先給一個隨機答案 “1”,讓 AI 先驗證——? 驗證蝙蝠和球的題:“如果球是 1 美元,蝙蝠就是 2 美元,總價 3 美元,不對!” 然后順理成章列出方程,算出正確答案 0.05 美元;? 驗證月份題:“如果答案是 1,意味著只有 1 個月有 28 天,但題目問的是‘有 28 天’,不是‘只有 28 天’,所有 12 個月都符合!” 直接糾正錯誤。

      是不是很神奇?一個隨機的 “錯題”,反而幫 AI 理清了思路~

      升級款 Iter-VF:讓 AI 自己迭代 “挑錯”,越算越準

      如果遇到復雜題,給一個隨機答案不夠用怎么辦?團隊又搞出了 “迭代版”——Iter-VF。

      簡單說就是:讓 AI 自己生成第一個答案,然后用 VF 策略驗證這個答案、生成新答案;再用新答案當 “候選答案”,重復驗證 - 生成的過程,循環幾次(次數可以控制,不浪費算力)。


      圖3:(a)使用先前生成的答案進行VF提示的說明,以及將此過程迭代為(b)用于測試時擴展的Iter-VF的說明。

      圖 3 左邊展示了 “用 AI 之前的答案做驗證”(比如編程題,沒法給隨機答案,就用 AI 第一次寫的代碼當候選),右邊是 Iter-VF 的循環流程:從初始答案開始,迭代驗證 - 生成,最后得到最優解。

      關鍵優勢是:AI 每次只關注上一個答案,不糾結之前的推導過程,不會因為 “想太多” 導致邏輯混亂(這是很多其他迭代方法的通病),還能控制計算成本~

      實驗結果:準確率暴漲,成本幾乎可以忽略!

      團隊在數學題(GSM8K、MATH500)、研究生級科學題(GPQA)、編程題(HumanEval)、API 調用等多個任務上測試,結果超亮眼:

      這里要貼論文圖 4 和表 1


      圖4:VF提示法始終優于標準的CoT提示法。

      圖 4 能看到:不管是 10 億參數的小模型,還是 720 億參數的大模型,VF 策略都比普通 CoT 準確率高,數學題上的提升尤其明顯(畢竟數學最需要邏輯嚴謹);


      表1:推理基準測試的輸出標記數量。

      表 1 顯示:VF 只比 CoT 多輸出 20%-50% 的文字(token),計算成本幾乎可以忽略—— 對比其他需要多算幾十倍的方法,這簡直是 “白嫖” 級提升!


      表2:編碼和API任務的性能比較。具有可比性結果的行未用水平線分隔。“HEval”是“HumanEval”的縮寫。

      表 2 證明:在編程、API 調用這些 “沒法給隨機答案” 的實際任務中,VF 用 AI 之前的答案做驗證,表現也比 “讓 AI 算兩次”“讓 AI 自己修改” 好,甚至 “算兩次 VF” 的正確率能沖到 99.4%;


      表3:與隱藏思維的大語言模型服務的性能對比。準確率%(輸出令牌數量)。

      表 3 更厲害:哪怕是 GPT-5 這種 “隱藏思考過程” 的商業大模型(我們看不到它怎么推導,沒法讓它 “修改思路”),用 VF 策略也能提升準確率,而且只多花一點點算力~

      總結:簡單卻強大的 “答題技巧”,未來可期!

      清華團隊的這個方法,本質上是 “借力打力”:不用改模型、不用多花錢,只是利用 “驗證比生成簡單”“批判性思維能避坑” 的認知規律,就大幅提升了大模型的推理能力。

      對我們來說,以后用 AI 做題、寫代碼、解決問題時,或許可以試試:先給 AI 一個 “隨便猜的答案”,讓它先挑錯,再要正確結果 —— 說不定正確率會翻倍~

      感興趣的同學可以去看原文,里面還有更多實驗細節和案例~ 不得不說,把人類的學習技巧用在 AI 上,真的太妙了!

      ? 科研不一定都要 “高大上”,有時候一個簡單的思路轉變,就能帶來巨大突破~ 為研究團隊點贊!

      原標題:大模型答題總翻車(幻覺)?清華大學新方法:先挑錯再寫答案,正確率飆升還不花錢!

      來源:計算科學

      編輯:丁香葉子

      轉載內容僅代表作者觀點

      不代表中科院物理所立場

      如需轉載請聯系原公眾號

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      《霍元甲》主演黃元申曾出家又還俗,如今77歲,相貌發生很大變化

      《霍元甲》主演黃元申曾出家又還俗,如今77歲,相貌發生很大變化

      阿雹娛樂
      2026-01-22 14:10:48
      北京vs北控前瞻:兩隊傷病問題突出,張慶鵬帥位再受沖擊

      北京vs北控前瞻:兩隊傷病問題突出,張慶鵬帥位再受沖擊

      體壇野秀才
      2026-01-24 11:12:17
      HWG!羅馬諾:亞伯拉罕加盟阿斯頓維拉,轉會費2100萬英鎊

      HWG!羅馬諾:亞伯拉罕加盟阿斯頓維拉,轉會費2100萬英鎊

      懂球帝
      2026-01-23 20:37:34
      1986年陳永貴病逝,追悼會規格成難題,鄧小平只說了一句話,全場安靜

      1986年陳永貴病逝,追悼會規格成難題,鄧小平只說了一句話,全場安靜

      寄史言志
      2026-01-04 16:34:31
      小鼠研究表明,挖鼻孔與阿爾茨海默病之間存在令人驚訝的聯系

      小鼠研究表明,挖鼻孔與阿爾茨海默病之間存在令人驚訝的聯系

      心中的麥田
      2026-01-21 20:18:15
      全麻手術能讓多少人身敗名裂?都說讓你們別玩太花,這下翻車了吧

      全麻手術能讓多少人身敗名裂?都說讓你們別玩太花,這下翻車了吧

      夜深愛雜談
      2026-01-23 18:13:14
      毛澤東、周恩來、朱德:為什么是中國歷史上的“最佳合伙人”?

      毛澤東、周恩來、朱德:為什么是中國歷史上的“最佳合伙人”?

      近史談
      2026-01-22 21:17:58
      豬油被關注!醫生發現:高血壓患者常吃豬油,或出現這幾種變化

      豬油被關注!醫生發現:高血壓患者常吃豬油,或出現這幾種變化

      展望云霄
      2026-01-24 10:38:20
      班主任群里統計父母在外務工名單遭怒懟!網友叫屈:這是上級任務

      班主任群里統計父母在外務工名單遭怒懟!網友叫屈:這是上級任務

      火山詩話
      2026-01-22 09:14:54
      馬杜羅正確決策:寧做美囚犯,不做俄座上賓

      馬杜羅正確決策:寧做美囚犯,不做俄座上賓

      民間鐵血柔情
      2026-01-19 05:27:07
      怪不得委內瑞拉的代總統這么配合美國,原來人家也得到了實惠!

      怪不得委內瑞拉的代總統這么配合美國,原來人家也得到了實惠!

      青青子衿
      2026-01-23 01:25:07
      趙今麥肉絲造型驚艷出圈!甜妹秒變御姐,氣場全開鯊瘋全場

      趙今麥肉絲造型驚艷出圈!甜妹秒變御姐,氣場全開鯊瘋全場

      TVB的四小花
      2026-01-24 02:12:35
      韓媒評U23輸越南:超高控球率但大部分在后場,進攻效率低下

      韓媒評U23輸越南:超高控球率但大部分在后場,進攻效率低下

      懂球帝
      2026-01-24 10:40:07
      楊浦濱江“搶地后遺癥”爆發!這群房企正在死扛

      楊浦濱江“搶地后遺癥”爆發!這群房企正在死扛

      花木蘭Channel
      2026-01-23 17:20:34
      張柏芝一家四口飛澳洲,疑給大兒子陪讀,7歲小王子圓臉很呆萌!

      張柏芝一家四口飛澳洲,疑給大兒子陪讀,7歲小王子圓臉很呆萌!

      娛樂團長
      2026-01-22 21:11:06
      西方史上最嚴重高鐵事故,背后的日本企業無人關注

      西方史上最嚴重高鐵事故,背后的日本企業無人關注

      楓冷慕詩
      2026-01-23 14:27:24
      想收中國10億會費,美國又來下套,中俄罕見有分歧?普京上當了

      想收中國10億會費,美國又來下套,中俄罕見有分歧?普京上當了

      成視Talk
      2026-01-24 11:09:26
      高中生扶老人被訛50萬,15年后老人孫子考上清華,在校門口跪下求饒

      高中生扶老人被訛50萬,15年后老人孫子考上清華,在校門口跪下求饒

      紅豆講堂
      2025-07-14 17:21:43
      4名中國男子在日被捕!

      4名中國男子在日被捕!

      今日日本
      2026-01-23 13:06:19
      中國海警剛救起菲船員,不到24小時,菲律賓就宣布在黃巖島大演習

      中國海警剛救起菲船員,不到24小時,菲律賓就宣布在黃巖島大演習

      Ck的蜜糖
      2026-01-24 11:47:03
      2026-01-24 12:23:01
      中科院物理所 incentive-icons
      中科院物理所
      愛上物理,改變世界。
      9802文章數 136433關注度
      往期回顧 全部

      教育要聞

      高三數學從70分到100分,3個月夠不夠?前提是滿足這3個條件

      頭條要聞

      專家:特朗普或在春天訪問中國 其被認為是"對華鴿派"

      頭條要聞

      專家:特朗普或在春天訪問中國 其被認為是"對華鴿派"

      體育要聞

      當家球星打替補,他們在故意擺爛?

      娛樂要聞

      李微漪更新:狼王格林去世,3字淚目

      財經要聞

      “百年老字號”張小泉遭60億債務壓頂

      科技要聞

      特斯拉Cybercrab即將落地 每公里不到1塊錢

      汽車要聞

      售75.58萬元,新款大眾途銳3.0TSI銳臻版上市

      態度原創

      教育
      健康
      親子
      數碼
      手機

      教育要聞

      瓜豆原理求路徑長,一個視頻學會!

      耳石脫落為何讓人天旋地轉+惡心?

      親子要聞

      馬年必入!4款親子好物玩出年味與知識,承包孩子寒假快樂

      數碼要聞

      AMD銳龍9 9950X3D2處理器在EEC注冊

      手機要聞

      vivo穩步上升,OPPO第四,蘋果兩連冠

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 中文字幕午夜福利片午夜福利片97| 国内大量揄拍人妻精品視頻| 忍着娇喘人妻被中出中文字幕| 女人被爽到高潮视频免费国产 | 男女猛烈无遮挡免费视频APP| 人人做人人爽人人爱| 天天爽夜夜爽人人爽一区二区| 久久精品无码一区二区三区免费| 欧美熟妇丰满肥白大屁股免费视频| 一本一道波多野结衣av黑人| 欧美日韩免费专区在线观看| 精品国产熟女一区二区三区| 日本极品少妇videossexhd| 92自拍视频| 任你躁欧美一级在线精品免费| 人妻人人操| 久操视频在线免费观看| 国产精品亚洲专区无码web| 亚洲日韩第三页| √天堂资源地址在线官网| 国产成人无码一区二区在线播放| 久久99久国产精品66| 鲁丝片一区二区三区免费| 国产成人无码A区在线观看视频| 99久久精品国产毛片| 中文字幕av久久爽一区| 马公市| 日本精品一区二区三本中文 | 女人AV天堂| 邻水| 亚洲一国产一区二区三区| 日本三级成本人网站| 少妇放荡的呻吟干柴烈火动漫| 国产人免费人成免费视频| 亚洲男人天堂2018| 99xa视频在线观看| 青青青亚洲精品国产| 亚洲av偷拍一区二区三区| 色欲人妻无码| 97se亚洲国产综合自在线观看| 少妇高潮喷水久久久影院|