<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      大模型答題總翻車(幻覺)?清華大學新方法:先挑錯再寫答案,正確率飆升還不花錢!

      0
      分享至

      你有沒有過這種經歷:做數學題時,自己順著思路算半天得出錯誤答案,可看到同學的錯題后,反而一眼看穿問題所在?現在,清華大學的研究團隊把這個 “人類小技巧” 用在了大模型上,居然讓 AI 的推理能力暴漲 —— 關鍵是,不用額外訓練、不用多花錢,只是換個提問方式!

      論文《Asking LLMs to Verify First is Almost Free Lunch》就進行了這項研究。


      核心思想特別簡單:給大模型提問題時,別讓它直接 “一步一步想答案”,而是先扔給它一個候選答案(哪怕是隨機猜的、無關緊要的),讓它先驗證 “這個答案對不對”,再自己寫正確答案。就這么一個小改動,大模型的邏輯錯誤率直接下降,還沒增加多少計算成本~


      Figure 1: A reverse reasoning path (verification process) could be easier to find and contain complementary information to forward-reasoning path (standard CoT).

      圖 1:反向推理路徑(驗證過程)更易構建,且包含與正向推理路徑(標準思維鏈,CoT)互補的信息。

      原來大模型答題,也有 “自我中心” 的小毛病

      我們先搞懂:為啥大模型明明很聰明,卻總在簡單推理題上翻車?

      比如這道經典題:“蝙蝠和球一共1.1美元,蝙蝠比球貴1美元,球多少錢?” 很多人(包括大模型)會脫口而出 “0.1美元”—— 順著 “1.1-1=0.1” 的思路走,完全沒發現邏輯漏洞。

      這就是大模型的 “老毛病”:現在主流的推理方法叫 CoT(逐步思考),讓 AI “一步一步推導”。但 AI 是 “ autoregressive(自回歸)” 生成的,簡單說就是 “順著自己的思路往下說”,更在乎表達流暢,反而容易忽略邏輯嚴謹性 —— 就像人太相信自己的第一判斷,陷入 “自我中心”,看不到錯誤。

      而且之前想提升 AI 推理能力,要么得花大價錢訓練模型,要么讓 AI 多算幾十遍采樣答案,成本高得嚇人。

      清華 “先挑錯” 策略:給 AI 一個 “錯題”,它反而更會做!?

      清華團隊的 VF(Verification-First,先驗證)策略,剛好戳中了 AI 的 “軟肋”,還不用多花錢。核心是兩個超有趣的認知規律:

      1. 驗證答案,比自己算答案簡單多了!

      2. 就像老師批改作業比自己做題快 —— 假設答案是 A,你只要倒著推 “這個答案能不能滿足題目條件”,比從零開始推導簡單太多。哪怕給的是錯答案,AI 在驗證時也會理清 “題目該怎么解”,相當于提前搭好了思路框架。從數學上來說,其實是讓大模型的回答事先收斂到相關領域的大的特征空間里,再從大的特征空間里尋找準確的部分進行檢索和回答。而非直接讓大模型跳進最小的特征空間找答案。

      3. 讓 AI “挑別人的錯”,能激活批判性思維!

      4. 人在評價別人時,會不自覺跳出自己的思維定式;AI 也一樣~ 讓它先驗證一個 “外部答案”,能避免它順著自己的錯誤思路一條道走到黑,減少 “想當然” 的錯誤。

      舉兩個例子,一看就懂!


      Figure 2: VF prompting with random/trivial answer (Right), comparing with standard CoT prompting (Left) 圖 2:帶有隨機 / 簡單答案的 VF 提示(右側),與標準的 CoT 提示(左側)對比

      這張圖直接對比了 “普通 CoT” 和 “VF 策略” 的區別,兩道題就能看出差距:

      左欄是普通 CoT:AI 順著思路推導,蝙蝠和球的題答錯(算成 0.1 美元),“一年有幾個月有 28 天” 也答錯(只想到 2 月,忘了所有月份都有 28 號);

      右欄是 VF 策略:先給一個隨機答案 “1”,讓 AI 先驗證 ——? 驗證蝙蝠和球的題:“如果球是 1 美元,蝙蝠就是 2 美元,總價 3 美元,不對!” 然后順理成章列出方程,算出正確答案 0.05 美元;? 驗證月份題:“如果答案是 1,意味著只有 1 個月有 28 天,但題目問的是‘有 28 天’,不是‘只有 28 天’,所有 12 個月都符合!” 直接糾正錯誤。

      是不是很神奇?一個隨機的 “錯題”,反而幫 AI 理清了思路~

      升級款 Iter-VF:讓 AI 自己迭代 “挑錯”,越算越準

      如果遇到復雜題,給一個隨機答案不夠用怎么辦?團隊又搞出了 “迭代版”——Iter-VF。

      簡單說就是:讓 AI 自己生成第一個答案,然后用 VF 策略驗證這個答案、生成新答案;再用新答案當 “候選答案”,重復驗證 - 生成的過程,循環幾次(次數可以控制,不浪費算力)。


      Figure 3: Illustration of (a) VF prompting with previously generated answer, and iterating such process as (b) Iter-VF for test-time scaling.

      圖3:(a)使用先前生成的答案進行VF提示的說明,以及將此過程迭代為(b)用于測試時擴展的Iter-VF的說明。

      圖 3 左邊展示了 “用 AI 之前的答案做驗證”(比如編程題,沒法給隨機答案,就用 AI 第一次寫的代碼當候選),右邊是 Iter-VF 的循環流程:從初始答案開始,迭代驗證 - 生成,最后得到最優解。

      關鍵優勢是:AI 每次只關注上一個答案,不糾結之前的推導過程,不會因為 “想太多” 導致邏輯混亂(這是很多其他迭代方法的通病),還能控制計算成本~

      實驗結果:準確率暴漲,成本幾乎可以忽略!

      團隊在數學題(GSM8K、MATH500)、研究生級科學題(GPQA)、編程題(HumanEval)、API 調用等多個任務上測試,結果超亮眼:

      這里要貼論文圖 4 和表 1


      Figure 4: VF prompting consistently outperforms standard CoT prompting.

      圖4:VF提示法始終優于標準的CoT提示法。

      圖 4 能看到:不管是 10 億參數的小模型,還是 720 億參數的大模型,VF 策略都比普通 CoT 準確率高,數學題上的提升尤其明顯(畢竟數學最需要邏輯嚴謹);


      Table 1: Numbers of output tokens on reasoning benchmarks.

      表1:推理基準測試的輸出標記數量。

      表 1 顯示:VF 只比 CoT 多輸出 20%-50% 的文字(token),計算成本幾乎可以忽略 —— 對比其他需要多算幾十倍的方法,這簡直是 “白嫖” 級提升!


      Table 2: Performance comparison on coding and API tasks. Rows of comparable results are not split by horizontal line. “HEval” is short for “HumanEval”.

      表2:編碼和API任務的性能比較。具有可比性結果的行未用水平線分隔。“HEval”是“HumanEval”的縮寫。

      表 2 證明:在編程、API 調用這些 “沒法給隨機答案” 的實際任務中,VF 用 AI 之前的答案做驗證,表現也比 “讓 AI 算兩次”“讓 AI 自己修改” 好,甚至 “算兩次 VF” 的正確率能沖到 99.4%;


      Table 3: Performance comparison with thought-hidden LLM service. Accuracy % (output token number).

      表3:與隱藏思維的大語言模型服務的性能對比。準確率%(輸出令牌數量)。

      表 3 更厲害:哪怕是 GPT-5 這種 “隱藏思考過程” 的商業大模型(我們看不到它怎么推導,沒法讓它 “修改思路”),用 VF 策略也能提升準確率,而且只多花一點點算力~

      總結:簡單卻強大的 “答題技巧”,未來可期!

      清華團隊的這個方法,本質上是 “借力打力”:不用改模型、不用多花錢,只是利用 “驗證比生成簡單”“批判性思維能避坑” 的認知規律,就大幅提升了大模型的推理能力。

      對我們來說,以后用 AI 做題、寫代碼、解決問題時,或許可以試試:先給 AI 一個 “隨便猜的答案”,讓它先挑錯,再要正確結果 —— 說不定正確率會翻倍~

      作者信息:

      這項研究來自清華大學電子工程系ShiguangWu(wsg23@mails.tsinghua.edu.cn)QuanmingYao(qyaoaa@tsinghua.edu.cn)團隊,論文《Asking LLMs to Verify First is Almost Free Lunch》(讓大模型先驗證,簡直是 “白嫖” 級提升)于 2025 年 11 月 21 日發表在 arXiv 平臺(論文鏈接:arXiv:2511.21734v1 [cs.CL])。

      感興趣的同學可以去看原文,里面還有更多實驗細節和案例~ 不得不說,把人類的學習技巧用在 AI 上,真的太妙了!

      ? 科研不一定都要 “高大上”,有時候一個簡單的思路轉變,就能帶來巨大突破~ 為清華團隊點贊!

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      蕭美娘乳白寫真合集(2)

      蕭美娘乳白寫真合集(2)

      情感大頭說說
      2026-01-24 15:26:40
      金門炮戰三位中將副司令喪生,其中一位是吉鴻昌侄子,可惜了

      金門炮戰三位中將副司令喪生,其中一位是吉鴻昌侄子,可惜了

      混沌錄
      2026-01-28 22:49:07
      每體關注中國足壇反賭:離譜的中超,一半球隊將負分開始聯賽

      每體關注中國足壇反賭:離譜的中超,一半球隊將負分開始聯賽

      懂球帝
      2026-01-31 11:53:20
      美國已入死局!現在 打,立馬死,不打,過幾年死,只差咱們掀桌子

      美國已入死局!現在 打,立馬死,不打,過幾年死,只差咱們掀桌子

      漫川舟船
      2026-01-31 11:55:19
      1949年,毛主席想和平解放新疆,陶峙岳回應:行,但我有一個條件

      1949年,毛主席想和平解放新疆,陶峙岳回應:行,但我有一個條件

      簡史檔案館
      2026-01-30 11:05:03
      海南省市場監督管理局、省知識產權局原黨組書記、局長鐵剛被“雙開”

      海南省市場監督管理局、省知識產權局原黨組書記、局長鐵剛被“雙開”

      界面新聞
      2026-01-31 12:07:18
      兩年了,為何許家印遲遲不判刑?真相比你想象的更復雜!

      兩年了,為何許家印遲遲不判刑?真相比你想象的更復雜!

      李云飛Afey
      2026-01-20 11:43:34
      央視實錘!成本2元賣價19800元!不少人被騙,趕緊別用了

      央視實錘!成本2元賣價19800元!不少人被騙,趕緊別用了

      素衣讀史
      2026-01-28 17:22:30
      女孩當小姐,一晚要提供4到5次上門服務,2015年被親人點到不赴約

      女孩當小姐,一晚要提供4到5次上門服務,2015年被親人點到不赴約

      漢史趣聞
      2025-11-08 09:27:32
      屠殺!湖人142-111奇才,誰是本場比賽的功臣,數據不會說謊!

      屠殺!湖人142-111奇才,誰是本場比賽的功臣,數據不會說謊!

      梅亭談
      2026-01-31 10:26:10
      樊振東歐冠辣評炸場,多特官博急著解釋,跨界聯動火爆歐洲!

      樊振東歐冠辣評炸場,多特官博急著解釋,跨界聯動火爆歐洲!

      羅納爾說個球
      2026-01-31 00:37:39
      國外留學生的生活有多炸裂?網友:給我這個農村人看笑了

      國外留學生的生活有多炸裂?網友:給我這個農村人看笑了

      帶你感受人間冷暖
      2026-01-25 00:20:06
      春節前到賬!4億黨費發放,5類黨員符合條件就有

      春節前到賬!4億黨費發放,5類黨員符合條件就有

      夜深愛雜談
      2026-01-30 22:30:02
      瓜帥回到巴塞羅那出席慈善活動,因此缺席對熱刺的賽前發布會

      瓜帥回到巴塞羅那出席慈善活動,因此缺席對熱刺的賽前發布會

      懂球帝
      2026-01-31 09:57:12
      越南政府總理范明政:要求審查重點交通項目,秉持“誰錯處理誰”,但不得造成阻礙

      越南政府總理范明政:要求審查重點交通項目,秉持“誰錯處理誰”,但不得造成阻礙

      越南語學習平臺
      2026-01-31 09:27:28
      深圳一公司年會舉行豪橫抽獎,兩員工各抽中100克金條,價值十多萬元,一人說“留著準備升值”

      深圳一公司年會舉行豪橫抽獎,兩員工各抽中100克金條,價值十多萬元,一人說“留著準備升值”

      極目新聞
      2026-01-30 19:08:19
      劉維偉:楊瀚森離開讓我們內線捉襟見肘,休賽期會補充外援

      劉維偉:楊瀚森離開讓我們內線捉襟見肘,休賽期會補充外援

      懂球帝
      2026-01-31 00:06:23
      廣東提前一輪無緣常規賽第一

      廣東提前一輪無緣常規賽第一

      刺猬籃球
      2026-01-31 11:45:16
      華為宣布:最高降4000元!此前蘋果開啟大降價

      華為宣布:最高降4000元!此前蘋果開啟大降價

      每日經濟新聞
      2026-01-29 18:19:05
      兒子帶女友回家,女友頭發把媽媽嚇一跳,網友:這就是自我的代價

      兒子帶女友回家,女友頭發把媽媽嚇一跳,網友:這就是自我的代價

      丫頭舫
      2026-01-30 15:51:49
      2026-01-31 12:39:00
      人工智能學家 incentive-icons
      人工智能學家
      人工智能領域權威媒體
      4511文章數 37400關注度
      往期回顧 全部

      教育要聞

      南通教育的本質及厲害之處!

      頭條要聞

      盒馬"錯配"致顧客誤食水仙中毒 賠償方案仍未達成一致

      頭條要聞

      盒馬"錯配"致顧客誤食水仙中毒 賠償方案仍未達成一致

      體育要聞

      “假賭黑”的子彈,還要再飛一會兒嗎?

      娛樂要聞

      成龍入駐小紅書,懟臉近照沒有老年斑

      財經要聞

      白銀,暴跌!黃金,40年最大跌幅!

      科技要聞

      中國車企和特斯拉的下一戰,戰場已定

      汽車要聞

      新款賓利歐陸GT S/GTC S官圖發布 V8混動加持

      態度原創

      家居
      本地
      時尚
      數碼
      公開課

      家居要聞

      藍調空舍 自由與個性

      本地新聞

      云游中國|撥開云霧,巫山每幀都是航拍大片

      女友BELLA+封面 | Ginny&Jayna:連鎖反應

      數碼要聞

      8K電視集體“退燒”,消息稱LG停產8K面板

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版