前兩天,我在網上發現了一個關于很有趣Prompt技巧。
就是,通過重復輸入提示詞,可以將非推理類大模型的準確率,從21.33%提高到97.33%。
這個技巧,出自Google的一篇好玩的新論文。
![]()
叫《Prompt Repetition Improves Non-Reasoning LLMs》。
翻譯過來就是:
重復你的問題,能讓AI變得更聰明。
聽著是不是非常抽象,其實巨簡單。
比如你以前問AI:“梵蒂岡的那個圣伯多祿大教堂門口有幾根柱子?”
現在,你可以改成問:“梵蒂岡的那個圣伯多祿大教堂門口有幾根柱子?梵蒂岡的那個圣伯多祿大教堂門口有幾根柱子?”
對,不是我多復制了一遍,其實,這個Prompt技巧,就是把問題,重復一遍,也就是傳說的CV大法。
Ctrl C + Ctrl V。
就這,根據Google的實驗,他就能讓AI回答正確的概率,就會有顯著的提升。
在70個不同的測試任務中,這個簡單的復制粘貼大法,贏了47次,一次都沒輸過。而且性能提升是肉眼可見的,在某些任務上,準確率甚至能從21%直接飆到97%。
![]()
真的,當我第一次看到這個結論的時候,我的表情,是這樣的:
( ′??)?(._.`)????
這感覺,就像你千辛萬苦爬上喜馬拉雅山頂,想求見傳說中的武林宗師,結果宗師摸著胡子告訴你,天下第一的武功秘籍,就五個字:“大力出奇跡”。
尼瑪。
充滿了B級片的荒誕感。
但你先別急著笑。
我花了一點時間,把這篇看著簡單的論文,以及它背后的一些原理琢磨了一下之后,我覺得,這玩意,是真的有點意思和道理。
先說說Google的這個實驗。
他們找了七個現在市面上最常見的一線非模型,Gemini 2.0 Flash跟 Flash Lite,GPT-4o和4o-mini,Claude 3 Haiku、3.7 Sonnet,再加一個DeepSeek V3,全部用官方 API,老老實實在各種基準上測了一輪。
這里需要注意一下,這種Prompt技巧,幾乎都是對非推理模型有用,DeepSeek V3就是非推理模型,DeepSeek R1就是推理模型。
![]()
當你開了深度思考,有這個正在思考的,有這種思維鏈的,就是推理模型。
非推理模型和推理模型有好有壞,核心區別自然就是速度和準確性,推理模型很多時候速度太慢了。
比如我經常讓GPT 5.2 Thinking幫我干個活或者搜個東西,思考一下,就是8分鐘過去了。。。
![]()
但是好處就是準。
非推理模型,沒有思考,上來就是干活,速度非常快,但是相對于的,就是經常不準。
而現在這個復制大法,可以讓你的非推理模型在速度不變的情況下,準確性飆升,所以,在很多場景下,還是非常有用的。
說回實驗,他們找了7個模型測試,測的內容也都耳熟能詳,ARC、OpenBookQA、GSM8K、MMLU-Pro、MATH等等一些常見的測試集,還有他們自己設計的兩個怪東西,NameIndex和MiddleMatch。
NameIndex叫姓名索引法,大概就是給模型50個名字的列表,問它第25個是誰。
![]()
MiddleMatch就是中間匹配法,就是給模型一個會隨機重復且包含多個名字的列表,問他兩個字符之間的那個名字叫啥。
![]()
講道理他們設計的這兩個小測試,還是挺有趣的。
然后呢,他們就做了一件看起來特別沒有技術含量的事情。
以前我們問模型,是這樣問的:
<問題>
他們變成這樣然后去對比:
<問題> <問題>
一模一樣,再來一遍。
中間不加解釋,不說please,不說think step by step,不加別的Prompt,不貼示例,就真的只是在原問題后面連著又粘了一次。
![]()
然后成功率就暴漲,就是我們開頭說的數據,他們自己的原話是:
“據此標準,提示重復在70個基準模型組合中贏得了47個,0個失敗。值得 注意的是,所有測試模型的性能都得到了改善。”
在 70 組原始提示詞 vs 復制一遍的對比里,這個土味招數贏了 47 次,平了 23 次,一次都沒輸。
非常離譜。
他們還根據這個復制粘貼大法,搞了一些衍伸Prompt技巧,比如重復三遍啥的,發現效果也會同樣變好。
為啥復制一遍,會有效果呢?
論文里面給了一個很工程的解釋,大概就是大模型訓練的時候,是“因果語言模型”,也就是那種從左往右一個詞一個詞預測的風格。
當前這個token,只能看到之前的那些,沒法提前看到后面的。
所以,當你把問題重復一遍,比如從Q變成Q1Q2,那么Q2里的每一個字,在計算的時候,就能回頭看到Q1里的所有內容。
等于給了AI一次“回頭看、再思考”的機會。
聽著很難理解對吧。
我還是用大白話舉個例子。
現在,你給AI一個選擇題,這個選擇題可能會有點繞:
哪一個選項會改變畫面?只輸出 A 或 B如果你現在是AI,你就是一個類似于在看視頻字幕的人,當你讀到 A、B 的時候,你還不知道當前畫面到底誰在左誰在右。你對A、B的第一印象就會很空,像是兩個差不多的句子。
等你讀到后面的場景說明,你當然知道答案該怎么選,但那個字幕已經過去了,你又沒法往回拉進度條,已經沒法回頭重新讀一遍A、B來更新第一印象了。
那我們現在按照論文的做法,把整段復制一遍。
哪一個選項會改變畫面?只輸出 A 或 B第二遍的A、B出現時,其實已經包含了第一遍的完整信息,所以模型這次讀到選項時,腦子里的小卡片會帶著場景條件一起生成。
于是它在最后輸出A或B時,能直接調用一份更懂題的選項表征,準確率就更容易上去。
就很像你第一次看《流浪地球2》或者《盜夢空間》,可能第一次很多地方沒看懂,但是當你第二次看的時候,你一定會有更加全面、更加新的領悟。
這就是重復的力量。
重復,其實就是給我們,給AI,多一次重來的機會。
而這種Prompt技巧,之所謂對DeepSeek R1這種推理模型沒啥用,其實原因也特別簡單,很多通過RL微調出來的會推理的模型,其實已經自己學會這個技巧了。
你讓它推理的時候,它第一反應經常就是先把問題復述一遍。
你可以仔細回想一下很多模型的回答開頭:
“題目問的是……”
“我們需要求解的是……”
“首先我們需要理解題目給出的條件……”
本質上,它已經在自動多抄一遍題目,給自己重新排了次版。
![]()
我說實話,我讀這個小短文的時候,一直有一個特別強烈的感覺:
我們一直以來,對Prompt工程的想象,一直都太浪漫了。
總覺得好的提示詞,應該是:
結構清晰,層層遞進,有role、有 rule、有context、有format,有點像咨詢公司做的 PPT,一頁一頁講邏輯,最后拋給模型一個完美的問題。
過去兩年,大模型相關的內容里,Prompt也經常被講成一種玄學。
寫提示詞像下咒語一樣,要講究格式、口氣、敬語,要學一堆咒語模板,甚至要背prompt手冊。
我其實一直都不太提倡,所以前段時間,還寫了我自己的所謂的Prommpt心法:
但其實說真的,對很多純粹的問答場景,尤其是短問題,模型壓根不需要你在提示詞上搞太多花活。
你只要安安靜靜,把題目再重復一遍,就已經是一個極其強力的優化。
Google論文里面的未來方向,也寫了一些。
比如:把重復提示這件事,寫進模型的訓練流程里,讓模型從預訓練或者微調階段就習慣這種結構;或者只在 KV cache 里保留第二遍的提示,讓推理階段的性能完全不受影響;或者只重復提示詞的一部分,而不是整段全文;甚至還可以考慮在多模態里重復,比如圖像、視頻。
我們總是希望用復雜的語言解決問題,結果發現,有時候最有效的是那句順嘴又重復的話。
這件事其實跟很多我們熟悉的領域一樣。
人類社會其實一直在用復制粘貼這個技能,只不過給它起了很多體面的名字:
復述、強調、排比、朗誦、詠唱、抄經、背誦、晨讀、開大會、宣誓、校訓等等。
我倒是突然想起一個很私人化的畫面。
有一陣我數據確實不是很好,感覺內容怎么寫都沒人看,方向也有問題,然后本來情緒特別糟糕,還有一堆其他的項目管理的事、各種意外發生、然后身體也不太好。
那天跟朋友聊微信,實在沒崩住,哭訴了幾句。
對方只發了一句特別簡單的話:
“你已經做得很好了。”
我回了一個“哈哈哈,哪有”。
過了幾分鐘,他又發了一遍,還是同一句。
大概又隔了十幾分鐘,他第三次發過來:
“你已經做得很好了,真的。”
那一瞬間,我突然就沒繃住。
人類的很多情感,其實都是靠重復才能構筑的。
從這個角度看,復制粘貼這事,好像也沒那么卑微。
愛一個人是日常的復制粘貼,專業是一輩子的復制粘貼,寫作是對一些想法一遍又一遍的復制粘貼,
直到有一天,這些東西都不需要你刻意想起,它們自動從你的手指和眼神里長出來。
AI 的世界,很大一塊其實就是壓縮過的人的世界。
當你下一次在終端里敲下那一長串Prompt的時候,也許可以在末尾多敲一次 Ctrl+V。
同樣,當你下一次覺得人生很亂的時候,也許可以找一兩句你真心認同的話,寫在記事本、手機備忘錄、貼在桌邊墻上,反復去看。
從一堆token里看到真正的重點,需要的是幾次重復后的清晰。
而從一地雞毛里看到一點點意義,生活,很多時候也是這樣。
高山之流水。
萬物皆重復。
以上,既然看到這里了,如果覺得不錯,隨手點個贊、在看、轉發三連吧,如果想第一時間收到推送,也可以給我個星標?~謝謝你看我的文章,我們,下次再見。
>/ 作者:卡茲克
>/ 投稿或爆料,請聯系郵箱:wzglyay@virxact.com
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.