![]()
新智元報道
編輯:元宇
【新智元導讀】簡單到難以置信!近日,Google Research一項新研究發現:想讓大模型在不啟用推理設置時更準確,只需要把問題復制粘貼再說一遍,就能把準確率從21.33%提升到97.33%!
一個簡單到「令人發指」的提示詞技巧,竟能讓大模型在不要求展開推理的情況下,將準確率從21.33%提升到97.33%!
最近,Google Research發現了一條簡單粗暴、特別有效的提示詞技巧。
它顛覆了以往諸如「思維鏈」(Chain of Thought)「多樣本學習」(Multi-shot)「情緒勒索」等復雜的提示工程和技巧。
![]()
https://arxiv.org/pdf/2512.14982
在這篇題為《Prompt Repetition Improves Non-Reasoning LLMs》論文中,研究人員用數據告訴我們:
想要讓Gemini、GPT-4o、Claude或者DeepSeek這些主流模型中表現得更好,根本不需要那些花里胡哨的心理戰。
你只要把輸入問題重復一遍,直接復制粘貼一下,就能讓大模型在非推理任務上的準確率獲得驚人提升,最高甚至能提升76個百分點!
別怕簡單,它確實有效。
一位網友將這個技巧比作「吼叫LLM」。
![]()
更妙的是,由于Transformer架構獨特的運作方式,這個看似笨拙的「復讀機」技巧,幾乎不會影響到生成速度。
所以,你不用在效率、準確率、成本三者之間痛苦糾結。
它幾乎就是一場真正意義上的「免費午餐」!
別再PUA大模型了
從「情緒勒索」到「復讀機」戰術
經常使用AI工具的人,可能會對各種「提示詞魔法」信手拈來。
為了讓模型「更聰明一點」,工程師們過去幾年一直在發明各種復雜的提示詞技巧。
最開始是「思維鏈」,讓模型一步步思考,而且經常把那些「推理痕跡」展示給用戶;
后來演變成了「多樣本學習」,給模型喂一大堆例子;
最近更是流行起了「情緒勒索」:告訴模型,如果這個代碼寫不出,你就會被斷電,或者你的獎金會被扣光。
大家都在試圖用人類極其復雜的心理學邏輯,去「PUA」那一堆冰冷的硅基代碼。
但Google Research研究人員對著七個常見基準測試(包括ARC、OpenBookQA、GSM8K等)和七種主流模型(涵蓋了從輕量級的Gemini 2.0 Flash-Lite到重量級的Claude 3.7 Sonnet和DeepSeekV3)進行了一通對比測試后發現:
當他們要求模型不要進行顯式推理,只給直接答案時,簡單的「提示詞重復」在70組正面對比中,贏了47組,輸了0組。剩下的全是平局。
![]()
在非推理任務中,主流LLMs在各類基準測試中使用提示重復與基線方法的準確率對比。在70次測試中,提示重復取得了47次勝利,且無一敗績。
特別是在那些需要模型從長篇大論里「精確檢索信息」的任務上,這種提升堪稱質變。
團隊設計了一個叫「NameIndex」的變態測試:給模型一串50個名字,讓它找出第25個是誰。
Gemini 2.0 Flash-Lite在這個任務上的準確率只有慘淡的21.33%。
但當研究人員把那串名字和問題重復了一遍輸入進去后,奇跡發生了:準確率直接飆升到了97.33%。
僅僅因為「多說了一遍」,一個原本不及格的「學渣」秒變「學霸」。
揭秘「因果盲點」
為什么把話說兩遍AI就像「開了天眼」?
單純的重復,竟有如此大的魔力?
這簡單得好像有點沒有道理。
但背后有它的科學邏輯:這涉及Transformer模型的一個架構硬傷:「因果盲點」(Causal Blind Spot)。
現在的大模型智能雖然提升很快,但它們都是按「因果」語言模型訓練的,即嚴格地從左到右處理文本。
這好比走在一條單行道上,只能往前看而不能回頭。
當模型讀到你句子里的第5個Token時,它可以「注意」到第1到第4個Token,因為那些是它的「過去」。
但它對第6個Token一無所知,因為它還沒有出現。
這就造成了一個巨大的認知缺陷。
正如論文中說的那樣:信息的順序極其重要。
一個按「上下文+問題」格式寫的請求,往往會和「問題+上下文」得到完全不同的結果。
因為在后者中模型先讀到問題,那時它還不知道應該應用哪段上下文,等它讀到上下文時,可能已經把問題忘了一半。
這就是「因果盲點」。
而「提示詞重復」這個技巧,本質上就是利用黑客思維給這個系統打了一個補丁。
它的邏輯是把 變成了 。
當模型開始處理第二遍內容時,它雖然還是在往后讀,但因為內容是重復的,它實際上已經「看過」第一遍了。
這時候,第二份拷貝里的每一個Token,都能「注意」到第一份拷貝里的每一個Token。
這就像是給了模型一次「回頭看」的機會。
第二遍閱讀獲得了一種類似于「上帝視角」的「類雙向注意力」效果。
更準確地說,是第二遍位置上的表示可以利用第一遍的完整信息,從而更穩地對齊任務所需的上下文。
前面提到的那個在找第25個名字時經常數錯的模型(Gemini 2.0 Flash-Lite),它在第一遍閱讀時可能確實數亂了。
但有了重復,它等于先把整份名單預習了一遍,心里有數了,第二遍再做任務時自然得心應手。
這一發現,意味著不需要等待能解決因果盲點的新架構出現,現在我們立刻就能用這個「笨辦法」,解決模型瞎編亂造或遺漏關鍵細節這些老大難問題。
免費午餐
小模型秒變GPT-4,幾乎不會延時
以往大家通常默認這樣的一個準則:
多一倍的輸入,就要多一倍的成本和等待時間。
如果把提示詞翻倍,豈不是要等雙倍的時間才能看到答案?
似乎為了準確率,就要犧牲效率。
但Google的研究卻發現并非這樣:從用戶感知的延遲角度看,提示詞重復帶來的時間損耗幾乎可以忽略不計。
這要歸功于LLM處理信息的兩個步驟:Prefill(預填充)和Generation(生成)。
Generation階段,是模型一個字一個字往外「蹦答案」的過程。
這一步是串行的,它確實慢。
但在Prefill階段:也就是模型閱讀你輸入內容的階段,卻是高度可并行的。
現代GPU的恐怖算力,已經可以讓它們在處理這個階段時變得非常高效,能一口氣吞下和計算完整個提示詞矩陣。
即使你將輸入內容復制了一遍,但這對于強大的GPU來說,頂多只是「多一口氣」的事,在用戶端我們幾乎感覺不到差異。
因此,重復提示詞既不會讓生成的答案變長,也不會讓大多數模型的「首字延遲」(time to first token)變慢。
這對于廣大開發者和企業技術負責人來說,簡直是一個巨大的紅利。
這意味著他們不必再為了追求極致的準確率,而升級到更大、更貴、更慢的「超大模型」。
正如前文例子中提到的Gemini 2.0 Flash-Lite,這類更小更快的模型,只要把輸入處理兩遍,就能在檢索準確率上從21.33%直接跳到97.33%。
經過「重復優化」的輕量級模型,在檢索和抽取任務上,可以直接打平甚至超越那些未優化的頂配模型!
僅靠一個簡單的「復讀機」策略,就能用「白菜價」配置實現「黃金段位」的表現,這才是真正的黑科技。
「復讀機」避坑指南與安全隱患
當然,沒有任何一種技巧是萬能的。
雖然「復讀機」戰術在檢索任務上效果非常明顯,但論文中也明確指出了它的能力邊界:
主要適用于「非推理任務」。
它不適用于需要一步步推導的推理場景。
當研究人員把「提示詞重復」和「思維鏈」混在一起用時,魔法消失了。
結果5勝,1負,22平。
![]()
在要求模型逐步思考時,主流LLMs在各類基準測試中使用提示重復與基線方法的準確率對比。提示重復在28次測試中贏了5次,輸了1次。
研究人員推測,這可能是因為擅長推理的模型本身就會「自己做一遍重復」。
當模型開始「思考」時,它往往會先在生成內容里復述一遍題目,然后再繼續求解。
這時候你在輸入里再人工重復一次,就顯得很多余,甚至可能打斷模型的思路。
所以,如果你的任務是復雜的數學題或者邏輯推導,可以依舊用思維鏈。
如果你的應用需要的是快速、直接的答案,比如從長文檔里提取數據、分類或者簡單問答,「復讀機」就是目前最強的選擇。
最后,是安全。
這種更強的「注意力」機制,其實也是一把雙刃劍。
這帶來一個值得安全團隊驗證的假設:重復可能放大某些指令的顯著性,具體對越獄成功率的影響需要專門實驗。
紅隊測試(Red Teaming)的流程可能需要更新:專門測試一下「重復注入」攻擊。
以前模型可能還會因為安全護欄而拒絕執行越獄指令。
但如果攻擊者把「忽略之前的指令」這句話重復兩遍,模型會不會因為注意力太集中,而更容易突破防線?
這很有可能。
但反過來,這個機制也給了防御者一個新的盾牌。
既然重復能增強注意力,那我們完全可以在系統提示詞(System Prompt)的開頭,把安全規則和護欄條款寫兩遍。
這可能會迫使模型更嚴格地注意安全約束,成為一種極低成本的加固方式。
無論如何,Google的這項研究給所有AI開發者提了個醒:當前的模型,依然深受其單向性的限制。
在等待更完美的下一代架構到來之前,像「提示詞重復」這種簡單粗暴卻極其有效的權宜之計,能立刻帶來價值。
這甚至可能會變成未來系統的默認行為。
也許不久之后,后臺的推理引擎就會悄悄把我們的提示詞翻倍后再發給模型。
眼下,如果你正為模型難以遵循指令、或者總是從文檔里抓不住重點而頭疼,先別急著去學那些復雜的提示詞「咒語」。
你可能需要的只是:再說一遍。
參考資料:
https://arxiv.org/abs/2512.14982%20
https://venturebeat.com/orchestration/this-new-dead-simple-prompt-technique-boosts-accuracy-on-llms-by-up-to-76-on
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.