網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

別讓“反幻覺”殺死AI創(chuàng)造力，最新實(shí)證研究來了！

2025-12-31 19:07:53　來源: 大數(shù)據(jù)文摘

北京舉報(bào)

分享至

大數(shù)據(jù)文摘受權(quán)轉(zhuǎn)載自學(xué)術(shù)頭條

整理：瀟瀟

大語言模型（LLM）普遍存在幻覺問題，即生成與客觀事實(shí)不符的內(nèi)容。針對(duì)這一問題，已有多種抑制幻覺的技術(shù)被提出。

在科研活動(dòng)中，創(chuàng)造力是提出科學(xué)假設(shè)與構(gòu)建科學(xué)構(gòu)想的關(guān)鍵要素。隨著 LLM 日益深入科研輔助工作中，這種依賴非常規(guī)聯(lián)想的創(chuàng)造性思維在表現(xiàn)形式上往往與模型幻覺相似。

然而，抑制幻覺的技術(shù)是否會(huì)削弱模型的創(chuàng)造力，業(yè)內(nèi)仍缺乏系統(tǒng)性認(rèn)知。

基于此，南洋理工大學(xué)研究團(tuán)隊(duì)運(yùn)用兩個(gè)創(chuàng)造力測(cè)評(píng)基準(zhǔn)，對(duì)抑制幻覺方法與模型創(chuàng)造力之間的關(guān)系進(jìn)行了研究，為科學(xué)應(yīng)用場景中如何選擇合適的抑制幻覺技術(shù)提供了重要參考。

論文鏈接：https://arxiv.org/pdf/2512.11509

他們選取了兩個(gè)創(chuàng)造力評(píng)測(cè)基準(zhǔn)。

NeoCoder，通過逐步增加約束條件的編程任務(wù)來評(píng)估模型的創(chuàng)造力，其高度規(guī)則化的任務(wù)環(huán)境可類比于在固定自然規(guī)律約束下開展的科學(xué)實(shí)驗(yàn)。
CS4，聚焦于開放式故事生成，更強(qiáng)調(diào)發(fā)散性聯(lián)想與想象能力，貼近科學(xué)假設(shè)生成所需的創(chuàng)造性思維過程。

在兩個(gè)基準(zhǔn)測(cè)試上，他們對(duì)三種抑制幻覺技術(shù)進(jìn)行系統(tǒng)評(píng)估，包括：驗(yàn)證鏈（CoVe）、對(duì)比層解碼（DoLa）和檢索增強(qiáng)生成（RAG）。

圖｜實(shí)驗(yàn)框架示意圖

CoVe提升發(fā)散性創(chuàng)造力

實(shí)驗(yàn)結(jié)果顯示，CoVe 能顯著提升大模型的發(fā)散性創(chuàng)造力，也就是讓模型在思考問題時(shí)產(chǎn)生更多新穎、多樣的答案。

在不同模型與基準(zhǔn)上的實(shí)驗(yàn)中，CoVe 整體表現(xiàn)穩(wěn)定，尤其在某些小模型上提升更為明顯。

這說明，CoVe 通過引入“驗(yàn)證—質(zhì)詢”式的解碼過程，引導(dǎo)模型探索更多潛在推理路徑，而不是沿著單一方向快速得出結(jié)論。

CoVe 的效果不僅體現(xiàn)在性能指標(biāo)上，也體現(xiàn)出類人的發(fā)散思維訓(xùn)練的價(jià)值，通過持續(xù)發(fā)問與多方向思考，有助于打破思維定勢(shì)，刺激“頭腦風(fēng)暴式”的創(chuàng)意思考。

圖｜解碼方法對(duì)發(fā)散性創(chuàng)造力的影響（NeoCoder）

RAG對(duì)發(fā)散性創(chuàng)造力影響有限

另一邊，RAG 對(duì)模型的發(fā)散性創(chuàng)造力基本沒有實(shí)質(zhì)影響。無論是在不同模型規(guī)模還是不同基準(zhǔn)上，RAG 的結(jié)果都僅呈現(xiàn)出輕微且隨機(jī)的波動(dòng)，整體圍繞基線上下浮動(dòng)。

但研究團(tuán)隊(duì)也解釋了潛在可能，如果檢索系統(tǒng)能提供模型訓(xùn)練之外的策略或新鮮知識(shí)，RAG 可能在創(chuàng)造性上發(fā)揮積極作用。例如，高質(zhì)量檢索內(nèi)容可幫助模型提升事實(shí)性判斷，這一能力與創(chuàng)造力趨同，同時(shí)還可能通過引入新視角來激發(fā)新思路，提高發(fā)散性創(chuàng)造力。

圖｜解碼方法對(duì)發(fā)散創(chuàng)造力的影響（CS4）

DoLa抑制發(fā)散性創(chuàng)造力

與上述兩種技術(shù)相反，DoLa 會(huì)系統(tǒng)性降低模型的發(fā)散性創(chuàng)造力。在兩個(gè)基準(zhǔn)上，基于 DoLa 的大多數(shù)模型的表現(xiàn)均略低于基線，這表明，創(chuàng)造力下降來自 DoLa 本身，而非模型結(jié)構(gòu)差異。

研究團(tuán)隊(duì)推測(cè)，DoLa 削弱了負(fù)責(zé)創(chuàng)造力的層級(jí)結(jié)構(gòu)。DoLa 的機(jī)制是通過將早期層預(yù)測(cè)從后期層預(yù)測(cè)中相減以提升事實(shí)性，如果早期層包含更多探索性與發(fā)散性特征，那么對(duì)其進(jìn)行對(duì)比運(yùn)算時(shí)，就可能抹除創(chuàng)造生成所需的信息。

進(jìn)一步實(shí)驗(yàn)顯示，通過在解碼時(shí)增強(qiáng)與創(chuàng)造力相關(guān)的層級(jí)、抑制負(fù)相關(guān)層級(jí)，可以在不損害趨同創(chuàng)造力的前提下提升發(fā)散性創(chuàng)造力。這說明兩類創(chuàng)造力可能是可分離的，未來可針對(duì)性地提升發(fā)散性創(chuàng)造潛力。

圖｜通過增強(qiáng)與創(chuàng)造力正相關(guān)的層級(jí)并抑制與創(chuàng)造力負(fù)相關(guān)的層級(jí)來提升發(fā)散創(chuàng)造力

局限性

當(dāng)然，這項(xiàng)研究也存在一定的局限性。

第一，創(chuàng)造力評(píng)估具有局限性。實(shí)驗(yàn)只能間接衡量科學(xué)假設(shè)生成能力，并不等同真實(shí)科研中的創(chuàng)造力表現(xiàn)，所以結(jié)果的外推性有限。

第二，CoVe 機(jī)制解釋不足。雖然 CoVe 能提升發(fā)散創(chuàng)造力，但沒做消融實(shí)驗(yàn)，也沒有揭示具體機(jī)制，因此無法確定其發(fā)揮作用的因果路徑。

第三，RAG 結(jié)論不夠穩(wěn)固。關(guān)于 RAG 對(duì)創(chuàng)造力影響弱的解釋，缺乏對(duì)檢索質(zhì)量和不同檢索策略的測(cè)量，因此結(jié)論需要更系統(tǒng)驗(yàn)證。

隨著 LLM 變得越來越聰明，釋放它們?cè)诳茖W(xué)發(fā)現(xiàn)方面的潛力變得越來越重要。展望未來，研究人員希望 LLM 不僅是被動(dòng)的工具，更能成為科研工作中的積極協(xié)作者。

GPU 訓(xùn)練特惠！

H100/H200 GPU算力按秒計(jì)費(fèi)，平均節(jié)省開支30%以上！

掃碼了解詳情?

點(diǎn)「贊」的人都變好看了哦！

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.