大數(shù)據(jù)文摘受權(quán)轉(zhuǎn)載自學(xué)術(shù)頭條
整理:瀟瀟
大語言模型(LLM)普遍存在幻覺問題,即生成與客觀事實(shí)不符的內(nèi)容。針對(duì)這一問題,已有多種抑制幻覺的技術(shù)被提出。
在科研活動(dòng)中,創(chuàng)造力是提出科學(xué)假設(shè)與構(gòu)建科學(xué)構(gòu)想的關(guān)鍵要素。隨著 LLM 日益深入科研輔助工作中,這種依賴非常規(guī)聯(lián)想的創(chuàng)造性思維在表現(xiàn)形式上往往與模型幻覺相似。
然而,抑制幻覺的技術(shù)是否會(huì)削弱模型的創(chuàng)造力,業(yè)內(nèi)仍缺乏系統(tǒng)性認(rèn)知。
基于此,南洋理工大學(xué)研究團(tuán)隊(duì)運(yùn)用兩個(gè)創(chuàng)造力測(cè)評(píng)基準(zhǔn),對(duì)抑制幻覺方法與模型創(chuàng)造力之間的關(guān)系進(jìn)行了研究,為科學(xué)應(yīng)用場景中如何選擇合適的抑制幻覺技術(shù)提供了重要參考。
![]()
論文鏈接:https://arxiv.org/pdf/2512.11509
他們選取了兩個(gè)創(chuàng)造力評(píng)測(cè)基準(zhǔn)。
NeoCoder,通過逐步增加約束條件的編程任務(wù)來評(píng)估模型的創(chuàng)造力,其高度規(guī)則化的任務(wù)環(huán)境可類比于在固定自然規(guī)律約束下開展的科學(xué)實(shí)驗(yàn)。
CS4,聚焦于開放式故事生成,更強(qiáng)調(diào)發(fā)散性聯(lián)想與想象能力,貼近科學(xué)假設(shè)生成所需的創(chuàng)造性思維過程。
在兩個(gè)基準(zhǔn)測(cè)試上,他們對(duì)三種抑制幻覺技術(shù)進(jìn)行系統(tǒng)評(píng)估,包括:驗(yàn)證鏈(CoVe)、對(duì)比層解碼(DoLa)和檢索增強(qiáng)生成(RAG)。
![]()
圖|實(shí)驗(yàn)框架示意圖
CoVe提升發(fā)散性創(chuàng)造力
實(shí)驗(yàn)結(jié)果顯示,CoVe 能顯著提升大模型的發(fā)散性創(chuàng)造力,也就是讓模型在思考問題時(shí)產(chǎn)生更多新穎、多樣的答案。
在不同模型與基準(zhǔn)上的實(shí)驗(yàn)中,CoVe 整體表現(xiàn)穩(wěn)定,尤其在某些小模型上提升更為明顯。
這說明,CoVe 通過引入“驗(yàn)證—質(zhì)詢”式的解碼過程,引導(dǎo)模型探索更多潛在推理路徑,而不是沿著單一方向快速得出結(jié)論。
CoVe 的效果不僅體現(xiàn)在性能指標(biāo)上,也體現(xiàn)出類人的發(fā)散思維訓(xùn)練的價(jià)值,通過持續(xù)發(fā)問與多方向思考,有助于打破思維定勢(shì),刺激“頭腦風(fēng)暴式”的創(chuàng)意思考。
![]()
圖|解碼方法對(duì)發(fā)散性創(chuàng)造力的影響(NeoCoder)
RAG對(duì)發(fā)散性創(chuàng)造力影響有限
另一邊,RAG 對(duì)模型的發(fā)散性創(chuàng)造力基本沒有實(shí)質(zhì)影響。無論是在不同模型規(guī)模還是不同基準(zhǔn)上,RAG 的結(jié)果都僅呈現(xiàn)出輕微且隨機(jī)的波動(dòng),整體圍繞基線上下浮動(dòng)。
但研究團(tuán)隊(duì)也解釋了潛在可能,如果檢索系統(tǒng)能提供模型訓(xùn)練之外的策略或新鮮知識(shí),RAG 可能在創(chuàng)造性上發(fā)揮積極作用。例如,高質(zhì)量檢索內(nèi)容可幫助模型提升事實(shí)性判斷,這一能力與創(chuàng)造力趨同,同時(shí)還可能通過引入新視角來激發(fā)新思路,提高發(fā)散性創(chuàng)造力。
![]()
圖|解碼方法對(duì)發(fā)散創(chuàng)造力的影響(CS4)
DoLa抑制發(fā)散性創(chuàng)造力
與上述兩種技術(shù)相反,DoLa 會(huì)系統(tǒng)性降低模型的發(fā)散性創(chuàng)造力。在兩個(gè)基準(zhǔn)上,基于 DoLa 的大多數(shù)模型的表現(xiàn)均略低于基線,這表明,創(chuàng)造力下降來自 DoLa 本身,而非模型結(jié)構(gòu)差異。
研究團(tuán)隊(duì)推測(cè),DoLa 削弱了負(fù)責(zé)創(chuàng)造力的層級(jí)結(jié)構(gòu)。DoLa 的機(jī)制是通過將早期層預(yù)測(cè)從后期層預(yù)測(cè)中相減以提升事實(shí)性,如果早期層包含更多探索性與發(fā)散性特征,那么對(duì)其進(jìn)行對(duì)比運(yùn)算時(shí),就可能抹除創(chuàng)造生成所需的信息。
進(jìn)一步實(shí)驗(yàn)顯示,通過在解碼時(shí)增強(qiáng)與創(chuàng)造力相關(guān)的層級(jí)、抑制負(fù)相關(guān)層級(jí),可以在不損害趨同創(chuàng)造力的前提下提升發(fā)散性創(chuàng)造力。這說明兩類創(chuàng)造力可能是可分離的,未來可針對(duì)性地提升發(fā)散性創(chuàng)造潛力。
![]()
圖|通過增強(qiáng)與創(chuàng)造力正相關(guān)的層級(jí)并抑制與創(chuàng)造力負(fù)相關(guān)的層級(jí)來提升發(fā)散創(chuàng)造力
局限性
當(dāng)然,這項(xiàng)研究也存在一定的局限性。
第一,創(chuàng)造力評(píng)估具有局限性。實(shí)驗(yàn)只能間接衡量科學(xué)假設(shè)生成能力,并不等同真實(shí)科研中的創(chuàng)造力表現(xiàn),所以結(jié)果的外推性有限。
第二,CoVe 機(jī)制解釋不足。雖然 CoVe 能提升發(fā)散創(chuàng)造力,但沒做消融實(shí)驗(yàn),也沒有揭示具體機(jī)制,因此無法確定其發(fā)揮作用的因果路徑。
第三,RAG 結(jié)論不夠穩(wěn)固。關(guān)于 RAG 對(duì)創(chuàng)造力影響弱的解釋,缺乏對(duì)檢索質(zhì)量和不同檢索策略的測(cè)量,因此結(jié)論需要更系統(tǒng)驗(yàn)證。
隨著 LLM 變得越來越聰明,釋放它們?cè)诳茖W(xué)發(fā)現(xiàn)方面的潛力變得越來越重要。展望未來,研究人員希望 LLM 不僅是被動(dòng)的工具,更能成為科研工作中的積極協(xié)作者。
GPU 訓(xùn)練特惠!
H100/H200 GPU算力按秒計(jì)費(fèi),平均節(jié)省開支30%以上!
掃碼了解詳情?
點(diǎn)「贊」的人都變好看了哦!
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.