根據(jù)《自然》雜志的報(bào)道,2024年各類AI在提到參考文獻(xiàn)時(shí)出錯(cuò)率高達(dá)30%到90%,錯(cuò)誤涵蓋論文標(biāo)題、作者姓名、發(fā)表年份等關(guān)鍵信息。
![]()
![]()
這個(gè)數(shù)字聽(tīng)起來(lái)觸目驚心,但更讓人警惕的是,這些錯(cuò)誤往往披著專業(yè)而自信的外衣,讓人難以察覺(jué)。
當(dāng)OpenAI建議用戶,不要在關(guān)鍵任務(wù)中使用其自動(dòng)語(yǔ)音識(shí)別系統(tǒng)Whisper時(shí),這個(gè)警告背后隱藏著一個(gè)更深層的問(wèn)題:AI制造的虛假信息,正在以前所未有的方式威脅著信息生態(tài)系統(tǒng)。
![]()
人類說(shuō)謊會(huì)心虛,這是我們大腦對(duì)道德判斷的本能反應(yīng),麻省理工學(xué)者在《隱藏的博弈》中指出,壞人容易失敗不僅因?yàn)檎x力量強(qiáng)大,更因?yàn)樗麄冏约簳?huì)心虛。
這種心理負(fù)擔(dān)是人性的枷鎖,限制了惡意傳播的規(guī)模和力度。
然而AI不存在這個(gè)問(wèn)題,它追求的從來(lái)不是真相,而是"高分",就像學(xué)生寫(xiě)作文,即便對(duì)話題一知半解,只要文筆優(yōu)美湊夠字?jǐn)?shù),分?jǐn)?shù)總不會(huì)太低。
這種訓(xùn)練機(jī)制決定了AI面對(duì)任何問(wèn)題都必須像模像樣地輸出答案,哪怕這個(gè)答案完全是編造的。
![]()
![]()
更可怕的是AI造假的產(chǎn)能,網(wǎng)絡(luò)上出現(xiàn)了每篇2000字稿費(fèi)僅4元的AI寫(xiě)作招聘,這意味著一個(gè)寫(xiě)手每天可以輕松生成5萬(wàn)字內(nèi)容。
這還只是保守估計(jì),假如營(yíng)銷(xiāo)號(hào)為了流量鋪天蓋地制造這類內(nèi)容,互聯(lián)網(wǎng)被AI垃圾淹沒(méi)就不再是危言聳聽(tīng)。
美國(guó)有40個(gè)醫(yī)療系統(tǒng)使用Whisper處理病歷,結(jié)果約2.6萬(wàn)份病歷出現(xiàn)虛假信息,當(dāng)AI錯(cuò)誤滲透到醫(yī)療、法律、金融等專業(yè)領(lǐng)域時(shí),后果遠(yuǎn)比一般性誤導(dǎo)嚴(yán)重得多。
![]()
美國(guó)法院已經(jīng)出現(xiàn),律師因“引用AI編造的虛假判例”而被制裁的案例,這種"專業(yè)"外衣下的錯(cuò)誤格外具有迷惑性。
AI幻覺(jué)的根源在于其訓(xùn)練方式的根本缺陷,大語(yǔ)言模型基于海量數(shù)據(jù)訓(xùn)練,這些數(shù)據(jù)本身就充斥著垃圾信息、過(guò)時(shí)論文和互相矛盾的觀點(diǎn)。
模型的目標(biāo)不是理解真實(shí)世界,而是通過(guò)統(tǒng)計(jì)學(xué)習(xí)預(yù)測(cè)下一個(gè)最可能出現(xiàn)的詞語(yǔ)。
它不知道什么是真,只知道什么看起來(lái)像真的,這種機(jī)制天然鼓勵(lì)模型在不確定時(shí)也要"湊出"答案,而不是誠(chéng)實(shí)地承認(rèn)無(wú)知。
![]()
更要命的是,大多數(shù)模型的訓(xùn)練數(shù)據(jù)都有截止時(shí)間,對(duì)最新發(fā)生的事件根本不了解,只能依靠"猜測(cè)"來(lái)填補(bǔ)信息空白。
清華人工智能學(xué)院的研究發(fā)現(xiàn),不同提問(wèn)模式下AI的幻覺(jué)率差異巨大。
針對(duì)事實(shí)性測(cè)試,DeepSeek-V3的幻覺(jué)率高達(dá)29.67%,而豆包接近19%。
面對(duì)三類問(wèn)題時(shí)AI最容易出錯(cuò):知識(shí)邊界模糊的問(wèn)題比如預(yù)測(cè)未來(lái)、情感驅(qū)動(dòng)的場(chǎng)景比如安慰性回應(yīng)、特殊領(lǐng)域相關(guān)的問(wèn)題比如醫(yī)療診斷和金融預(yù)測(cè)。
![]()
![]()
這些恰恰是人們最需要準(zhǔn)確信息的領(lǐng)域,AI卻在這些領(lǐng)域表現(xiàn)出最高的錯(cuò)誤率,這種錯(cuò)位本身就是一個(gè)危險(xiǎn)信號(hào)。
雖然,技術(shù)層面的解決方案正在涌現(xiàn),但沒(méi)有一種能夠根治問(wèn)題。
比如,RAG檢索增強(qiáng)生成,讓模型在回答前先檢索現(xiàn)實(shí)信息源,DeepSeek聯(lián)網(wǎng)搜索后幻覺(jué)率幾乎為零,但這需要付出額外的計(jì)算成本和時(shí)間。
![]()
事實(shí)上,世界模型能理解物理規(guī)律避免違背常識(shí)的回答,卻無(wú)法解決事實(shí)性錯(cuò)誤。
主流觀點(diǎn)認(rèn)為,AI幻覺(jué)是大模型預(yù)測(cè)機(jī)制的固有副產(chǎn)物,因?yàn)槟P捅举|(zhì)上是"概率語(yǔ)言生成器",沒(méi)有真實(shí)世界常識(shí)或判斷機(jī)制,這種結(jié)構(gòu)性問(wèn)題注定無(wú)法完全消除。
同時(shí),規(guī)則建設(shè)的嘗試也在進(jìn)行中。
摩根路易律所宣布一旦發(fā)現(xiàn)律師使用AI編造的假信息就立即解雇,《詩(shī)刊》發(fā)布聲明將AI投稿者列入黑名單,科大訊飛的劉慶峰提出建立安全可信、動(dòng)態(tài)更新的數(shù)據(jù)庫(kù)。
![]()
![]()
這些措施都試圖,通過(guò)外部約束來(lái)限制AI幻覺(jué)的危害,但問(wèn)題在于,規(guī)則總是滯后于技術(shù)發(fā)展,而且很難覆蓋所有應(yīng)用場(chǎng)景。
當(dāng)AI生成內(nèi)容的成本低到每篇4元、產(chǎn)量高到每天5萬(wàn)字時(shí),任何依賴人工審核的機(jī)制都會(huì)不堪重負(fù)。
對(duì)于普通用戶來(lái)說(shuō),“改進(jìn)使用方式”是目前最現(xiàn)實(shí)的自保手段。
可以使用多個(gè)AI互相驗(yàn)證,可以發(fā)現(xiàn)明顯錯(cuò)誤,用精細(xì)化提示詞能約束模型胡編亂造,比如明確指定"作為臨床醫(yī)學(xué)專家,基于2026年之前的公開(kāi)學(xué)術(shù)文獻(xiàn)"這樣的限定條件。
![]()
![]()
但這一切的前提是,用戶必須對(duì)AI保持警惕。
AI能生成標(biāo)準(zhǔn)化文本但不能替代個(gè)性化表達(dá),能幫助填補(bǔ)知識(shí)空白但不能保證信息絕對(duì)正確,能加速信息整理但不能快速編程大腦.
能提供決策建議但不能承擔(dān)決策責(zé)任,能把理論用于不同場(chǎng)景,但不能取代獨(dú)立意志和真實(shí)體驗(yàn)。
這些邊界看似清晰,實(shí)際應(yīng)用中卻容易被模糊,當(dāng)AI以專業(yè)而自信的口吻輸出錯(cuò)誤信息時(shí),人們往往會(huì)本能地相信,因?yàn)樗?看起來(lái)太像真的了"。
![]()
![]()
AI幻覺(jué)的真正危險(xiǎn)不在于技術(shù)本身,而在于它正在改變?nèi)藗儗?duì)信息的信任機(jī)制。
當(dāng)真人可能被誤認(rèn)為AI、AI生成的內(nèi)容可能被當(dāng)作真實(shí)信息時(shí),信任崩塌的連鎖反應(yīng)才剛剛開(kāi)始。
這不是技術(shù)進(jìn)步的代價(jià),而是我們必須正視的新現(xiàn)實(shí):在AI時(shí)代,懷疑和驗(yàn)證將成為信息消費(fèi)的必備技能,而盲目相信任何單一信息源都可能付出沉重代價(jià)。
AI是強(qiáng)大的工具,但它最大的問(wèn)題就是“它不是你”,它永遠(yuǎn)無(wú)法替代人類的判斷和責(zé)任。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.