網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

AI的謊言更危險(xiǎn)，錯(cuò)誤率高達(dá)90%，披著專業(yè)外衣讓人防不勝防

2026-01-14 18:27:58　來(lái)源: 今墨緣

河南舉報(bào)

分享至

根據(jù)《自然》雜志的報(bào)道，2024年各類AI在提到參考文獻(xiàn)時(shí)出錯(cuò)率高達(dá)30%到90%，錯(cuò)誤涵蓋論文標(biāo)題、作者姓名、發(fā)表年份等關(guān)鍵信息。

這個(gè)數(shù)字聽(tīng)起來(lái)觸目驚心，但更讓人警惕的是，這些錯(cuò)誤往往披著專業(yè)而自信的外衣，讓人難以察覺(jué)。

當(dāng)OpenAI建議用戶，不要在關(guān)鍵任務(wù)中使用其自動(dòng)語(yǔ)音識(shí)別系統(tǒng)Whisper時(shí)，這個(gè)警告背后隱藏著一個(gè)更深層的問(wèn)題:AI制造的虛假信息，正在以前所未有的方式威脅著信息生態(tài)系統(tǒng)。

人類說(shuō)謊會(huì)心虛，這是我們大腦對(duì)道德判斷的本能反應(yīng)，麻省理工學(xué)者在《隱藏的博弈》中指出，壞人容易失敗不僅因?yàn)檎x力量強(qiáng)大，更因?yàn)樗麄冏约簳?huì)心虛。

這種心理負(fù)擔(dān)是人性的枷鎖，限制了惡意傳播的規(guī)模和力度。

然而AI不存在這個(gè)問(wèn)題，它追求的從來(lái)不是真相，而是"高分"，就像學(xué)生寫(xiě)作文，即便對(duì)話題一知半解，只要文筆優(yōu)美湊夠字?jǐn)?shù)，分?jǐn)?shù)總不會(huì)太低。

這種訓(xùn)練機(jī)制決定了AI面對(duì)任何問(wèn)題都必須像模像樣地輸出答案，哪怕這個(gè)答案完全是編造的。

更可怕的是AI造假的產(chǎn)能，網(wǎng)絡(luò)上出現(xiàn)了每篇2000字稿費(fèi)僅4元的AI寫(xiě)作招聘，這意味著一個(gè)寫(xiě)手每天可以輕松生成5萬(wàn)字內(nèi)容。

這還只是保守估計(jì)，假如營(yíng)銷(xiāo)號(hào)為了流量鋪天蓋地制造這類內(nèi)容，互聯(lián)網(wǎng)被AI垃圾淹沒(méi)就不再是危言聳聽(tīng)。

美國(guó)有40個(gè)醫(yī)療系統(tǒng)使用Whisper處理病歷，結(jié)果約2.6萬(wàn)份病歷出現(xiàn)虛假信息，當(dāng)AI錯(cuò)誤滲透到醫(yī)療、法律、金融等專業(yè)領(lǐng)域時(shí)，后果遠(yuǎn)比一般性誤導(dǎo)嚴(yán)重得多。

美國(guó)法院已經(jīng)出現(xiàn)，律師因“引用AI編造的虛假判例”而被制裁的案例，這種"專業(yè)"外衣下的錯(cuò)誤格外具有迷惑性。

AI幻覺(jué)的根源在于其訓(xùn)練方式的根本缺陷，大語(yǔ)言模型基于海量數(shù)據(jù)訓(xùn)練，這些數(shù)據(jù)本身就充斥著垃圾信息、過(guò)時(shí)論文和互相矛盾的觀點(diǎn)。

模型的目標(biāo)不是理解真實(shí)世界，而是通過(guò)統(tǒng)計(jì)學(xué)習(xí)預(yù)測(cè)下一個(gè)最可能出現(xiàn)的詞語(yǔ)。

它不知道什么是真，只知道什么看起來(lái)像真的，這種機(jī)制天然鼓勵(lì)模型在不確定時(shí)也要"湊出"答案，而不是誠(chéng)實(shí)地承認(rèn)無(wú)知。

更要命的是，大多數(shù)模型的訓(xùn)練數(shù)據(jù)都有截止時(shí)間，對(duì)最新發(fā)生的事件根本不了解，只能依靠"猜測(cè)"來(lái)填補(bǔ)信息空白。

清華人工智能學(xué)院的研究發(fā)現(xiàn)，不同提問(wèn)模式下AI的幻覺(jué)率差異巨大。

針對(duì)事實(shí)性測(cè)試，DeepSeek-V3的幻覺(jué)率高達(dá)29.67%，而豆包接近19%。

面對(duì)三類問(wèn)題時(shí)AI最容易出錯(cuò):知識(shí)邊界模糊的問(wèn)題比如預(yù)測(cè)未來(lái)、情感驅(qū)動(dòng)的場(chǎng)景比如安慰性回應(yīng)、特殊領(lǐng)域相關(guān)的問(wèn)題比如醫(yī)療診斷和金融預(yù)測(cè)。

這些恰恰是人們最需要準(zhǔn)確信息的領(lǐng)域，AI卻在這些領(lǐng)域表現(xiàn)出最高的錯(cuò)誤率，這種錯(cuò)位本身就是一個(gè)危險(xiǎn)信號(hào)。

雖然，技術(shù)層面的解決方案正在涌現(xiàn)，但沒(méi)有一種能夠根治問(wèn)題。

比如，RAG檢索增強(qiáng)生成，讓模型在回答前先檢索現(xiàn)實(shí)信息源，DeepSeek聯(lián)網(wǎng)搜索后幻覺(jué)率幾乎為零，但這需要付出額外的計(jì)算成本和時(shí)間。

事實(shí)上，世界模型能理解物理規(guī)律避免違背常識(shí)的回答，卻無(wú)法解決事實(shí)性錯(cuò)誤。

主流觀點(diǎn)認(rèn)為，AI幻覺(jué)是大模型預(yù)測(cè)機(jī)制的固有副產(chǎn)物，因?yàn)槟Ｐ捅举|(zhì)上是"概率語(yǔ)言生成器"，沒(méi)有真實(shí)世界常識(shí)或判斷機(jī)制，這種結(jié)構(gòu)性問(wèn)題注定無(wú)法完全消除。

同時(shí)，規(guī)則建設(shè)的嘗試也在進(jìn)行中。

摩根路易律所宣布一旦發(fā)現(xiàn)律師使用AI編造的假信息就立即解雇，《詩(shī)刊》發(fā)布聲明將AI投稿者列入黑名單，科大訊飛的劉慶峰提出建立安全可信、動(dòng)態(tài)更新的數(shù)據(jù)庫(kù)。

這些措施都試圖，通過(guò)外部約束來(lái)限制AI幻覺(jué)的危害，但問(wèn)題在于，規(guī)則總是滯后于技術(shù)發(fā)展，而且很難覆蓋所有應(yīng)用場(chǎng)景。

當(dāng)AI生成內(nèi)容的成本低到每篇4元、產(chǎn)量高到每天5萬(wàn)字時(shí)，任何依賴人工審核的機(jī)制都會(huì)不堪重負(fù)。

對(duì)于普通用戶來(lái)說(shuō)，“改進(jìn)使用方式”是目前最現(xiàn)實(shí)的自保手段。

可以使用多個(gè)AI互相驗(yàn)證，可以發(fā)現(xiàn)明顯錯(cuò)誤，用精細(xì)化提示詞能約束模型胡編亂造，比如明確指定"作為臨床醫(yī)學(xué)專家，基于2026年之前的公開(kāi)學(xué)術(shù)文獻(xiàn)"這樣的限定條件。

但這一切的前提是，用戶必須對(duì)AI保持警惕。

AI能生成標(biāo)準(zhǔn)化文本但不能替代個(gè)性化表達(dá)，能幫助填補(bǔ)知識(shí)空白但不能保證信息絕對(duì)正確，能加速信息整理但不能快速編程大腦.

能提供決策建議但不能承擔(dān)決策責(zé)任，能把理論用于不同場(chǎng)景，但不能取代獨(dú)立意志和真實(shí)體驗(yàn)。

這些邊界看似清晰，實(shí)際應(yīng)用中卻容易被模糊，當(dāng)AI以專業(yè)而自信的口吻輸出錯(cuò)誤信息時(shí)，人們往往會(huì)本能地相信，因?yàn)樗?看起來(lái)太像真的了"。

AI幻覺(jué)的真正危險(xiǎn)不在于技術(shù)本身，而在于它正在改變?nèi)藗儗?duì)信息的信任機(jī)制。

當(dāng)真人可能被誤認(rèn)為AI、AI生成的內(nèi)容可能被當(dāng)作真實(shí)信息時(shí)，信任崩塌的連鎖反應(yīng)才剛剛開(kāi)始。

這不是技術(shù)進(jìn)步的代價(jià)，而是我們必須正視的新現(xiàn)實(shí):在AI時(shí)代，懷疑和驗(yàn)證將成為信息消費(fèi)的必備技能，而盲目相信任何單一信息源都可能付出沉重代價(jià)。

AI是強(qiáng)大的工具，但它最大的問(wèn)題就是“它不是你”，它永遠(yuǎn)無(wú)法替代人類的判斷和責(zé)任。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.