網易首頁 > 網易號 > 正文申請入駐

普通人如何逃離DeepSeek幻覺陷阱

2025-02-28 11:24:47　來源: 20社

北京舉報

分享至

DeepSeek橫空出世，我們和人工智能的關系也隨之進入新時代。但對于許多人來說，與AI的蜜月期還沒有結束，幻覺問題就不合時宜地來預警。

近期一條“80后死亡率突破5.2%”的假新聞廣為流傳，據上海網絡辟謠介紹，最初的信源很可能是來自AI對話。

這種甚至一眼假的數據是怎么來的呢？我最近也在嘗試用AI對話代替搜索，發現確實會給工作埋下一些“地雷”。

例如前幾天我們寫了京東外賣的稿件，嘗試用DeepSeek來搜集資料，“山姆每年為京東即時零售帶來多少訂單”的問題，DeepSeek語氣肯定地給出一個數據，并稱京東今年將和山姆展開新合作。

我沒有查到這個數據的來源，而且我更震驚的是關于合作的預測，“山姆和京東不是去年分手了嗎”。

這就是DeepSeek的“幻覺”。幻覺，是大模型的“基因”問題，因為它本質上是根據每個詞出現的概率來選擇回答，所以很容易編出一篇看起來很流暢但完全不符合事實的回答。

所有的大模型或多或少，都有這個問題。

但是，DeepSeek-R1的幻覺在領先的模型中尤為嚴重，在Vectara HHEM人工智能幻覺測試中達到了14.3%，是DeepSeek-V3的近4倍，也遠超行業平均水平。

DeepSeek-R1的幻覺率高于同行（圖源自Semafor）

同時，DeepSeek R1是目前中國應用范圍最廣泛的大模型之一。正因為它足夠智能，很容易被充分信任，在“掉鏈子”的時候也不會被察覺，反而有可能成為引發更大范圍的“輿論幻覺”。

01、DeepSeek怎么背刺我

球球今年讀大四，最近都在一家實驗室實習。用Kimi、豆包等AI助手來撰寫資料、找文獻，他已經駕輕就熟，在DeepSeek上線以后，更是感到如虎添翼。

最近剛開學，他就開始忙著寫論文。不過，他這學期已經不敢直接使用AI生成的內容了。

網上最近流傳的一個貼子，DeepSeek生成的一個綜述中，參考文獻全是自己編的，“秉持著嚴謹的態度，我去搜了這些參考文獻，竟然!!竟然沒有一篇是真的!! ”

一位大模型業內人士表示，這是一個很有意思的案例，“見過胡編事實的，沒看到編造論文引用的。”

類似胡編的情況還有很多，比如有網友問DeepSeek上海有幾家麻六記，地址都在哪里？結果DeepSeek給了他四個地址，且四個地址都是錯誤的。

最搞笑的，是一位玩具博主，讓DeepSeek幫她查國內兒童玩具理論的文獻綜述，其中引用了一本名為《玩具與兒童發展》的書。

“我咋沒見過呢？就讓它詳細介紹一下”，結果，她就在思維鏈里發現DeepSeek說，這本書是虛構的，而且“要避免指出這本書是虛構的，以免讓用戶感到困惑”。

音樂自媒體“亂彈山”進一步發現，DeepSeek特別擅長使用陌生信息和專業領域的詞匯來胡編亂造。

他發現一個小紅書筆記，名叫《我聽了這么多年五月天，還不如DeepSeek》，讓DeepSeek來提供五月天歌曲里面的彩蛋?！捌鋵嵗锩嫒浅兜薄?/p>

比如里面提到《倉頡》前奏中“需要你需要你需要你”，倒放會變成“宇宙爆炸的瞬間我看見了你的臉”。大部分人試一試就會知道，這三個音節怎么來回折騰，都成不了這句話。但依然不妨礙下面有很多人都說，被感動到了！

另外，他還讓DeepSeek深度解析韓國音樂人Woodz的風格。DeepSeek解析出的“雙聲道交替”“呼吸聲放大”“元音拉伸”等巧思，都是對應歌曲中沒有的，很像我們剛學會了一些專業名詞就張冠李戴胡亂賣弄的樣子。

但值得指出的是，當這些專業詞匯足夠多，這些專業足夠陌生的時候，普通人根本無法分辨這些敘述的真實性。

就像前面提到的央視新聞報道的“80后的死亡率已經達到5.2%”的謠言，中國人民大學人口與健康學院教授李婷梳理發現，很可能就是AI大模型導致的錯誤，但普通人對這些數據并沒有概念，就很容易相信。

這幾天，已經有好幾篇被認為由AI撰寫的謠言騙倒了不少人：梁文峰在知乎上對于DeepSeepk的首次回應，《哪吒2》員工996是因為公司在成都分房，電梯墜落再沖頂的事故原因……新聞真實和虛構段落被很好地捏合到一起，常人很難分辨。

而且，就算DeepSeek沒掉鏈子，很多時候普通人連使用它的方式都不正確。AI訓練的獎懲方式，簡單來說，就是它猜你最想要的是什么回答，而不是最正確的是什么回答。

丁香園前兩天寫過，已經有很多人拿著DeepSeek的診斷，來向醫生咨詢。一位發熱兒童的家長，堅信醫生開的檢查沒有必要，是過度治療；醫生不開抗甲流的抗病毒藥物，就是拖延治療。醫生很疑惑，“你們怎么能確定是甲流呢？發熱的原因有很多?！奔议L說，他們問了DeepSeek。

醫生打開手機發現，家長的提問是，“得了甲流要做什么治療？”這個問題首先就預設了孩子已經得了甲流，大模型自然也只會作出相應的回答，并不會綜合實際條件來進行決策?；糜X能借此危害現實。

02、幻覺，是bless也是curse

幻覺本身其實并不是“劇毒”，只能算是大模型的“基因”。在研究人工智能的早期，幻覺被認為是好事，代表AI有了產生智能的可能性。這也是AI業界研究非常久遠的話題。

但在AI有了判斷和生成的能力后，幻覺被用來形容偏差和錯誤。而在LLM領域，幻覺更是每個模型與生俱來的缺陷。

用最簡單的邏輯來描述，LLM訓練過程中，是將海量數據高度壓縮抽象，輸入的是內容之間關系的數學表征，而不是內容本身。就像柏拉圖的洞穴寓言，囚徒看到的全是外部世界的投影，而不是真實世界本身。

LLM在輸出時，是無法將壓縮后的規律和知識完全復原的，因此會去填補空白，于是產生幻覺。

不同研究還依據來源或領域不同，將幻覺分為“認知不確定性和偶然不確定性”，或“數據源、訓練過程和推理階段導致的幻覺”。

但OpenAI等團隊的研究者們發現，推理增強會明顯減少幻覺。

此前普通用戶使用 ChatGPT（GPT3）時就發現，在模型本身不變的情況下，只需要在提示詞中加上“讓我們一步步思考（let’s think step by step）”，就能生成chain-of-thought（CoT），提高推理的準確性，減少幻覺。OpenAI用o系列的模型進一步證明了這一點。

但是DeepSeek-R1的表現，跟這一發現恰好相反。

R1在數學相關的推理上極強，而在涉及到創意創造的領域非常容易胡編亂造。非常極端。

一個案例能很好地說明DeepSeek的能力。相信有不少人看到過，一個博主用“strawberry里有幾個r”這個經典問題去測試R1。

絕大多數大模型會回答“2個”。這是模型之間互相“學習”傳遞的謬誤，也說明了LLM的“黑盒子”境地，它看不到外部世界，甚至看不到單詞中的最簡單的字母。

而DeepSeek在經歷了來回非常多輪長達100多秒的深度思考后，終于選擇堅信自己推理出來的數字“3個”，戰勝了它習得的思想鋼印“2個”。

圖片來自 @斯庫里

而這種強大的推理能力（CoT深度思考能力），是雙刃劍。在與數學、科學真理無關的任務中，它有時會生成出一套自圓其說的“真理”，且捏造出配合自己理論的論據。

據騰訊科技，出門問問大模型團隊前工程副總裁李維認為，R1比V3幻覺高4倍，有模型層的原因：

V3: query --〉answer

R1: query+CoT --〉answer

“對于V3已經能很好完成的任務，比如摘要或翻譯，任何思維鏈的長篇引導都可能帶來偏離或發揮的傾向，這就為幻覺提供了溫床?！?/p>

一個合理的推測是，R1在強化學習階段去掉了人工干預，減少了大模型為了討好人類偏好而鉆空子，但單純的準確性信號反饋，或許讓R1在文科類的任務中把“創造性”當成了更高優先級。而后續的Alignment并未對此進行有效彌補。

OpenAI的前科學家翁荔在2024年曾撰寫過一篇重要blog（Extrinsic Hallucinations in LLMs），她在OpenAI任職后期專注于大模型安全問題。

她提出，如果將預訓練數據集看作是世界知識的象征，那么本質上是試圖確保模型輸出是事實性的，并可以通過外部世界知識進行驗證?！爱斈Ｐ筒涣私饽硞€事實時，它應該明確表示不知道?！?/p>

如今一些大模型如今在觸碰到知識邊界時，會給出“不知道”或者“不確定”的回答。

R2或許會在減少幻覺方面有顯著成效。而眼下R1有龐大的應用范圍，其模型的幻覺程度，需要被大家意識到，從而減少不必要的傷害和損失。

03、來，讓我們打敗幻覺

那么，在現實使用的過程中，我們普通人對大模型的幻覺就束手無策了嗎？

互聯網資深產品經理Sam，最近一直在用大模型做應用，他對ChatGPT和DeepSeek都有豐富的使用體驗。

對于Sam這樣的開發者來說，最靠譜的反幻覺手段有兩種。

第一個就是在調用API時，根據需求設置一些參數，如temperature和top_p等，以控制幻覺問題。有些大模型，還支持設置信息標，如對于模糊信息，需標注“此處為推測內容”等。

第二種方法更專業。大模型的答案是否靠譜，很大程序依賴語料質量，同樣一個大模型語料質量也可能不一樣，比如說，現在同樣是滿血版的DeepSeek，百度版和騰訊版的語料，就來自于各自的內容生態。此時就需要開發者選擇自己信任的生態。

對于專業的企業用戶，就可以從數據側下手規避幻覺。在這方面，現在RAG技術已經在應用開發中普遍采用。

RAG，也就是檢索增強生成，是先從一個數據集中檢索信息，然后指導內容生成。當然，這個集合是要根據企業自己的需求，搭建的事實性、權威性數據庫。

Sam認為，這種方法雖好，但不適合一般的個人用戶，因為涉及到大樣本的數據標注，成本很高。

ChatGPT為個人用戶也設置了一個調整方案來減少幻覺。在ChatGPT開發者中心的playground中，有一個調節參數功能，專門用來給普通用戶使用。但目前DeepSeek沒有提供這個功能。

ChatGPT在playground提供了參數調整功能

實際上，就算有這個功能，一般用戶可能也會嫌麻煩。Sam說，他發現ChatGPT的這個功能，一般的個人用戶就很少會使用。

那么個人用戶怎么辦呢？目前來看，對于大家反應較多的DeepSeek幻覺問題，最靠譜的方法也有兩個，第一個是多方查詢，交叉驗證。

例如，我的一位養貓的朋友說，使用DeepSeek之前，她一般是在小紅書上學習養貓知識，DeepSeek雖然方便，但是她現在仍然會用小紅書，用兩個結果去交叉驗證，經常會發現DeepSeek的結果被此前一些廣泛流行的錯誤觀念污染。

如果是想用DeepSeek做一些專業數據搜集，這個方法可能就沒那么好用。此外，還有一個更簡單的方法。

具體來說，就是你在對話中，如果發現DeepSeek有自己腦補的內容，就可以直接告訴它，“說你知道的就好，不用胡說”，DeepSeek馬上就會修正自己的生成內容。

chatgpt給出的建議

Sam說，對一般用戶來說，這個方法效果不錯。

實際上，正如我們前文所說，DeepSeek幻覺更嚴重，一部分原因是因它更智能。反過來說，我們要打敗幻覺，也要利用它這個特點。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

RL是「點金石」還是「挖掘機」？CMU 用可控實驗給出答案

機器之心Pro 2025-12-15 10:14:24
0 跟貼 0
DeepSeek最會討好，LLM太懂人情世故了，超人類50%

機器之心Pro 2025-10-27 15:23:21
22 跟貼 22

OpenAI又開源了！僅0.4B，給模型大瘦身

智東西 2025-12-15 12:24:33
0 跟貼 0

1100多個模型殊途同歸，指向一個通用子空間，柏拉圖又贏一回？

機器之心Pro 2025-12-15 10:26:02
2 跟貼 2
OpenAI突然開源新模型！99.9%的權重是0，新稀疏性方法代替MoE

量子位 2025-12-14 14:24:33
7 跟貼 7

物流業deepseek時刻，中國無人車火爆全球

華商韜略 2025-06-17 10:58:23
0 跟貼 0

Anthropic重磅新研究：當AI采訪了1250人，它看見了人類的「職業軟肋」

新智元 2025-12-15 13:10:29
0 跟貼 0
【GET2025】新東方優編程朱宇：越AI，越要人本位

芥末堆看教育 2025-12-15 13:01:54
0 跟貼 0

高分奪金，遠超國家集訓隊入選線！“書生”大模型在奧賽：解法學生中沒見過！

上觀新聞 2025-12-13 10:47:07
30 跟貼 30
上?！皶贝竽Ｐ蛫W數高分奪金，解法“前所未見”讓閱卷專家驚嘆

文匯報 2025-12-13 06:07:05
1 跟貼 1
女人被變態歹徒綁架，還好臥底警察及時趕到，懸疑犯罪片

憨哥哥電影 2025-12-13 12:07:26
1 跟貼 1
對話柏拉圖：為什么管理者必須是哲學家？

湛廬閱讀 2025-12-14 22:27:42
0 跟貼 0
口徑即正義，射程即真理

二叔胡侃 2025-12-12 13:21:20
11 跟貼 11
金屬部件爆改坦克模型，效果實在太硬核，好一個廢物利用！

趣萌搞笑 2025-12-12 13:33:04
2 跟貼 2
斯坦福最新NHB：兒童因果動詞語義映射的計算模型研究

PsyBrain腦心前沿 2025-12-13 12:12:31
0 跟貼 0
這就是普通人夢寐以求的生活

S生活美S 2025-12-13 11:30:06
0 跟貼 0
男人出海釣魚，卻意外抓獲奇怪人魚，懸疑科幻片

憨哥哥電影 2025-12-13 12:17:24
1 跟貼 1
很準的幾個夫妻規律，妻子先走，丈夫能活到八十歲左右

老三說笑 2025-12-14 13:50:05
1 跟貼 1
普通人只要關注普通人層面的事就行了，聽北哥怎么說的吧

小新新鮮事 2025-12-15 04:44:30
0 跟貼 0
泰國陸軍：目前不存在停火安排

新華社 2025-12-14 15:57:02
22128 跟貼 22128
朱孝天首談五月天演唱會合體服裝不搭原因，不是不合群，就是懶

江湖第一菜雞 2025-12-13 08:30:56
189 跟貼 189
普通人到底要不要提前還房貸

小G侃商業 2025-12-12 23:49:28
3 跟貼 3
在復興島，“數字智能島”不再是科幻

上海楊浦 2025-12-15 10:11:41
0 跟貼 0
450架無人機夜襲，大鵝大烏遭殃，普通人受凍苦不堪言

倔強旳牽強 2025-12-14 06:09:15
0 跟貼 0
全民都想走這條路，隨便月入驚人，遠超普通人好多倍

搞笑君來了 2025-12-11 00:00:00
0 跟貼 0
普通人到底該努力還是不該努力？就是真的要面臨返貧日，該怎么辦

阿白的金手指廚房 2025-12-14 15:11:52
0 跟貼 0
陳嘉映：哲學一半是精神一半是世故，中國人從來不缺世故

聽哲學 2025-12-12 22:49:14
13 跟貼 13
1997年美軍狠人硬扛12個G過載真實影像，普通人的話早就自爆了

大國洞察局 2025-12-15 12:37:35
0 跟貼 0
錢再多有什么用？抗癌一年瘦到脫相的49歲劉謙，不還是要認清現實

桑葚愛動畫 2025-12-15 11:17:34
0 跟貼 0
五月天經紀人8字回懟朱孝天，狠狠替F4出了口惡氣，大S沒說謊

娛小余 2025-12-13 19:57:33
5 跟貼 5
英雄強度洗牌！多位英雄新增位移？空放普攻重大缺陷？

榮耀張大仙 2025-12-14 12:05:28
3 跟貼 3
“2025年度字詞”即將出爐：DeepSeek、草臺班子入選

星島記事 2025-12-11 11:47:14
0 跟貼 0
教授朱虹：普通人留在發達地區是最后的上升通道

梨視頻 2025-12-12 19:29:25
0 跟貼 0
人手一把小真理，餓了就吃花生米！

浮光驚掠影 2025-12-11 22:52:11
18 跟貼 18
“幫忙關下燈”！

喬喬的怪知識 2025-12-12 13:01:13
0 跟貼 0
2025年，普通人買房還能“上車”嗎

王SIR講風控 2025-12-15 11:19:20
0 跟貼 0
女子遇險后，外賣小哥機智救人，這智商屬實是高??！

沙雕飼養員 2025-12-13 15:28:12
0 跟貼 0
朱孝天狠打老婆臉！親口否認為F4減重15kg 瘦身真實原因曝光

荒野紀實 2025-12-15 12:40:39
0 跟貼 0
“普通人？公司竟藏著不為人知的秘密！”

一縷陽光f 2025-12-13 01:55:23
4 跟貼 4
【DeepSeek談藝】邢俊勤·油畫丨迷彩服的褶皺里裹著軍旅的日常詩

文化視界網 2025-12-12 16:48:03
0 跟貼 0

20社

關注年輕人的錢包、工作和生活。

151文章數 65關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

家居

數碼

教育

公開課

軍事航空

家居要聞

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
明末究竟有多難，無法阻止的歷史進程
李彥宏：百度離破產30天

手機 / 數碼

房產 / 家居

普通人如何逃離DeepSeek幻覺陷阱

01、DeepSeek怎么背刺我

02、幻覺，是bless也是curse

03、來，讓我們打敗幻覺

平價數碼產品，要和我們說再見了？

悉尼槍手父親被擊斃兒子被制服 憤怒民眾猛踩頭部

悉尼槍手父親被擊斃兒子被制服 憤怒民眾猛踩頭部

戰勝完全體雷霆，馬刺“瘋狂動物城”只是半成品

黃綺珊在何晴去世首發，10年悄悄祈福

新會陳皮亂象曝光:產地造假、年份速成

二排有大屏還有高階輔助駕駛 風云T9L明年一季度上市

態度原創

溫暖色調 大空間不冷清

微星 MEG X870E GODLIKE X EDITION超神主板首發評測

那個高考成績604分放棄本科讀高職的學生，現在怎么樣了？

澤連斯基稱烏方已妥協不加入北約 俄方發聲

02、幻覺，是bless也是curse

03、來，讓我們打敗幻覺

平價數碼產品，要和我們說再見了？

悉尼槍手父親被擊斃兒子被制服憤怒民眾猛踩頭部

悉尼槍手父親被擊斃兒子被制服憤怒民眾猛踩頭部

新會陳皮亂象曝光:產地造假、年份速成

二排有大屏還有高階輔助駕駛風云T9L明年一季度上市

溫暖色調大空間不冷清

那個高考成績604分放棄本科讀高職的學生，現在怎么樣了？

澤連斯基稱烏方已妥協不加入北約俄方發聲