<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      普通人如何逃離DeepSeek幻覺陷阱

      0
      分享至



      DeepSeek橫空出世,我們和人工智能的關系也隨之進入新時代。但對于許多人來說,與AI的蜜月期還沒有結束,幻覺問題就不合時宜地來預警。

      近期一條“80后死亡率突破5.2%”的假新聞廣為流傳,據上海網絡辟謠介紹,最初的信源很可能是來自AI對話。

      這種甚至一眼假的數據是怎么來的呢?我最近也在嘗試用AI對話代替搜索,發現確實會給工作埋下一些“地雷”。

      例如前幾天我們寫了京東外賣的稿件,嘗試用DeepSeek來搜集資料,“山姆每年為京東即時零售帶來多少訂單”的問題,DeepSeek語氣肯定地給出一個數據,并稱京東今年將和山姆展開新合作。

      我沒有查到這個數據的來源,而且我更震驚的是關于合作的預測,“山姆和京東不是去年分手了嗎”。

      這就是DeepSeek的“幻覺”。幻覺,是大模型的“基因”問題,因為它本質上是根據每個詞出現的概率來選擇回答,所以很容易編出一篇看起來很流暢但完全不符合事實的回答。

      所有的大模型或多或少,都有這個問題。

      但是,DeepSeek-R1的幻覺在領先的模型中尤為嚴重,在Vectara HHEM人工智能幻覺測試中達到了14.3%,是DeepSeek-V3的近4倍,也遠超行業平均水平。



      DeepSeek-R1的幻覺率高于同行(圖源自Semafor)

      同時,DeepSeek R1是目前中國應用范圍最廣泛的大模型之一。正因為它足夠智能,很容易被充分信任,在“掉鏈子”的時候也不會被察覺,反而有可能成為引發更大范圍的“輿論幻覺”。

      01、DeepSeek怎么背刺我

      球球今年讀大四,最近都在一家實驗室實習。用Kimi、豆包等AI助手來撰寫資料、找文獻,他已經駕輕就熟,在DeepSeek上線以后,更是感到如虎添翼。

      最近剛開學,他就開始忙著寫論文。不過,他這學期已經不敢直接使用AI生成的內容了。

      網上最近流傳的一個貼子,DeepSeek生成的一個綜述中,參考文獻全是自己編的,“秉持著嚴謹的態度,我去搜了這些參考文獻,竟然!!竟然沒有一篇是真的!! ”

      一位大模型業內人士表示,這是一個很有意思的案例,“見過胡編事實的,沒看到編造論文引用的。”

      類似胡編的情況還有很多,比如有網友問DeepSeek上海有幾家麻六記,地址都在哪里?結果DeepSeek給了他四個地址,且四個地址都是錯誤的。



      最搞笑的,是一位玩具博主,讓DeepSeek幫她查國內兒童玩具理論的文獻綜述,其中引用了一本名為《玩具與兒童發展》的書。

      “我咋沒見過呢?就讓它詳細介紹一下”,結果,她就在思維鏈里發現DeepSeek說,這本書是虛構的,而且“要避免指出這本書是虛構的,以免讓用戶感到困惑”

      音樂自媒體“亂彈山”進一步發現,DeepSeek特別擅長使用陌生信息和專業領域的詞匯來胡編亂造。

      他發現一個小紅書筆記,名叫《我聽了這么多年五月天,還不如DeepSeek》,讓DeepSeek來提供五月天歌曲里面的彩蛋?!捌鋵嵗锩嫒浅兜薄?/p>

      比如里面提到《倉頡》前奏中“需要你 需要你 需要你”,倒放會變成“宇宙爆炸的瞬間 我看見了你的臉”。大部分人試一試就會知道,這三個音節怎么來回折騰,都成不了這句話。但依然不妨礙下面有很多人都說,被感動到了!



      另外,他還讓DeepSeek深度解析韓國音樂人Woodz的風格。DeepSeek解析出的“雙聲道交替”“呼吸聲放大”“元音拉伸”等巧思,都是對應歌曲中沒有的,很像我們剛學會了一些專業名詞就張冠李戴胡亂賣弄的樣子。

      但值得指出的是,當這些專業詞匯足夠多,這些專業足夠陌生的時候,普通人根本無法分辨這些敘述的真實性。

      就像前面提到的央視新聞報道的“80后的死亡率已經達到5.2%”的謠言,中國人民大學人口與健康學院教授李婷梳理發現,很可能就是AI大模型導致的錯誤,但普通人對這些數據并沒有概念,就很容易相信。

      這幾天,已經有好幾篇被認為由AI撰寫的謠言騙倒了不少人:梁文峰在知乎上對于DeepSeepk的首次回應,《哪吒2》員工996是因為公司在成都分房,電梯墜落再沖頂的事故原因……新聞真實和虛構段落被很好地捏合到一起,常人很難分辨。

      而且,就算DeepSeek沒掉鏈子,很多時候普通人連使用它的方式都不正確。AI訓練的獎懲方式,簡單來說,就是它猜你最想要的是什么回答,而不是最正確的是什么回答。

      丁香園前兩天寫過,已經有很多人拿著DeepSeek的診斷,來向醫生咨詢。一位發熱兒童的家長,堅信醫生開的檢查沒有必要,是過度治療;醫生不開抗甲流的抗病毒藥物,就是拖延治療。醫生很疑惑,“你們怎么能確定是甲流呢?發熱的原因有很多?!奔议L說,他們問了DeepSeek。

      醫生打開手機發現,家長的提問是,“得了甲流要做什么治療?”這個問題首先就預設了孩子已經得了甲流,大模型自然也只會作出相應的回答,并不會綜合實際條件來進行決策?;糜X能借此危害現實。

      02、幻覺,是bless也是curse

      幻覺本身其實并不是“劇毒”,只能算是大模型的“基因”。在研究人工智能的早期,幻覺被認為是好事,代表AI有了產生智能的可能性。這也是AI業界研究非常久遠的話題。

      但在AI有了判斷和生成的能力后,幻覺被用來形容偏差和錯誤。而在LLM領域,幻覺更是每個模型與生俱來的缺陷。

      用最簡單的邏輯來描述,LLM訓練過程中,是將海量數據高度壓縮抽象,輸入的是內容之間關系的數學表征,而不是內容本身。就像柏拉圖的洞穴寓言,囚徒看到的全是外部世界的投影,而不是真實世界本身。

      LLM在輸出時,是無法將壓縮后的規律和知識完全復原的,因此會去填補空白,于是產生幻覺。

      不同研究還依據來源或領域不同,將幻覺分為“認知不確定性和偶然不確定性”,或“數據源、訓練過程和推理階段導致的幻覺”。

      但OpenAI等團隊的研究者們發現,推理增強會明顯減少幻覺。

      此前普通用戶使用 ChatGPT(GPT3)時就發現,在模型本身不變的情況下,只需要在提示詞中加上“讓我們一步步思考(let’s think step by step)”,就能生成chain-of-thought(CoT),提高推理的準確性,減少幻覺。OpenAI用o系列的模型進一步證明了這一點。

      但是DeepSeek-R1的表現,跟這一發現恰好相反。

      R1在數學相關的推理上極強,而在涉及到創意創造的領域非常容易胡編亂造。非常極端。

      一個案例能很好地說明DeepSeek的能力。相信有不少人看到過,一個博主用“strawberry里有幾個r”這個經典問題去測試R1。

      絕大多數大模型會回答“2個”。這是模型之間互相“學習”傳遞的謬誤,也說明了LLM的“黑盒子”境地,它看不到外部世界,甚至看不到單詞中的最簡單的字母。

      而DeepSeek在經歷了來回非常多輪長達100多秒的深度思考后,終于選擇堅信自己推理出來的數字“3個”,戰勝了它習得的思想鋼印“2個”。

      圖片來自 @斯庫里



      而這種強大的推理能力(CoT深度思考能力),是雙刃劍。在與數學、科學真理無關的任務中,它有時會生成出一套自圓其說的“真理”,且捏造出配合自己理論的論據。

      據騰訊科技,出門問問大模型團隊前工程副總裁李維認為,R1比V3幻覺高4倍,有模型層的原因:

      V3: query --〉answer

      R1: query+CoT --〉answer

      “對于V3已經能很好完成的任務,比如摘要或翻譯,任何思維鏈的長篇引導都可能帶來偏離或發揮的傾向,這就為幻覺提供了溫床?!?/p>

      一個合理的推測是,R1在強化學習階段去掉了人工干預,減少了大模型為了討好人類偏好而鉆空子,但單純的準確性信號反饋,或許讓R1在文科類的任務中把“創造性”當成了更高優先級。而后續的Alignment并未對此進行有效彌補。

      OpenAI的前科學家翁荔在2024年曾撰寫過一篇重要blog(Extrinsic Hallucinations in LLMs),她在OpenAI任職后期專注于大模型安全問題。

      她提出,如果將預訓練數據集看作是世界知識的象征,那么本質上是試圖確保模型輸出是事實性的,并可以通過外部世界知識進行驗證?!爱斈P筒涣私饽硞€事實時,它應該明確表示不知道?!?/p>

      如今一些大模型如今在觸碰到知識邊界時,會給出“不知道”或者“不確定”的回答。

      R2或許會在減少幻覺方面有顯著成效。而眼下R1有龐大的應用范圍,其模型的幻覺程度,需要被大家意識到,從而減少不必要的傷害和損失。

      03、來,讓我們打敗幻覺

      那么,在現實使用的過程中,我們普通人對大模型的幻覺就束手無策了嗎?

      互聯網資深產品經理Sam,最近一直在用大模型做應用,他對ChatGPT和DeepSeek都有豐富的使用體驗。

      對于Sam這樣的開發者來說,最靠譜的反幻覺手段有兩種。

      第一個就是在調用API時,根據需求設置一些參數,如temperature和top_p等,以控制幻覺問題。有些大模型,還支持設置信息標,如對于模糊信息,需標注“此處為推測內容”等。

      第二種方法更專業。大模型的答案是否靠譜,很大程序依賴語料質量,同樣一個大模型語料質量也可能不一樣,比如說,現在同樣是滿血版的DeepSeek,百度版和騰訊版的語料,就來自于各自的內容生態。此時就需要開發者選擇自己信任的生態。

      對于專業的企業用戶,就可以從數據側下手規避幻覺。在這方面,現在RAG技術已經在應用開發中普遍采用。

      RAG,也就是檢索增強生成,是先從一個數據集中檢索信息,然后指導內容生成。當然,這個集合是要根據企業自己的需求,搭建的事實性、權威性數據庫。

      Sam認為,這種方法雖好,但不適合一般的個人用戶,因為涉及到大樣本的數據標注,成本很高。

      ChatGPT為個人用戶也設置了一個調整方案來減少幻覺。在ChatGPT開發者中心的playground中,有一個調節參數功能,專門用來給普通用戶使用。但目前DeepSeek沒有提供這個功能。

      ChatGPT在playground提供了參數調整功能



      實際上,就算有這個功能,一般用戶可能也會嫌麻煩。Sam說,他發現ChatGPT的這個功能,一般的個人用戶就很少會使用。

      那么個人用戶怎么辦呢?目前來看,對于大家反應較多的DeepSeek幻覺問題,最靠譜的方法也有兩個,第一個是多方查詢,交叉驗證。

      例如,我的一位養貓的朋友說,使用DeepSeek之前,她一般是在小紅書上學習養貓知識,DeepSeek雖然方便,但是她現在仍然會用小紅書,用兩個結果去交叉驗證,經常會發現DeepSeek的結果被此前一些廣泛流行的錯誤觀念污染。

      如果是想用DeepSeek做一些專業數據搜集,這個方法可能就沒那么好用。此外,還有一個更簡單的方法。

      具體來說,就是你在對話中,如果發現DeepSeek有自己腦補的內容,就可以直接告訴它,“說你知道的就好,不用胡說”,DeepSeek馬上就會修正自己的生成內容。

      chatgpt給出的建議



      Sam說,對一般用戶來說,這個方法效果不錯。

      實際上,正如我們前文所說,DeepSeek幻覺更嚴重,一部分原因是因它更智能。反過來說,我們要打敗幻覺,也要利用它這個特點。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      太惡心了!廣東某小區業主居然拋出安全套,掛在鄰居家的飄窗上…

      太惡心了!廣東某小區業主居然拋出安全套,掛在鄰居家的飄窗上…

      火山詩話
      2025-12-14 06:15:06
      何晴離世消息曝光不到24小時,惡心的一幕出現了!

      何晴離世消息曝光不到24小時,惡心的一幕出現了!

      叨嘮
      2025-12-15 01:57:05
      無人機襲擊薩拉托夫煉油廠,俄羅斯防空導彈擊中樓房致多人死亡

      無人機襲擊薩拉托夫煉油廠,俄羅斯防空導彈擊中樓房致多人死亡

      火星宏觀
      2025-12-14 11:47:37
      不止遼寧艦,中方七大艦隊出動,中美俄達成一致,轟炸機逼近日本

      不止遼寧艦,中方七大艦隊出動,中美俄達成一致,轟炸機逼近日本

      兵說
      2025-12-14 11:56:00
      工信部:買電動車不妨再等等,即將優化設計方案,解決不實用問題

      工信部:買電動車不妨再等等,即將優化設計方案,解決不實用問題

      電動車的那些事兒
      2025-12-13 08:38:17
      華潤啤酒東北大撤退余波:閑置工廠降價百萬無人接盤,員工安置費用花掉數億元

      華潤啤酒東北大撤退余波:閑置工廠降價百萬無人接盤,員工安置費用花掉數億元

      時代財經
      2025-12-15 08:12:09
      何晴追悼會現場,場外人山人海粉絲送花圈,靈堂兩側擺數米花圈

      何晴追悼會現場,場外人山人海粉絲送花圈,靈堂兩側擺數米花圈

      知法而形
      2025-12-15 11:08:16
      它是止咳第一名,放到鍋中蒸一蒸,輕松排出黃痰,做法真的很簡單

      它是止咳第一名,放到鍋中蒸一蒸,輕松排出黃痰,做法真的很簡單

      江江食研社
      2025-12-11 10:30:10
      這次輪到銀行發愁了!越來越多人,都在把定期存款轉成活期支用!

      這次輪到銀行發愁了!越來越多人,都在把定期存款轉成活期支用!

      小陸搞笑日常
      2025-12-15 09:27:29
      經濟崩了,盟友全跑了,和中國決裂的歐洲小國,現在想找中國填坑

      經濟崩了,盟友全跑了,和中國決裂的歐洲小國,現在想找中國填坑

      阿離家居
      2025-12-15 12:11:39
      何晴被曝因腦瘤去世,醫生解讀病癥,勸告大家要遠離輻射

      何晴被曝因腦瘤去世,醫生解讀病癥,勸告大家要遠離輻射

      陳意小可愛
      2025-12-14 16:05:47
      謝霆鋒大兒子現身深圳餐廳!被路人拍多張高清照,網友:像藏族人

      謝霆鋒大兒子現身深圳餐廳!被路人拍多張高清照,網友:像藏族人

      知法而形
      2025-12-13 09:15:46
      黑色幽默!電詐園區辦公室中文標語,簡直是天大的諷刺

      黑色幽默!電詐園區辦公室中文標語,簡直是天大的諷刺

      麥大人
      2025-11-06 08:32:30
      外媒:波蘭總統到訪拉脫維亞,“接機車輛臟兮兮”引波蘭人憤怒

      外媒:波蘭總統到訪拉脫維亞,“接機車輛臟兮兮”引波蘭人憤怒

      環球網資訊
      2025-12-14 12:54:06
      廣東隊出征浙江,徐杰帶傷隨隊,胡明軒壓力大,薩姆納受追捧

      廣東隊出征浙江,徐杰帶傷隨隊,胡明軒壓力大,薩姆納受追捧

      隱于山海
      2025-12-15 12:02:27
      “新冠疫苗之父”落馬,榮譽清零!打過三針的網友慌了

      “新冠疫苗之父”落馬,榮譽清零!打過三針的網友慌了

      胡嚴亂語
      2025-12-07 15:51:07
      馬筱梅自曝預產期,再干2個月后開始休息了,并表示在臺灣省生產

      馬筱梅自曝預產期,再干2個月后開始休息了,并表示在臺灣省生產

      小徐講八卦
      2025-12-15 12:31:07
      奧運冠軍的終點是直播帶貨?張家齊退役后直播帶貨出現惡心一幕!

      奧運冠軍的終點是直播帶貨?張家齊退役后直播帶貨出現惡心一幕!

      籃球看比賽
      2025-12-15 11:44:07
      國安部:載人返回艙、火箭逃逸塔是境外勢力重點覬覦的目標

      國安部:載人返回艙、火箭逃逸塔是境外勢力重點覬覦的目標

      觀察者網
      2025-12-15 09:06:07
      別再誤解副高五級!教師退休金9千和1萬8的差距,原來差在這4點

      別再誤解副高五級!教師退休金9千和1萬8的差距,原來差在這4點

      前沿天地
      2025-12-15 09:04:07
      2025-12-15 13:59:00
      20社 incentive-icons
      20社
      關注年輕人的錢包、工作和生活。
      151文章數 65關注度
      往期回顧 全部

      科技要聞

      平價數碼產品,要和我們說再見了?

      頭條要聞

      悉尼槍手父親被擊斃兒子被制服 憤怒民眾猛踩頭部

      頭條要聞

      悉尼槍手父親被擊斃兒子被制服 憤怒民眾猛踩頭部

      體育要聞

      戰勝完全體雷霆,馬刺“瘋狂動物城”只是半成品

      娛樂要聞

      黃綺珊在何晴去世首發,10年悄悄祈福

      財經要聞

      新會陳皮亂象曝光:產地造假、年份速成

      汽車要聞

      二排有大屏還有高階輔助駕駛 風云T9L明年一季度上市

      態度原創

      家居
      數碼
      教育
      公開課
      軍事航空

      家居要聞

      溫暖色調 大空間不冷清

      數碼要聞

      微星 MEG X870E GODLIKE X EDITION超神主板首發評測

      教育要聞

      那個高考成績604分放棄本科讀高職的學生,現在怎么樣了?

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      澤連斯基稱烏方已妥協不加入北約 俄方發聲

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 99插插| 国产.a片| 驻马店市| 精品免费国产一区二区三区四区 | 色亚洲无码| 韩国三级大全久久网站| 亚洲熟妇自偷自拍另欧美| 人妻熟女av一区二区三区| 18禁美女裸身无遮挡免费网站| 日本亚洲一区二区精品久久 | 国产精品伦子伦免费视频| 天天躁日日躁狠狠躁欧美老妇小说| 成年男女免费视频网站 | 亚洲国产精品VA在线看黑人| 日韩成人综合| 中文天堂最新版在线www | 欧美激情在线播放| 少妇被粗大的猛烈进出69影院一| 91N在线观看| 久久精品人人做人人综合试看| 国产麻豆成人传媒免费观看| 亚洲av产在线精品亚洲第一站| 无码国模在线观看| 人人凹凸XX凹凸爽凹凸| 又污又爽又黄的网站| 中文字幕日本一区二区在线观看| 日韩精品91| 中文字幕天天躁日日躁狠狠躁免费| 免费看一区二区三区四区| 国内精品久久人妻无码妲| 超碰日韩| 亚洲国产欧美在线观看| 老司机精品视频一区二区| 丁香五月激情图片| 正镶白旗| 少妇被粗大的猛烈进出视频| 少妇极品熟妇人妻| 亚洲人妻一区二区精品| 内射91| 男男车车的车车网站w98免费| 爱啪啪av导航|