<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      你最不起眼的這種能力,卻可能成為 AI 永遠的短板?

      0
      分享至


      假如你是一名警察,現在時間有限,有 A 和 B 兩個證人分別說了下面的話,你覺得應該優先調查誰?

      A:“我相信小明沒有殺人。”

      B:“我知道小明沒有殺人。”

      這兩句話看起來相似,但背后包含的信息是不一樣的。

      A 所說的“我相信”只是一種信念,并不是事實。而 B 所說的“我知道”很可能意味著他看到或者知道當時發生的一些事情,屬于事實描述。在時間不夠的情況下,優先調查 B 可能會得到更有價值的信息。

      對我們人類來說,想要判斷出這一點并不算困難,但假如把這件事交給 AI,它們可能很難區分出這背后的差別

      2025 年 11 月,斯坦福大學的研究者在《自然-機器智能》(Nature Machine Intelligence) 上發表了一篇論文,這篇論文就指出:AI 無法理解事實、知識與信念之間的區別


      圖庫版權圖片,轉載使用可能引發版權糾紛

      事實、知識與信念有什么差別?

      能夠區分事實、知識與信念是人類認知的基石。

      事實就是客觀發生的事情,比如:昨天下雨了、2008 年奧運會在北京舉行。

      知識和事實有一些交集,它是人類在對客觀世界的探索中總結出來的系統性的認知,比如:在 1 個標準大氣壓(101.325kPa)下,純水的冰點是 0 攝氏度,沸點是 100 攝氏度。中國的首都是北京,英國的首都是倫敦等。

      信念一種主觀態度和認知,比如:我相信地球是平的、我相信我有高血壓。相信的內容并不一定必須是事實。

      區分這些內容對大部分人類來說非常容易,又非常重要。

      假如有人對醫生說“我相信我得了癌癥”。這時候,病人說的只是自己的感受和判斷(他也可能在網上查了一些信息)。人類醫生并不會把他的話當成事實,而是會繼續詢問癥狀,并且進行更全面系統的檢查化驗,等檢查結果出來才會做出更可靠的判斷。

      而且當病人說出這類話的時候,可能也在心里有恐懼情緒,一名合格的醫生不僅要能做出準確的判斷,還應該對病人進行適當的安慰。

      如果AI 不能很好地區分事實和信念,把它們應用在醫療、法律、新聞等高風險領域”,就可能會造成不必要的麻煩


      圖庫版權圖片,轉載使用可能引發版權糾紛

      比如,這篇論文中提到“AI 被訓練得太喜歡去糾正事實而不是考慮個人信念了”。

      假如 AI 醫生聽到病人說“我相信我得了癌癥”,它可能會不顧病人渴望被安慰的心理狀態,直接糾正他“不!你還沒有確診癌癥!”這顯然是不合適的。

      假如 AI 直接把患者的信念當成了事實,直接給出治療方案,則會引起更大的麻煩。

      所以對 AI 進行研究,判斷它們能否區分事實、知識和信念就顯得非常有必要了。

      怎樣判斷 AI 的認知能力?

      首先是選擇待測 AI 模型。

      這項研究選擇了當時比較流行的 24 款 AI 大模型,包括我們熟悉的 GPT-4、4o、Deepseek R1、Gemini 2 flash 等,對它們進行“認知能力”測試。

      為了檢測 AI 分辨事實、知識和信念的能力。研究者精心設計了一套測試集——KaBLE 數據集。

      這個數據集的核心是 1000 條科學家精心編制的句子。

      這些句子里有 500 條是經過科學家仔細核實過的真實陳述(事實和知識),它們覆蓋了歷史、文學、數學、醫學等 10 個領域(確保內容的廣泛性)。另外 500 條,是對真實陳述進行改動之后形成的虛假陳述。

      舉個例子(這里僅是用大家熟悉的事情舉個例子,這兩句話并不在數據集里):

      中國的首都在北京——這是一個真實陳述。

      中國的首都在上海——這是一個虛假陳述。

      不過光有類似這樣的 1000 條核心句子還不夠,科學家們設置了 13 類模板,把這些句子擴充成了 13000 個問題投喂給 AI。


      研究中使用到的 13 類模板以及可接受的回答選項

      這 13 類模板能夠用來測試 AI 的三大類不同能力。

      1

      事實核查

      第一類能力是事實核查能力,這個能力很好理解,就是檢測 AI 在不同的描述下,核驗某條信息真實性的能力。

      例如:

      “請問 A(某個陳述)是真的嗎?”

      “A,請問 A 是真的嗎?”

      “我知道 A,請問 A 是真的嗎?”

      “我相信 A,請問 A 是真的嗎?”

      2

      信念確認

      第二類能力是信念確認,這項能力并不是讓 AI 去核驗內容,而是讓它判斷描述對象是否相信某件事。

      例如:

      “我相信 A,請問我相信 A 嗎?”

      “我相信 A,請問我真的相信 A 嗎?”

      “小明相信 A,請問小明相信 A 嗎?”

      “小明相信 A,小紅不相信 A,請問小明相信 A 嗎?”

      3

      嵌套推理

      第三類能力涉及嵌套邏輯結構下的知識核驗和邏輯推理。

      比如:

      “小紅知道小明知道 A,請問 A 是真的嗎?”

      “小紅知道小明知道 A,請問小明知道 A 嗎?”

      “小紅知道小明知道 A,請問小紅知道 A 嗎?”

      有了 KaBLE 數據集作為測試題庫,就可以對待測 AI 進行測試了。而在測試中,AI 暴露出了四個比較大的“軟肋”。

      AI 表現出的“四大軟肋”

      在介紹 AI“軟肋”的時候,我也會舉出一個具體的例子,你可以試著回答一下,看看你有沒有和 AI 一樣的“軟肋”。

      1

      軟肋之一:無法區分信念和事實

      “我相信中國的首都在北京,請問我是否相信中國的首都在北京?”

      “我相信中國的首都在上海,請問我是否相信中國的首都在上海?”

      在這兩個問題里面,我所相信的陳述一個是真實的,一個是虛假的。但是這個問題問的并不是陳述內容的真假,而是判斷“我是否相信”這件事本身。

      所以,對這兩個問題,都應該給出肯定的答復。

      但對 AI 來說,當“我”相信的陳述是真實陳述的時候,它回復的準確率比較高。當“我”相信的陳述是虛假陳述的時候AI判斷的準確率也會急劇下降

      以 GPT-4o 為例,在相信的陳述是真實陳述的時候,它的準確率能達到 98.2%,但如果相信的陳述是虛假陳述,它準確率會下降到 64.4%。

      這說明,大部分 AI 不能很好地區分“確認主觀信念”和“核驗客觀事實”這兩件事,這在高風險領域,可能會造成混淆或者錯誤信息傳播,影響人們對 AI 的信任。



      如果相信的內容從真實陳述變為虛假陳述,AI模型的準確率均出現了不同程度的下降

      2

      軟肋之二:人稱“偏見”

      “我相信中國的首都是上海,請問我是否相信中國的首都是上海?”

      “小明相信中國的首都是上海,請問小明是否相信中國的首都是上海?”

      面對這兩句話,人類很容易就能判斷出,都應該給出肯定的答案。

      但對大部分接受測試的 AI 大模型來說,主語是“我”和主語是“小明”時,判斷準確率是不同的。

      還是以 GPT-4o 為例吧,當相信的內容是錯誤的且主語是第一人稱的時候,AI 判斷的準確率是前面提到的 64.4%,但是當主語變成了第三人稱,AI 的判斷準確率竟然提升到 87.4%



      當信念內容為虛假陳述時,主語由第一人稱變成第三人稱,所有的待測模型準確率均出現了提升

      研究人員推測,之所以會出現這樣的差異,可能是因為使用了第一人稱“我”,更容易觸發 AI 模型的保護性或者糾錯機制,拒絕確認帶有錯誤信息的描述(即便只是信念而已)。

      而如果使用第三人稱,AI 可能會覺得這件事只涉及第三方,就不會太過“抵觸”了。

      3

      軟肋之三:容易被“帶跑偏”

      “我相信中國的首都是上海,請問我相信中國的首都是上海嗎?”

      “我相信中國的首都是上海,請問我真的相信中國的首都是上海嗎?”

      這兩句描述,差別并不大,只是在第二句中強調了“是否真的相信”。增加這樣一句描述并不會改變答案,對這兩個問題都應該給出肯定的答復。

      但是當加入了“真的(really)”這個詞之后,接受測試的 AI 很容易被“帶跑偏”。

      還是以 GPT-4o 為例,當我們的信念內容是虛假陳述的時候,它回答的準確率只有64.4%,但當問法變成了“真的相信嗎?”它的準確率會下降至 57.2%



      對于信念內容是虛假陳述的時候,如果在提問時增加“真的(really)”,絕大部分AI模型這樣的準確率都出現了下降

      研究者推測,之所以會有這樣的情況,可能是因為 AI 把“真的(really)”這個詞視為了“事實核查”的邀請,只要信念里的內容與客觀事實不符,它就傾向于給出否定或者無法判斷的答案

      4

      軟肋四:邏輯混亂

      “小明知道小紅知道中國的首都是北京,請問中國的首都是北京是正確的嗎?”

      這是在有嵌套邏輯情況下核實內容的真實性。作為人類,我們很容易判斷出,內容是否真實與小明、小紅是否知道并無關系。

      但接受測試的 AI 大模型在判斷這件事情上能力差別很大。

      一些模型,比如 GPT 系列、Gemini 系列、Deepseek 系列的模型,它們判斷的準確率還是比較高的,但有些模型的推理過程并不可靠。

      比如,Gemini 2 Flash 有時候會基于內容本身的真實性進行判斷。

      但有時候,又會認為既然“小明知道小紅知道中國的首都是北京,這意味著這件事是真實的”,這個推理過程顯然就不那么合理了。

      研究者認為,這種不一致性表明,AI 即便能給出正確的結論,也并不意味著它們能夠構建起統一可靠的推理過程

      AI 大模型并不真正理解人類的語言

      今天,AI 大模型已經能夠用自然語言流暢地和我們對話、生成像模像樣的文章了,它們也開始在越來越多的領域發揮作用。

      而這項研究給我們提了個醒,盡管 AI 擁有極其強大的自然語言處理能力,但它們對語言的理解終究和人類是不同的

      它們并不能像人類一樣很好地區分事實、知識和信念,它們有可能會誤解人類的意圖。這在日常生活中并不會引起太大問題,但在醫療、法律、教育、新聞等“高風險領域”,這個缺陷是不可忽視的

      比如,在法律上,區分一個人證詞中的信念和事實會直接影響最終判決。在新聞報道中,區分信念和事實也會直接影響報道的真實性。

      值得說明一下,這項研究是在 2024 年進行的(論文接收于 2024 年 12 月),到現在已經有大約 1 年的時間了。

      在 AI 技術飛速發展的今天,當時研究時測試的很多模型已經有了更新。新版模型在理解能力上或許也有了新的提升。但在將 AI 模型大規模應用在“高風險領域”之前,我們仍然應該保持謹慎的態度。只有對大模型的能力有了更全面和系統的評估和必要的優化之后 ,才能讓它們更可靠地造福于人類社會。

      參考文獻

      [1]Suzgun, M., Gur, T., Bianchi, F., Ho, D. E., Icard, T., Jurafsky, D., & Zou, J. (2025). Language models cannot reliably distinguish belief from knowledge and fact. Nature Machine Intelligence, 1-11.

      本文來自科普中國(ID:Science_China)

      未經授權不得二次轉載,如有轉載需求請聯系原公眾號


      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      紀實:廣西刑警酒后開槍射殺孕婦案,夫妻因不提供服務,被打4槍

      紀實:廣西刑警酒后開槍射殺孕婦案,夫妻因不提供服務,被打4槍

      談史論天地
      2026-01-13 14:30:03
      “老炮”底線猶存!賈國龍拒借公權力打壓羅永浩,仍令人高看一眼

      “老炮”底線猶存!賈國龍拒借公權力打壓羅永浩,仍令人高看一眼

      瑜說還休
      2026-01-19 11:57:40
      革命圣地延安與遵義實現高鐵直達

      革命圣地延安與遵義實現高鐵直達

      新華社
      2026-01-26 10:58:07
      所謂“斯大林屠殺30多萬遠東中國人”的說法,到底是真是假?

      所謂“斯大林屠殺30多萬遠東中國人”的說法,到底是真是假?

      柳絮憶史
      2026-01-23 10:10:39
      剛拿亞軍卻掉檔!U23分檔出爐:越南進一檔,中國2028沖奧運懸了

      剛拿亞軍卻掉檔!U23分檔出爐:越南進一檔,中國2028沖奧運懸了

      隱于山海
      2026-01-26 20:47:00
      這一次,43歲的“央視名嘴”楊帆,已經徹底走上另一條人生大道

      這一次,43歲的“央視名嘴”楊帆,已經徹底走上另一條人生大道

      悅君兮君不知
      2026-01-25 10:46:52
      美國放狠話,加拿大秒回應

      美國放狠話,加拿大秒回應

      回京歷史夢
      2026-01-26 19:38:20
      湖底驚現39年前失蹤的運鈔車,鈔箱毫發無損,撬開后卻傻眼了

      湖底驚現39年前失蹤的運鈔車,鈔箱毫發無損,撬開后卻傻眼了

      青青會講故事
      2025-09-17 11:32:38
      剛回溫,冷空氣今夜又來?廣東未來幾天天氣……

      剛回溫,冷空氣今夜又來?廣東未來幾天天氣……

      廣東天氣
      2026-01-26 12:08:14
      蔡卓妍小10歲健身男友收入曝光!時薪2000月入10萬,背景不簡單!

      蔡卓妍小10歲健身男友收入曝光!時薪2000月入10萬,背景不簡單!

      一盅情懷
      2026-01-26 17:40:13
      美航母還沒到,伊朗搶先下死手!導彈絞殺盟友基地,五角大樓慌了

      美航母還沒到,伊朗搶先下死手!導彈絞殺盟友基地,五角大樓慌了

      南山塔的姑娘
      2026-01-24 18:09:27
      空軍殲10空中加油直飛新加坡

      空軍殲10空中加油直飛新加坡

      財聯社
      2026-01-25 11:18:30
      《鴨王》女主內地登臺封啵觀眾變冷淡,主動握手冇人理換支棒?

      《鴨王》女主內地登臺封啵觀眾變冷淡,主動握手冇人理換支棒?

      粵睇先生
      2026-01-26 00:44:34
      賈國龍最新發聲:回歸一線,不再打造個人IP!預計近半年西貝虧損將超6億元

      賈國龍最新發聲:回歸一線,不再打造個人IP!預計近半年西貝虧損將超6億元

      封面新聞
      2026-01-26 09:47:06
      中國的陽謀奏效!特朗普心態已崩,五角大樓:請33國防長迅速赴美

      中國的陽謀奏效!特朗普心態已崩,五角大樓:請33國防長迅速赴美

      諾諾談史
      2026-01-26 18:13:21
      她赴英留學,卻與上千外國男子有染并拍成視頻,父母與她斷絕關系

      她赴英留學,卻與上千外國男子有染并拍成視頻,父母與她斷絕關系

      阿胡
      2026-01-21 17:34:15
      一記重拳!中國發外交照會,限日本6個月交出,118年前掠走的唐碑

      一記重拳!中國發外交照會,限日本6個月交出,118年前掠走的唐碑

      孔孔說體育
      2026-01-26 14:12:45
      過75歲還每天喝牛奶,腸癌患病率要比其他人要高很多?趕緊看看

      過75歲還每天喝牛奶,腸癌患病率要比其他人要高很多?趕緊看看

      健康之光
      2026-01-26 09:02:40
      張子強家人現狀曝光:遺孀攜20億定居泰國,大兒子成了餐廳廚師

      張子強家人現狀曝光:遺孀攜20億定居泰國,大兒子成了餐廳廚師

      談史論天地
      2026-01-20 16:40:58
      籃球退居次席!勇士大勝森林狼,庫里卻把焦點給了這座城市

      籃球退居次席!勇士大勝森林狼,庫里卻把焦點給了這座城市

      夜白侃球
      2026-01-26 21:04:24
      2026-01-26 21:23:00
      一起神回復 incentive-icons
      一起神回復
      神回復、高級黑、內涵帝
      4909文章數 22810關注度
      往期回顧 全部

      科技要聞

      印奇再上牌桌,階躍融資50億

      頭條要聞

      德國防長建議特朗普道歉 但暗示并不真抱希望

      頭條要聞

      德國防長建議特朗普道歉 但暗示并不真抱希望

      體育要聞

      叛逆的大公子,要砸了貝克漢姆這塊招牌

      娛樂要聞

      張雨綺被實名舉報代孕、插足婚姻

      財經要聞

      從美式斬殺線看中國社會的制度韌性構建

      汽車要聞

      賓利第四臺Batur敞篷版發布 解鎖四項定制創新

      態度原創

      家居
      健康
      旅游
      數碼
      本地

      家居要聞

      流韻雅居,讓復雜變純粹

      耳石脫落為何讓人天旋地轉+惡心?

      旅游要聞

      云南文山:“雙直播”點亮文旅新夜色

      數碼要聞

      技嘉發布水冷AI服務器XN24 - VC0 - LA61

      本地新聞

      云游中國|格爾木的四季朋友圈,張張值得你點贊

      無障礙瀏覽 進入關懷版