<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      AI竟然會「撒謊」?V4幻覺率升高意味著什么

      0
      分享至



      4月24日,DeepSeek V4正式開源發布。海外AI社區48小時內完成了第一輪系統性評測。

      結論出來了,但出乎很多人意料。好消息是:V4-Pro在智能體(Agent)任務上排名所有已公開開源模型第一。壞消息是:它的幻覺率,比上一代有所上升。

      這兩件事放在一起,值得認真解讀一下。

      幻覺率是什么,為什么企業端比個人用戶更在乎

      「幻覺」是AI領域的專業術語,指的是:當模型不知道答案時,它會編造一個聽起來很像真的回答,而不是說「我不知道」。注意:幻覺率94%,不是說V4有94%的回答是錯的——它的含義是,在那些它本來不確定的問題上,有94%的概率選擇給出回答而非拒絕回答。這個區別很重要。

      對個人用戶來說,這有時候只是個小麻煩——你問AI一道歷史題,它編了個看似合理但其實不存在的事件,你查一下發現不對,重新問一遍就好了。

      但對企業端來說,幻覺是一個合規性紅線。醫療場景:AI給患者生成的用藥建議,如果出現幻覺,可能引發醫療事故;法律場景:合同審查中AI引用了一條「并不存在」的法條,律師事務所面臨違約風險;金融場景:AI生成的財報摘要中出現了錯誤數據,投資決策失誤的責任歸屬極為復雜。這三個場景有一個共同特點:零容忍。

      這就是為什么,幻覺率是企業選AI模型的核心指標之一——有時甚至比「聰明程度」更重要。

      ? V4-Pro幻覺率:94%(不確定時選擇回答而非拒絕的概率)(來源:Artificial Analysis評測,2026年4月)

      ? V4-Flash幻覺率:96%(來源:Artificial Analysis評測,2026年4月)

      ? V4-Pro Agent評分:GDPval-AA 1554分,位列開源模型第一,超越Kimi K2.6(1484)(來源:Artificial Analysis,2026年4月)

      ? API定價:輸入12元/百萬token,輸出24元/百萬token(來源:DeepSeek API文檔,2026年4月24日)

      V4為什么在Agent能力提升的同時,幻覺率有所上升

      ▍Agent任務的本質:更長的推理鏈條

      傳統的「問答型」AI,一次對話通常完成一次推理。而Agent任務(如:幫我查三個供應商的報價,對比優劣,起草詢價郵件)需要AI自主規劃多個步驟,每一步調用工具、處理結果、再規劃下一步。推理鏈條可以延伸到十步、二十步甚至更多。鏈條越長,每一步的小誤差越有機會積累放大——類似「傳話游戲」效應。這在一定程度上解釋了為什么Agent能力強的模型,幻覺率也更難控制。

      ▍DeepSeek的技術取舍

      根據Artificial Analysis的評測數據,V4-Pro在知識準確性(AA-Omniscience)上比V3.2有所提升,得分從-21改善至-10。但同時,當模型不確定時,它選擇「大膽回答」而非「保守拒絕」——這正是幻覺率高的根本來源。這是一個明確的設計取舍:Agent場景中,一個「什么都不說」的模型會頻繁卡住工作流,而一個「大膽推進」的模型能完成更復雜的任務,但引入了更高的出錯風險。這不是V4的失誤,而是技術路線的選擇。

      更強的工具,需要更謹慎的使用者。

      企業端應該怎么用V4

      「Agent第一+幻覺率偏高」的組合,并不意味著V4不適合企業使用,而是需要分場景部署。

      ▍適合大量使用的場景

      ①內容創作與研究輔助(文章起草、市場分析、競品調研)——幻覺的代價是可接受的,人工審閱是最后一道關;②代碼生成與調試——有工程師建議,代碼層面的幻覺可以通過測試用例快速暴露,驗證成本相對較低;③多步驟任務自動化(數據處理流程、格式轉換、批量操作)——幻覺風險可以通過結果驗證機制控制。

      ▍需要加強核查的場景

      ①法律文書生成與合同審查——幻覺引用法條是高風險行為,應作為輔助而非判斷主體;②醫療建議與臨床決策支持——監管合規要求明確,AI輸出必須經過專業人員復核;③財務數據分析與合規報告——數字錯誤在財務場景代價極高。

      對于企業AI負責人來說,真正的價值判斷不是「V4幻覺率偏高,所以不能用」,而是「在哪些場景下,V4的幻覺風險是可控的,在哪些場景下需要加強審查」。

      ? V4-Pro運行成本:Artificial Analysis全套測評耗費約1,071美元,高于V3.2的71美元(來源:Artificial Analysis,2026年4月)

      ? V4-Pro輸出token量:190M(僅測評套件),Token消耗顯著高于同級開源模型

      ? 開源狀態:V4-Pro與V4-Flash均已開源,支持本地私有化部署(來源:DeepSeek API文檔,2026年4月24日)

      Agent時代的幻覺問題,比過去更值得關注

      過去,AI的幻覺問題主要是個人用戶的體驗問題?,F在,隨著AI進入Agent時代(AI自主完成多步驟工作流程),幻覺問題正在升級為更復雜的系統性挑戰。

      在Agent工作流中,每一步的輸出都是下一步的輸入。幻覺一旦出現,可能被后續步驟放大,而不是被隔離。這是整個AI行業正在面對的核心技術難題:如何在提升Agent能力的同時,把幻覺率有效壓低。目前沒有模型同時做到了兩者的最優化。V4選擇了「Agent優先」,另一些模型選擇了「幻覺率優先」,這是不同的技術路線,適配不同的使用場景。

      DeepSeek V4更聰明了,也更敢說話了。但「敢說話」和「說對話」,從來不是同一件事。

      Agent能力排名開源第一,這是DeepSeek V4真實的技術突破?;糜X率偏高,這也是真實的技術代價。兩件事都是真的,都值得認真對待。

      對普通用戶來說,V4用來寫文章、做研究、輔助編程,完全沒有問題。對企業端來說,在醫療、法律、金融這類「精確性要求極高」的場景部署之前,需要建立相應的人工核查機制。這不只是V4的局限,這是當前所有大模型都面臨的現實。

      作 者 |知予

      免責聲明:本文僅為信息分享與行業分析,不構成任何投資建議、投資分析意見或交易邀約。市場有風險,投資需謹慎。任何人依據本文內容作出的投資決策,風險與盈虧自行承擔,作者及發布平臺不承擔任何法律責任。

      信息來源

      1. Artificial Analysis:《DeepSeek is back among the leading open weights models with V4 Pro and V4 Flash》(2026年4月)

      2. DeepSeek API官方文檔:更新日志(2026年4月24日)

      3. BentoML Blog:《The Complete Guide to DeepSeek Models》(2026年4月)

      4. 每日經濟新聞:《DeepSeek V4來了!"用國產算力跑國產模型"》(2026年4月25日)

      聲明:內容由AI生成

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      芬蘭外長突然發難:不和中國簽自貿協定!中方一句話淡定回應

      芬蘭外長突然發難:不和中國簽自貿協定!中方一句話淡定回應

      聞識
      2026-04-27 12:07:18
      “天價賠償570億美元:六年了,我們一分錢沒拿到”

      “天價賠償570億美元:六年了,我們一分錢沒拿到”

      觀察者網
      2026-04-26 17:21:11
      戰斗打到一半,司令說:我累了,你指揮!結果此人一天解決戰斗!

      戰斗打到一半,司令說:我累了,你指揮!結果此人一天解決戰斗!

      云霄紀史觀
      2026-04-26 20:25:17
      上海迪士尼一男子勸阻另一男子吸煙,反被連扇巴掌、拳打腳踢!當事人刪帖稱“對方賠了五位數”,警方已介入

      上海迪士尼一男子勸阻另一男子吸煙,反被連扇巴掌、拳打腳踢!當事人刪帖稱“對方賠了五位數”,警方已介入

      都市快報橙柿互動
      2026-04-27 14:53:19
      國家發改委: 禁止外資收購Manus 要求撤銷交易

      國家發改委: 禁止外資收購Manus 要求撤銷交易

      每日經濟新聞
      2026-04-27 16:29:58
      一位戰士向陳毅敬禮說,陳司令好!陳毅:你叫錯了,丟掉一個字

      一位戰士向陳毅敬禮說,陳司令好!陳毅:你叫錯了,丟掉一個字

      大運河時空
      2026-04-26 17:15:03
      4200萬的“斷繳潮”:數字背后引發的思考?

      4200萬的“斷繳潮”:數字背后引發的思考?

      深度報
      2026-04-26 22:46:57
      十分之一的休學率,海淀媽媽“投降”了?

      十分之一的休學率,海淀媽媽“投降”了?

      顯微故事
      2026-04-27 09:54:11
      男子曝入職全球頂尖科技公司時突然被降薪20萬,拒offer后被嘲諷:你的愛國情懷不值20萬嗎

      男子曝入職全球頂尖科技公司時突然被降薪20萬,拒offer后被嘲諷:你的愛國情懷不值20萬嗎

      爆角追蹤
      2026-04-27 14:54:06
      男子戒煙3個月省下的煙錢鋪滿一床,當事人:成就感拉滿,堅決不再抽煙,會繼續攢錢,想要去西藏旅游

      男子戒煙3個月省下的煙錢鋪滿一床,當事人:成就感拉滿,堅決不再抽煙,會繼續攢錢,想要去西藏旅游

      觀威海
      2026-04-26 19:16:12
      斯諾克賽程:決出4席8強,吳宜澤生死戰,火箭沖8冠,5虎變3虎?

      斯諾克賽程:決出4席8強,吳宜澤生死戰,火箭沖8冠,5虎變3虎?

      劉姚堯的文字城堡
      2026-04-27 07:56:16
      外媒炸鍋了!當著日本航母的面,055竟然發射鷹擊-20?

      外媒炸鍋了!當著日本航母的面,055竟然發射鷹擊-20?

      安珈使者啊
      2026-04-27 11:46:37
      疑似國產垂直起降戰機被曝光,或是基于殲20衍生而來

      疑似國產垂直起降戰機被曝光,或是基于殲20衍生而來

      烽火觀天下
      2026-04-27 11:06:43
      當著日本航母的面,055射了一枚導彈,美國反導體系沉默了

      當著日本航母的面,055射了一枚導彈,美國反導體系沉默了

      等閑故人心變阡
      2026-04-27 08:31:29
      為了外貿數據排名,南京市江寧經濟開發區公款“購買”異地出口數據,有關部門只考不核

      為了外貿數據排名,南京市江寧經濟開發區公款“購買”異地出口數據,有關部門只考不核

      三言四拍
      2026-04-27 09:06:00
      云南楚雄一中學教師在校內跳樓輕生,疑留遺書稱遭刻意針對,當地教體局:墜樓教師生命體征趨于平穩,相關部門已介入調查

      云南楚雄一中學教師在校內跳樓輕生,疑留遺書稱遭刻意針對,當地教體局:墜樓教師生命體征趨于平穩,相關部門已介入調查

      都市快報橙柿互動
      2026-04-27 14:52:49
      送別!他在上海逝世,享年69歲!氣沖霄漢,他讓中國民間樂器響徹世界,舞臺下幾乎都在教學生

      送別!他在上海逝世,享年69歲!氣沖霄漢,他讓中國民間樂器響徹世界,舞臺下幾乎都在教學生

      新民晚報
      2026-04-27 10:38:03
      北大教授:中國AI比美國還差得遠,而且差距正在拉大

      北大教授:中國AI比美國還差得遠,而且差距正在拉大

      六子吃涼粉
      2026-04-27 11:35:16
      伊朗稱發現15枚美軍未爆重型導彈,已送技術部門逆向研發仿制

      伊朗稱發現15枚美軍未爆重型導彈,已送技術部門逆向研發仿制

      紅星新聞
      2026-04-27 16:51:19
      對美元的重大誤判,正在深度誤導我們

      對美元的重大誤判,正在深度誤導我們

      世界靈敏度趙靈敏
      2026-04-26 18:36:10
      2026-04-27 19:12:49
      BT財經 incentive-icons
      BT財經
      亞洲有影響力的金融信息服務傳播平臺
      3600文章數 9908關注度
      往期回顧 全部

      科技要聞

      DeepSeek V4上線三天,第一批實測出來了

      頭條要聞

      東方甄選多位主播離職 羅永浩連發6個問句怒懟網友

      頭條要聞

      東方甄選多位主播離職 羅永浩連發6個問句怒懟網友

      體育要聞

      最抽象的天才,正在改變瓜迪奧拉

      娛樂要聞

      黃楊鈿甜為“耳環風波”出鏡道歉:謠言已澄清

      財經要聞

      Meta 140億收購Manus遭中國發改委否決

      汽車要聞

      不那么小眾也可以 smart的路會越走越寬

      態度原創

      游戲
      家居
      手機
      數碼
      公開課

      育碧聽勸了?承諾原版《黑旗》繼續賣并且價格永降!

      家居要聞

      江景風格 流動的秩序

      手機要聞

      最強Mate來了!華為Mate 90最快9月亮相:首發麒麟最強芯

      數碼要聞

      讓好聲音住進家中,三星Music Studio 7將高顏值設計融入日常生活

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 日韩激情无码av一区二区| 成人午夜电影福利免费| 超碰狠狠干| 日韩精品人妻中文字有码在线| 激情自拍校园春色中文| 国产精品一区成人亚洲| 欧美午夜精品久久久久久浪潮| 4455免费| 丝袜美腿一区二区三区| 欧美AA视频| 中文字幕av久久激情| 内地自拍三级在线观看| 99re6热在线精品视频播放 | 成人国产精品日本在线观看| 日本乱码伦视频免费播放| 国产亚洲日韩欧美一区二区三区| 亚洲色图视频在线观看网站 | 欧美日韩无套内射另类| 久久99精品国产.久久久久久| 国产又粗又猛又爽又黄 | 日韩高清不卡免费一区二区| 伊人在线| 好吊妞人成视频在线观看| 亚洲中文无码av在线| 1024国产视频| 我和亲妺妺乱的性视频| 色www88| 四虎亚洲无码| 国产jizzjizz视频| 国产视频深夜在线观看| 美女网站免费福利视频| 老熟女网站| 国产 在线视频无码| 中国xxxx真实偷拍| 欧美牲交a免费| 国产麻豆精品一区| 大香蕉一区二区三区| 无码精油按摩潮喷在线播放| 久久久久国产一区二区三区| 国产亚洲精品va在线| 欧性猛交ⅹxxx乱大交|