<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      多模態Deep Research,終于有了「可核驗」的評測標準

      0
      分享至



      Deep Research Agent 火了,但評測還停在「看起來很強 」。

      寫得像論文,不等于真的做了研究。

      尤其當證據來自圖表、截圖、論文圖、示意圖時:模型到底是「看懂了」,還是 「編得像懂了」?

      俄亥俄州立大學與 Amazon Science 聯合牽頭,聯合多家高校與機構研究者發布MMDeepResearch-Bench(MMDR-Bench),試圖把多模態 Deep Research 的評估從「讀起來不錯」,拉回到一個更硬的標準:過程可核驗、證據可追溯、斷言可對齊。

      MMDR-Bench 與評測框架相關資源已公開:



      • 論文標題:MMDeepResearch-Bench: A Benchmark for Multimodal Deep Research Agents
      • 論文主頁:https://mmdeepresearch-bench.github.io/
      • 論文鏈接: https://arxiv.org/abs/2601.12346
      • github 鏈接:https://github.com/AIoT-MLSys-Lab/MMDeepResearch-Bench
      • Huggingface 鏈接:https://huggingface.co/papers/2601.12346

      當 Deep Research Agent 變得越來越常見,一個更現實的問題擺到了臺面上:我們到底該怎么評價它的價值?很多時候,你很難用「答案對不對」去判一份研究型報告 —— 因為問題本身可能沒有唯一標準答案。

      真正決定可信度的,是過程紀律:有沒有檢索到可靠證據?關鍵斷言有沒有被引用支撐?引用是否真的對應這句話?以及最容易被忽略的一點:當證據來自圖像時,它有沒有「看對并用對」。

      現有評測往往缺一塊關鍵拼圖:要么偏短問答(圖表問答、文檔問答),要么偏純文本深研(長文 + 網頁引用),很難覆蓋端到端的「多模態深度研究」鏈路:既要寫研究式長報告,又要把圖像證據與文本斷言逐句對齊,并且能審計、能追責。

      01 為什么需要 MMDR-Bench:Deep Research 的「幻覺」不止發生在文本

      在真實研究場景里,圖像證據常常是不可替代的:曲線走勢、軸標簽與單位、表格關鍵單元格、截圖里的開關狀態、論文圖中的對比結果……

      這些信息一旦讀錯,就會把后續檢索與合成帶偏,最后變成一份「寫得很像、引用很多,但根上錯了」的報告。

      問題在于,傳統「引用評測」往往只看有沒有 URL,卻不追問 Claim–URL 是否真的支撐;傳統「多模態評測」多是短問答,又覆蓋不了 agent 的長鏈路檢索與報告合成。MMDR-Bench 想做的,是把這兩件事接起來:讓多模態 deep research 的輸出能被逐句核驗。

      02 MMDR-Bench 是什么:140 個專家任務,覆蓋 19 個領域

      MMDR-Bench 包含 140 個由領域專家打磨的任務,覆蓋 19 個領域。每個任務都提供「圖像 — 文本 bundle」:你不僅要檢索網頁、匯總證據,還必須解釋并使用給定圖像中的關鍵事實來支撐報告結論。

      作者將任務劃分為兩種使用情境:

      • Daily:偏日常使用場景,輸入多為截圖、界面、噪聲較高的圖片,考察系統在不完整信息下的穩健理解與可核驗寫作。
      • Research:偏研究分析場景,輸入多為圖表、表格、示意圖等信息密集視覺證據,強調細粒度讀圖與跨來源綜合。





      03 怎么評:不押「唯一答案」,押「證據鏈 + 過程對齊」

      為了解決「開放式問題沒有標準答案」的評測困境,MMDR-Bench 把評估拆成 3 段管線、12 個可定位指標,重點不在「結論是不是唯一正確」,而在「證據鏈是否站得住」。



      (1)FLAE:可解釋的長文質量評估(可審計)

      長報告的要求隨任務而變。FLAE 用可復現的文本特征公式(結構、可讀性、覆蓋度等)疊加任務自適應評審信號,避免「一把尺子量所有報告」,同時保證評分可回放、可解釋。

      (2)TRACE:Claim–URL 支撐核驗,讓引用不再是裝飾

      TRACE 將報告拆成原子斷言,并對齊到引用 URL,檢查是否支持、是否矛盾、是否過度推斷,給出一致性、覆蓋率與證據忠實度等指標。

      更關鍵的是,它加入 Visual Evidence Fidelity(Vef.)作為硬約束:報告必須嚴格遵守題目給出的圖文prompt,不得在分析題目時通過幻覺作答;一旦出現實體誤識別、圖中不存在卻編造、數字、標簽、映射關系讀錯,會被嚴格懲罰。

      (3)MOSAIC:把「用到圖像的句子」逐條對齊回圖像本身

      很多錯誤并不體現在 URL 上,而體現在「引用圖像的句子」與圖像內容不一致。MOSAIC 專門抽取這些多模態條目,按圖表、照片、示意圖等類型走不同核驗規則,定位「看錯圖、用錯圖、引用圖但沒真正 grounded」的失敗。

      科研從來沒有銀彈。Deep Research 也是 —— 尤其當信息不完整、證據不確定時。與其賭一次性的「正確結果」,不如把尺子釘在過程:每一步檢索、取證、引用與推理,都能被回放、被核對、被追責。

      04 觀察到的現象:強寫作 ≠ 強證據;會看圖 ≠ 會引用




      在多個代表性系統 / 模型的實驗中,可以看到非常清晰的分化:

      • 有的模型寫作與結構很強,但 Claim–URL 對齊松散,容易出現「引用很多、支撐很弱」;
      • 有的模型能讀圖抓到信息,但長鏈路合成中發生實體漂移,把證據綁到錯誤對象上;
      • 有的系統檢索覆蓋率高,卻在圖像細節(小數字、軸標簽、單位、映射關系)上翻車,導致視覺忠實度顯著掉分。

      也正因如此,能力并不會隨著版本號線性上揚:有些模型讀起來更「像一個會寫的研究者」,但在證據對齊與多模態忠實度上仍會失分 —— 榜單上甚至不需要細看,一眼就能讀出來。deep research 的關鍵瓶頸,正在從「能寫」轉向「能被查」。

      05 更現實的意義:給 agent 對齊一個可訓練的信號

      Deep Research 的下一階段,不是誰寫得更像論文,而是誰的過程經得起核驗。

      MMDR-Bench 做的,就是把「經得起核驗」這件事定成硬標準:每條關鍵斷言都要能被證據接住,每個引用都要能被追溯到支撐點,每次用圖都要能對齊到可觀察事實。

      這會直接改變系統迭代方式 —— 你不再憑感覺調 prompt,也不再被「看起來很強」的報告迷惑,而是用可定位的失敗模式去驅動模型與工具鏈升級。

      當評測開始追責過程,deep research 才真正進入可工程化的時代。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      楊瀚森閃耀全明星新秀賽凸顯一點:開拓者成就了他,也耽誤了他

      楊瀚森閃耀全明星新秀賽凸顯一點:開拓者成就了他,也耽誤了他

      姜大叔侃球
      2026-02-14 11:51:37
      美團的死穴決定了它打不起這場補貼大戰

      美團的死穴決定了它打不起這場補貼大戰

      新浪財經
      2026-02-14 15:33:26
      廣東湛江一海灘發現疑似儒艮尸體,長度超過1.5米,其2022年被宣布在中國大陸沿海功能性滅絕,目前正待鑒定

      廣東湛江一海灘發現疑似儒艮尸體,長度超過1.5米,其2022年被宣布在中國大陸沿海功能性滅絕,目前正待鑒定

      揚子晚報
      2026-02-13 12:22:25
      成都天府大道車輛碰撞事故完成責任認定!涉嫌酒駕當事人全責

      成都天府大道車輛碰撞事故完成責任認定!涉嫌酒駕當事人全責

      南方都市報
      2026-02-14 11:31:25
      聯合國將迎來首位女秘書長?對華態度不一般,中俄可能不會支持

      聯合國將迎來首位女秘書長?對華態度不一般,中俄可能不會支持

      健身狂人
      2026-02-14 12:19:04
      百度 APP 正式接入 OpenClaw,所有人限時免費!

      百度 APP 正式接入 OpenClaw,所有人限時免費!

      蒼何
      2026-02-14 15:55:27
      除夕可以洗衣服嗎?這天還有哪些禁忌?老祖宗留下8個傳統不能忘

      除夕可以洗衣服嗎?這天還有哪些禁忌?老祖宗留下8個傳統不能忘

      阿龍美食記
      2026-02-12 10:42:23
      一瞬間14年的數據都沒了!玩家誤操作燒毀14TB硬盤:只因為插錯了一根SATA線

      一瞬間14年的數據都沒了!玩家誤操作燒毀14TB硬盤:只因為插錯了一根SATA線

      快科技
      2026-02-13 11:09:07
      不是奎因!也不是薩林杰!廣東本賽季首位被裁外援,可能是麥考爾

      不是奎因!也不是薩林杰!廣東本賽季首位被裁外援,可能是麥考爾

      緋雨兒
      2026-02-14 15:06:29
      人有沒有肝病,看喝酒就知?醫生:有肝病的,喝酒多會有 4 異常

      人有沒有肝病,看喝酒就知?醫生:有肝病的,喝酒多會有 4 異常

      蜉蝣說
      2026-02-14 11:32:17
      紀實:四川18歲?;ū?1歲和尚藏禪房3個月,被解救時已神志不清

      紀實:四川18歲校花被51歲和尚藏禪房3個月,被解救時已神志不清

      談史論天地
      2026-02-05 12:38:12
      七個姐妹湊70萬開咖啡店,結果從“七仙女”變成“戰國七雄”互掐

      七個姐妹湊70萬開咖啡店,結果從“七仙女”變成“戰國七雄”互掐

      達文西看世界
      2026-02-12 11:31:45
      太扎心了!女方開口要48.8萬彩禮,小伙要回金首飾,提了一輛寶馬

      太扎心了!女方開口要48.8萬彩禮,小伙要回金首飾,提了一輛寶馬

      火山詩話
      2026-02-12 07:09:19
      就在剛剛!官宣第7位主帥下課!廣東更換主場,場均29分外援回CBA

      就在剛剛!官宣第7位主帥下課!廣東更換主場,場均29分外援回CBA

      老吳說體育
      2026-02-13 23:33:46
      中國體育再遭韓媒嘲諷:14億人大國0金牌 只排冬奧第18 巨大恥辱

      中國體育再遭韓媒嘲諷:14億人大國0金牌 只排冬奧第18 巨大恥辱

      風過鄉
      2026-02-14 17:26:15
      民族主義黨贏下孟加拉國六成議席:變革的曙光還是輪回的延續?

      民族主義黨贏下孟加拉國六成議席:變革的曙光還是輪回的延續?

      澎湃新聞
      2026-02-13 18:04:26
      最驚險2.5小時!印度高層集體甩鍋,上將獨自扛雷!

      最驚險2.5小時!印度高層集體甩鍋,上將獨自扛雷!

      李博世財經
      2026-02-14 17:11:22
      半幅方向盤,沒了

      半幅方向盤,沒了

      放毒
      2026-02-14 13:50:06
      狗咬人被摔死,狗主人帶9人復仇被60歲老人反殺!是正當防衛嗎?

      狗咬人被摔死,狗主人帶9人復仇被60歲老人反殺!是正當防衛嗎?

      何慕白
      2025-11-13 10:22:09
      隨著加拉塔薩雷5-1,土超最新積分榜出爐:穆帥前東家距榜首6分

      隨著加拉塔薩雷5-1,土超最新積分榜出爐:穆帥前東家距榜首6分

      側身凌空斬
      2026-02-14 08:15:39
      2026-02-14 20:20:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12310文章數 142567關注度
      往期回顧 全部

      科技要聞

      字節跳動官宣豆包大模型今日進入2.0階段

      頭條要聞

      俄中將遇襲細節:身中3槍 將襲擊者的槍舉到頭頂高度

      頭條要聞

      俄中將遇襲細節:身中3槍 將襲擊者的槍舉到頭頂高度

      體育要聞

      金博洋:天才少年的奧運終章

      娛樂要聞

      吳克群變“吳克窮”助農,國臺辦點贊

      財經要聞

      春節搶黃金,誰賺到錢了?

      汽車要聞

      星光730新春促銷開啟 80天銷量破2.6萬臺

      態度原創

      藝術
      家居
      游戲
      時尚
      軍事航空

      藝術要聞

      大長腿,直擊心臟!瞬間淪陷了!

      家居要聞

      中古雅韻 樂韻伴日常

      Game Freak重申《輪回之獸》內部團隊規模很小

      穿上這些鞋擁抱春天

      軍事要聞

      外媒:特朗普一旦下令攻擊伊朗 行動或持續數周

      無障礙瀏覽 進入關懷版