網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

AI看圖一本正經(jīng)胡說八道？「一拉一推」讓模型看得全又準(zhǔn)

2026-02-08 14:04:00　來源: 量子位

北京舉報(bào)

分享至

BiPS團(tuán)隊(duì) 投稿
量子位 | 公眾號(hào) QbitAI

隨著視覺-語言模型（VLM）推理能力不斷增強(qiáng)，一個(gè)隱蔽的問題逐漸浮現(xiàn)：

很多錯(cuò)誤不是推理沒做好，而是“看錯(cuò)了”。

在復(fù)雜視覺任務(wù)中，模型往往能正確識(shí)別對(duì)象、理解問題，甚至給出完整的推理鏈，卻因捕捉了錯(cuò)誤的視覺證據(jù)，得出自信卻錯(cuò)誤的答案。

現(xiàn)有方法通常在推理階段“指路”——例如生成視覺提示或調(diào)用外部工具，以臨時(shí)對(duì)齊證據(jù)。這類策略雖有效，卻面臨明顯局限：視覺線索形式受限、高度依賴具體任務(wù)，且推理開銷大。更重要的是，它引出一個(gè)根本性問題：

如果模型始終需要外部提醒才知道“看哪兒”，它是否真的理解了視覺世界？

為此，微軟亞洲研究院與清華大學(xué)提出BiPS（Bi-directional Perceptual Shaping），從源頭重塑模型的“看圖方式”。

BiPS不在推理時(shí)臨時(shí)提示關(guān)注區(qū)域，而是在訓(xùn)練階段就教會(huì)模型：面對(duì)特定問題，哪些視覺細(xì)節(jié)必須關(guān)注，哪些可以忽略。通過系統(tǒng)性地對(duì)齊問題與視覺證據(jù)，BiPS促使模型內(nèi)化一種核心能力——帶著問題去看圖。因此，在推理時(shí)無需任何額外提示，模型也能自動(dòng)聚焦于真正決定答案的關(guān)鍵區(qū)域與細(xì)節(jié)。

實(shí)驗(yàn)表明，這種“看哪兒”的能力具有跨任務(wù)遷移性，為構(gòu)建更可靠、通用的視覺理解系統(tǒng)開辟了新路徑。

視線錯(cuò)位：VLM的“看”與“想”為何脫節(jié)？

我們常被視覺-語言模型（VLM）行云流水的回答迷惑，以為它真的“看懂”了圖片。但事實(shí)可能是：它識(shí)別出了圖中物體，卻抓錯(cuò)了關(guān)鍵信息。

人類的視覺是目標(biāo)驅(qū)動(dòng)的：?jiǎn)栚厔?shì)就追曲線，問數(shù)值就盯刻度，問關(guān)系就比位置。但當(dāng)前VLM的“看”仍停留在打標(biāo)簽階段，缺乏對(duì)關(guān)鍵證據(jù)的精準(zhǔn)定位能力。它知道圖里有什么，卻不知道該看哪里

為解決這一“視線錯(cuò)位”，學(xué)界常采用視覺證據(jù)引導(dǎo)——通過框選、掩碼或線索提示，為模型的“視線”裝上“準(zhǔn)星”。然而，這種引導(dǎo)式感知存在三重局限：

其一，世界不是矩形的。圖表中的折線拐點(diǎn)、幾何題中的交疊多邊形、醫(yī)學(xué)影像中的彌散病灶……這些關(guān)鍵線索往往是不規(guī)則且彌散的，難以被標(biāo)準(zhǔn)框或掩碼完整覆蓋。裁大引入噪聲，裁小丟失細(xì)節(jié)，模型“看”到了區(qū)域，卻依然看錯(cuò)了證據(jù)。

其二，聚焦能力無法遷移。當(dāng)前提示方法多為特定任務(wù)定制，依賴特定數(shù)據(jù)分布或標(biāo)注規(guī)則。模型的感知能力被綁死在任務(wù)專屬的視覺表示上，難以泛化。換一個(gè)任務(wù)，就得重教它“怎么看”。

其三，感知被推遲到推理之后。多數(shù)方案將視覺聚焦視為推理鏈中的中間補(bǔ)救步驟，不僅拖慢效率，更讓錯(cuò)誤在后續(xù)推理中滾雪球式放大。

核心挑戰(zhàn)由此浮現(xiàn)：如何讓模型學(xué)會(huì)“帶著問題去看圖”？

從“推理時(shí)補(bǔ)救”到“訓(xùn)練時(shí)內(nèi)化”：BiPS的核心轉(zhuǎn)向

如果問題根源不在“推理不夠聰明”，而在“從第一眼就看錯(cuò)了圖”，是否該換個(gè)思路？

能否不再依賴推理階段的視覺外掛，而是在訓(xùn)練階段，就讓模型真正學(xué)會(huì)識(shí)別什么是“正確的視覺證據(jù)”？

這正是BiPS（Bi-directional Perceptual Shaping）的核心革命。

它不做邊界框、不打掩碼、不調(diào)工具，而是：

把推理階段依賴的視覺提示，提前轉(zhuǎn)化為指導(dǎo)模型“該往哪兒看”的訓(xùn)練信號(hào)。讓模型學(xué)會(huì)本能聚焦關(guān)鍵證據(jù)。

一拉一推：讓模型既“看全”，又“看準(zhǔn)”

BiPS的核心在于一套方向相反、粒度互補(bǔ)的雙重感知塑形機(jī)制：

先把模型的視線“拉”回到所有相關(guān)證據(jù)，再“推”它看向真正關(guān)鍵的細(xì)節(jié)。

“拉”：看少，但看全

真實(shí)問答常依賴分散卻環(huán)環(huán)相扣的視覺證據(jù)鏈——如折線走勢(shì)、圖例顏色、坐標(biāo)刻度與子圖標(biāo)題的組合。

為此，BiPS構(gòu)建Evidence-Preserving View（證據(jù)保留視圖）：系統(tǒng)性剔除干擾，僅保留回答必需的視覺元素，寧可粒度粗，也不遺漏關(guān)鍵。

模型需基于這種“信息更少但結(jié)構(gòu)完整”的視圖，輸出與原始圖像一致的答案。

這一過程將模型從噪聲與偏見中拉回，使其回答錨定于完整的證據(jù)鏈。

“推”：看對(duì)關(guān)鍵細(xì)節(jié)

“看全”只是起點(diǎn)。若模型僅模糊定位相關(guān)區(qū)域，仍可能依賴語言先驗(yàn)或統(tǒng)計(jì)偏見作答。

BiPS引入Evidence-Ablated View（證據(jù)消融視圖）：精準(zhǔn)移除決定答案的關(guān)鍵細(xì)節(jié)（如某條折線）。這類改動(dòng)視覺上微小，卻足以顛覆答案。

此時(shí)訓(xùn)練目標(biāo)反轉(zhuǎn)：一旦關(guān)鍵證據(jù)消失，模型必須拒絕原答案。

這是一種反事實(shí)約束——任何繞過關(guān)鍵視覺證據(jù)的“替代推理”都應(yīng)失效。

協(xié)同塑形感知

“拉”與“推”構(gòu)成遞進(jìn)流程：

“拉”確保回答基于完整、必要的視覺證據(jù)；
“推”迫使模型識(shí)別不可替代的細(xì)粒度線索。

二者協(xié)同，推動(dòng)模型從表面關(guān)聯(lián)走向因果一致的證據(jù)依賴，學(xué)會(huì)像人類一樣“帶著問題看世界”。

圖表是最好的老師：用精確證據(jù)，教會(huì)模型“看哪里”

當(dāng)BiPS把“看準(zhǔn)”作為訓(xùn)練目標(biāo)后，一個(gè)現(xiàn)實(shí)問題隨之而來：

那些精細(xì)又緊扣問題的視覺證據(jù)，到底從哪兒來？

圖表是極佳的訓(xùn)練起點(diǎn)：它們以多子圖、細(xì)折線、小標(biāo)記與精確刻度等，構(gòu)成了高密度、高信息量的視覺場(chǎng)景。這些微小元素往往是解題的關(guān)鍵線索，提供了豐富且細(xì)粒度的感知材料

更重要的是，圖表中的視覺證據(jù)是可控的。每個(gè)元素都可被程序化地添加、移除或遮蔽，并能直接驗(yàn)證其對(duì)答案的影響，從而能夠以程序化的方式，準(zhǔn)確構(gòu)建“證據(jù)保留”與“證據(jù)消融”的對(duì)照視圖。

因此，在BiPS的訓(xùn)練體系中，圖表是一個(gè)高復(fù)雜度、高度可控的實(shí)驗(yàn)場(chǎng)：既足夠復(fù)雜以提供真實(shí)的細(xì)粒度證據(jù)，又足夠可控以精準(zhǔn)操縱這些證據(jù)。模型在此學(xué)習(xí)的，并非解讀圖表，而是在復(fù)雜視覺場(chǎng)景中，學(xué)會(huì)將注意力聚焦于與問題真正相關(guān)的局部線索

13K訓(xùn)練樣本，8個(gè)基準(zhǔn)：一次“小數(shù)據(jù)”的能力遷移

BiPS展示出了一種高效而穩(wěn)定的訓(xùn)練范式。僅用13K條圖表樣本對(duì)基礎(chǔ)模型進(jìn)行微調(diào)，無需人工標(biāo)注，也未針對(duì)不同任務(wù)定制專門工具或模板。訓(xùn)練目標(biāo)單一明確：學(xué)會(huì)“問題指哪，就看哪”的視覺邏輯

效果顯著：在8個(gè)不同的評(píng)測(cè)基準(zhǔn)上，模型均實(shí)現(xiàn)了一致且顯著的性能提升，涵蓋：

真實(shí)圖表理解（如CharXiv）
圖像驅(qū)動(dòng)的數(shù)理邏輯推理（如MathVision）
通用視覺問答（如MMStar）

以Qwen2.5-VL-7B為基礎(chǔ)模型，BiPS帶來了平均準(zhǔn)確率+7.3%的提升，這一提升并非集中在某一特定領(lǐng)域，而是跨越數(shù)據(jù)分布、跨越任務(wù)類型的全面進(jìn)步。

即便在推理能力已高度強(qiáng)化的Qwen3-VL-8B-Thinking上，這一效果依然成立：

CharXiv：53.0→58.1；MathVision：62.7→63.9；MMStar：75.3→76.3

這些結(jié)果表明，BiPS學(xué)到的不是“圖表特有的解題技巧”，而是一種可遷移的“看對(duì)地方”的能力

學(xué)會(huì)“看對(duì)地方”：邁向通用智能的關(guān)鍵一步

真正的視覺智能不僅是“看到”，更是在復(fù)雜信息中，聚焦于與問題相關(guān)的關(guān)鍵證據(jù)

BiPS實(shí)現(xiàn)的并非簡(jiǎn)單的技巧優(yōu)化，而是一種根本性的能力轉(zhuǎn)變：使模型的視覺注意力從被動(dòng)、均勻的掃視，轉(zhuǎn)變?yōu)橹鲃?dòng)、問題驅(qū)動(dòng)的精準(zhǔn)聚焦

這無疑是通向通用視覺智能的關(guān)鍵一步，其核心在于：讓模型的眼睛，真正看向問題的關(guān)鍵。

論文鏈接：

https://arxiv.org/abs/2512.22120

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.