- BiPS團(tuán)隊(duì) 投稿
量子位 | 公眾號(hào) QbitAI
隨著視覺-語言模型(VLM)推理能力不斷增強(qiáng),一個(gè)隱蔽的問題逐漸浮現(xiàn):
很多錯(cuò)誤不是推理沒做好,而是“看錯(cuò)了”。
在復(fù)雜視覺任務(wù)中,模型往往能正確識(shí)別對(duì)象、理解問題,甚至給出完整的推理鏈,卻因捕捉了錯(cuò)誤的視覺證據(jù),得出自信卻錯(cuò)誤的答案。
現(xiàn)有方法通常在推理階段“指路”——例如生成視覺提示或調(diào)用外部工具,以臨時(shí)對(duì)齊證據(jù)。這類策略雖有效,卻面臨明顯局限:視覺線索形式受限、高度依賴具體任務(wù),且推理開銷大。更重要的是,它引出一個(gè)根本性問題:
如果模型始終需要外部提醒才知道“看哪兒”,它是否真的理解了視覺世界?
為此,微軟亞洲研究院與清華大學(xué)提出BiPS(Bi-directional Perceptual Shaping),從源頭重塑模型的“看圖方式”。
BiPS不在推理時(shí)臨時(shí)提示關(guān)注區(qū)域,而是在訓(xùn)練階段就教會(huì)模型:面對(duì)特定問題,哪些視覺細(xì)節(jié)必須關(guān)注,哪些可以忽略。通過系統(tǒng)性地對(duì)齊問題與視覺證據(jù),BiPS促使模型內(nèi)化一種核心能力——帶著問題去看圖。因此,在推理時(shí)無需任何額外提示,模型也能自動(dòng)聚焦于真正決定答案的關(guān)鍵區(qū)域與細(xì)節(jié)。
實(shí)驗(yàn)表明,這種“看哪兒”的能力具有跨任務(wù)遷移性,為構(gòu)建更可靠、通用的視覺理解系統(tǒng)開辟了新路徑。
視線錯(cuò)位:VLM的“看”與“想”為何脫節(jié)?
我們常被視覺-語言模型(VLM)行云流水的回答迷惑,以為它真的“看懂”了圖片。但事實(shí)可能是:它識(shí)別出了圖中物體,卻抓錯(cuò)了關(guān)鍵信息。
人類的視覺是目標(biāo)驅(qū)動(dòng)的:?jiǎn)栚厔?shì)就追曲線,問數(shù)值就盯刻度,問關(guān)系就比位置。但當(dāng)前VLM的“看”仍停留在打標(biāo)簽階段,缺乏對(duì)關(guān)鍵證據(jù)的精準(zhǔn)定位能力。它知道圖里有什么,卻不知道該看哪里
為解決這一“視線錯(cuò)位”,學(xué)界常采用視覺證據(jù)引導(dǎo)——通過框選、掩碼或線索提示,為模型的“視線”裝上“準(zhǔn)星”。然而,這種引導(dǎo)式感知存在三重局限:
其一,世界不是矩形的。圖表中的折線拐點(diǎn)、幾何題中的交疊多邊形、醫(yī)學(xué)影像中的彌散病灶……這些關(guān)鍵線索往往是不規(guī)則且彌散的,難以被標(biāo)準(zhǔn)框或掩碼完整覆蓋。裁大引入噪聲,裁小丟失細(xì)節(jié),模型“看”到了區(qū)域,卻依然看錯(cuò)了證據(jù)。
其二,聚焦能力無法遷移。當(dāng)前提示方法多為特定任務(wù)定制,依賴特定數(shù)據(jù)分布或標(biāo)注規(guī)則。模型的感知能力被綁死在任務(wù)專屬的視覺表示上,難以泛化。換一個(gè)任務(wù),就得重教它“怎么看”。
其三,感知被推遲到推理之后。多數(shù)方案將視覺聚焦視為推理鏈中的中間補(bǔ)救步驟,不僅拖慢效率,更讓錯(cuò)誤在后續(xù)推理中滾雪球式放大。
核心挑戰(zhàn)由此浮現(xiàn):如何讓模型學(xué)會(huì)“帶著問題去看圖”?
從“推理時(shí)補(bǔ)救”到“訓(xùn)練時(shí)內(nèi)化”:BiPS的核心轉(zhuǎn)向
![]()
如果問題根源不在“推理不夠聰明”,而在“從第一眼就看錯(cuò)了圖”,是否該換個(gè)思路?
能否不再依賴推理階段的視覺外掛,而是在訓(xùn)練階段,就讓模型真正學(xué)會(huì)識(shí)別什么是“正確的視覺證據(jù)”?
這正是BiPS(Bi-directional Perceptual Shaping)的核心革命。
它不做邊界框、不打掩碼、不調(diào)工具,而是:
把推理階段依賴的視覺提示,提前轉(zhuǎn)化為指導(dǎo)模型“該往哪兒看”的訓(xùn)練信號(hào)。讓模型學(xué)會(huì)本能聚焦關(guān)鍵證據(jù)。
一拉一推:讓模型既“看全”,又“看準(zhǔn)”
BiPS的核心在于一套方向相反、粒度互補(bǔ)的雙重感知塑形機(jī)制:
先把模型的視線“拉”回到所有相關(guān)證據(jù),再“推”它看向真正關(guān)鍵的細(xì)節(jié)。
![]()
“拉”:看少,但看全
真實(shí)問答常依賴分散卻環(huán)環(huán)相扣的視覺證據(jù)鏈——如折線走勢(shì)、圖例顏色、坐標(biāo)刻度與子圖標(biāo)題的組合。
為此,BiPS構(gòu)建Evidence-Preserving View(證據(jù)保留視圖):系統(tǒng)性剔除干擾,僅保留回答必需的視覺元素,寧可粒度粗,也不遺漏關(guān)鍵。
模型需基于這種“信息更少但結(jié)構(gòu)完整”的視圖,輸出與原始圖像一致的答案。
這一過程將模型從噪聲與偏見中拉回,使其回答錨定于完整的證據(jù)鏈。
“推”:看對(duì)關(guān)鍵細(xì)節(jié)
“看全”只是起點(diǎn)。若模型僅模糊定位相關(guān)區(qū)域,仍可能依賴語言先驗(yàn)或統(tǒng)計(jì)偏見作答。
BiPS引入Evidence-Ablated View(證據(jù)消融視圖):精準(zhǔn)移除決定答案的關(guān)鍵細(xì)節(jié)(如某條折線)。這類改動(dòng)視覺上微小,卻足以顛覆答案。
此時(shí)訓(xùn)練目標(biāo)反轉(zhuǎn):一旦關(guān)鍵證據(jù)消失,模型必須拒絕原答案。
這是一種反事實(shí)約束——任何繞過關(guān)鍵視覺證據(jù)的“替代推理”都應(yīng)失效。
協(xié)同塑形感知
“拉”與“推”構(gòu)成遞進(jìn)流程:
- “拉”確保回答基于完整、必要的視覺證據(jù);
- “推”迫使模型識(shí)別不可替代的細(xì)粒度線索。
二者協(xié)同,推動(dòng)模型從表面關(guān)聯(lián)走向因果一致的證據(jù)依賴,學(xué)會(huì)像人類一樣“帶著問題看世界”。
圖表是最好的老師:用精確證據(jù),教會(huì)模型“看哪里”
當(dāng)BiPS把“看準(zhǔn)”作為訓(xùn)練目標(biāo)后,一個(gè)現(xiàn)實(shí)問題隨之而來:
那些精細(xì)又緊扣問題的視覺證據(jù),到底從哪兒來?
圖表是極佳的訓(xùn)練起點(diǎn):它們以多子圖、細(xì)折線、小標(biāo)記與精確刻度等,構(gòu)成了高密度、高信息量的視覺場(chǎng)景。這些微小元素往往是解題的關(guān)鍵線索,提供了豐富且細(xì)粒度的感知材料
更重要的是,圖表中的視覺證據(jù)是可控的。每個(gè)元素都可被程序化地添加、移除或遮蔽,并能直接驗(yàn)證其對(duì)答案的影響,從而能夠以程序化的方式,準(zhǔn)確構(gòu)建“證據(jù)保留”與“證據(jù)消融”的對(duì)照視圖。
因此,在BiPS的訓(xùn)練體系中,圖表是一個(gè)高復(fù)雜度、高度可控的實(shí)驗(yàn)場(chǎng):既足夠復(fù)雜以提供真實(shí)的細(xì)粒度證據(jù),又足夠可控以精準(zhǔn)操縱這些證據(jù)。模型在此學(xué)習(xí)的,并非解讀圖表,而是在復(fù)雜視覺場(chǎng)景中,學(xué)會(huì)將注意力聚焦于與問題真正相關(guān)的局部線索
13K訓(xùn)練樣本,8個(gè)基準(zhǔn):一次“小數(shù)據(jù)”的能力遷移
BiPS展示出了一種高效而穩(wěn)定的訓(xùn)練范式。僅用13K條圖表樣本對(duì)基礎(chǔ)模型進(jìn)行微調(diào),無需人工標(biāo)注,也未針對(duì)不同任務(wù)定制專門工具或模板。訓(xùn)練目標(biāo)單一明確:學(xué)會(huì)“問題指哪,就看哪”的視覺邏輯
![]()
效果顯著:在8個(gè)不同的評(píng)測(cè)基準(zhǔn)上,模型均實(shí)現(xiàn)了一致且顯著的性能提升,涵蓋:
- 真實(shí)圖表理解(如CharXiv)
- 圖像驅(qū)動(dòng)的數(shù)理邏輯推理(如MathVision)
- 通用視覺問答(如MMStar)
以Qwen2.5-VL-7B為基礎(chǔ)模型,BiPS帶來了平均準(zhǔn)確率+7.3%的提升,這一提升并非集中在某一特定領(lǐng)域,而是跨越數(shù)據(jù)分布、跨越任務(wù)類型的全面進(jìn)步。
即便在推理能力已高度強(qiáng)化的Qwen3-VL-8B-Thinking上,這一效果依然成立:
CharXiv:53.0→58.1;MathVision:62.7→63.9;MMStar:75.3→76.3
這些結(jié)果表明,BiPS學(xué)到的不是“圖表特有的解題技巧”,而是一種可遷移的“看對(duì)地方”的能力
學(xué)會(huì)“看對(duì)地方”:邁向通用智能的關(guān)鍵一步
真正的視覺智能不僅是“看到”,更是在復(fù)雜信息中,聚焦于與問題相關(guān)的關(guān)鍵證據(jù)
BiPS實(shí)現(xiàn)的并非簡(jiǎn)單的技巧優(yōu)化,而是一種根本性的能力轉(zhuǎn)變:使模型的視覺注意力從被動(dòng)、均勻的掃視,轉(zhuǎn)變?yōu)橹鲃?dòng)、問題驅(qū)動(dòng)的精準(zhǔn)聚焦
這無疑是通向通用視覺智能的關(guān)鍵一步,其核心在于:讓模型的眼睛,真正看向問題的關(guān)鍵。
論文鏈接:
https://arxiv.org/abs/2512.22120
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.