<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      AI看圖一本正經(jīng)胡說八道?「一拉一推」讓模型看得全又準(zhǔn)

      0
      分享至

      • BiPS團(tuán)隊(duì) 投稿
        量子位 | 公眾號(hào) QbitAI

      隨著視覺-語言模型(VLM)推理能力不斷增強(qiáng),一個(gè)隱蔽的問題逐漸浮現(xiàn):

      很多錯(cuò)誤不是推理沒做好,而是“看錯(cuò)了”。

      在復(fù)雜視覺任務(wù)中,模型往往能正確識(shí)別對(duì)象、理解問題,甚至給出完整的推理鏈,卻因捕捉了錯(cuò)誤的視覺證據(jù),得出自信卻錯(cuò)誤的答案。

      現(xiàn)有方法通常在推理階段“指路”——例如生成視覺提示或調(diào)用外部工具,以臨時(shí)對(duì)齊證據(jù)。這類策略雖有效,卻面臨明顯局限:視覺線索形式受限、高度依賴具體任務(wù),且推理開銷大。更重要的是,它引出一個(gè)根本性問題:

      如果模型始終需要外部提醒才知道“看哪兒”,它是否真的理解了視覺世界?

      為此,微軟亞洲研究院與清華大學(xué)提出BiPS(Bi-directional Perceptual Shaping),從源頭重塑模型的“看圖方式”。

      BiPS不在推理時(shí)臨時(shí)提示關(guān)注區(qū)域,而是在訓(xùn)練階段就教會(huì)模型:面對(duì)特定問題,哪些視覺細(xì)節(jié)必須關(guān)注,哪些可以忽略。通過系統(tǒng)性地對(duì)齊問題與視覺證據(jù),BiPS促使模型內(nèi)化一種核心能力——帶著問題去看圖。因此,在推理時(shí)無需任何額外提示,模型也能自動(dòng)聚焦于真正決定答案的關(guān)鍵區(qū)域與細(xì)節(jié)。

      實(shí)驗(yàn)表明,這種“看哪兒”的能力具有跨任務(wù)遷移性,為構(gòu)建更可靠、通用的視覺理解系統(tǒng)開辟了新路徑。

      視線錯(cuò)位:VLM的“看”與“想”為何脫節(jié)?

      我們常被視覺-語言模型(VLM)行云流水的回答迷惑,以為它真的“看懂”了圖片。但事實(shí)可能是:它識(shí)別出了圖中物體,卻抓錯(cuò)了關(guān)鍵信息。

      人類的視覺是目標(biāo)驅(qū)動(dòng)的:?jiǎn)栚厔?shì)就追曲線,問數(shù)值就盯刻度,問關(guān)系就比位置。但當(dāng)前VLM的“看”仍停留在打標(biāo)簽階段,缺乏對(duì)關(guān)鍵證據(jù)的精準(zhǔn)定位能力。它知道圖里有什么,卻不知道該看哪里

      為解決這一“視線錯(cuò)位”,學(xué)界常采用視覺證據(jù)引導(dǎo)——通過框選、掩碼或線索提示,為模型的“視線”裝上“準(zhǔn)星”。然而,這種引導(dǎo)式感知存在三重局限:

      其一,世界不是矩形的。圖表中的折線拐點(diǎn)、幾何題中的交疊多邊形、醫(yī)學(xué)影像中的彌散病灶……這些關(guān)鍵線索往往是不規(guī)則且彌散的,難以被標(biāo)準(zhǔn)框或掩碼完整覆蓋。裁大引入噪聲,裁小丟失細(xì)節(jié),模型“看”到了區(qū)域,卻依然看錯(cuò)了證據(jù)。

      其二,聚焦能力無法遷移。當(dāng)前提示方法多為特定任務(wù)定制,依賴特定數(shù)據(jù)分布或標(biāo)注規(guī)則。模型的感知能力被綁死在任務(wù)專屬的視覺表示上,難以泛化。換一個(gè)任務(wù),就得重教它“怎么看”。

      其三,感知被推遲到推理之后。多數(shù)方案將視覺聚焦視為推理鏈中的中間補(bǔ)救步驟,不僅拖慢效率,更讓錯(cuò)誤在后續(xù)推理中滾雪球式放大。

      核心挑戰(zhàn)由此浮現(xiàn):如何讓模型學(xué)會(huì)“帶著問題去看圖”?

      從“推理時(shí)補(bǔ)救”到“訓(xùn)練時(shí)內(nèi)化”:BiPS的核心轉(zhuǎn)向



      如果問題根源不在“推理不夠聰明”,而在“從第一眼就看錯(cuò)了圖”,是否該換個(gè)思路?

      能否不再依賴推理階段的視覺外掛,而是在訓(xùn)練階段,就讓模型真正學(xué)會(huì)識(shí)別什么是“正確的視覺證據(jù)”?

      這正是BiPS(Bi-directional Perceptual Shaping)的核心革命。

      它不做邊界框、不打掩碼、不調(diào)工具,而是:

      把推理階段依賴的視覺提示,提前轉(zhuǎn)化為指導(dǎo)模型“該往哪兒看”的訓(xùn)練信號(hào)。讓模型學(xué)會(huì)本能聚焦關(guān)鍵證據(jù)。

      一拉一推:讓模型既“看全”,又“看準(zhǔn)”

      BiPS的核心在于一套方向相反、粒度互補(bǔ)的雙重感知塑形機(jī)制:

      先把模型的視線“拉”回到所有相關(guān)證據(jù),再“推”它看向真正關(guān)鍵的細(xì)節(jié)。



      “拉”:看少,但看全

      真實(shí)問答常依賴分散卻環(huán)環(huán)相扣的視覺證據(jù)鏈——如折線走勢(shì)、圖例顏色、坐標(biāo)刻度與子圖標(biāo)題的組合。

      為此,BiPS構(gòu)建Evidence-Preserving View(證據(jù)保留視圖):系統(tǒng)性剔除干擾,僅保留回答必需的視覺元素,寧可粒度粗,也不遺漏關(guān)鍵。

      模型需基于這種“信息更少但結(jié)構(gòu)完整”的視圖,輸出與原始圖像一致的答案。

      這一過程將模型從噪聲與偏見中拉回,使其回答錨定于完整的證據(jù)鏈。

      “推”:看對(duì)關(guān)鍵細(xì)節(jié)

      “看全”只是起點(diǎn)。若模型僅模糊定位相關(guān)區(qū)域,仍可能依賴語言先驗(yàn)或統(tǒng)計(jì)偏見作答。

      BiPS引入Evidence-Ablated View(證據(jù)消融視圖):精準(zhǔn)移除決定答案的關(guān)鍵細(xì)節(jié)(如某條折線)。這類改動(dòng)視覺上微小,卻足以顛覆答案。

      此時(shí)訓(xùn)練目標(biāo)反轉(zhuǎn):一旦關(guān)鍵證據(jù)消失,模型必須拒絕原答案。

      這是一種反事實(shí)約束——任何繞過關(guān)鍵視覺證據(jù)的“替代推理”都應(yīng)失效。

      協(xié)同塑形感知

      “拉”與“推”構(gòu)成遞進(jìn)流程:

      • “拉”確保回答基于完整、必要的視覺證據(jù);
      • “推”迫使模型識(shí)別不可替代的細(xì)粒度線索。

      二者協(xié)同,推動(dòng)模型從表面關(guān)聯(lián)走向因果一致的證據(jù)依賴,學(xué)會(huì)像人類一樣“帶著問題看世界”。

      圖表是最好的老師:用精確證據(jù),教會(huì)模型“看哪里”

      當(dāng)BiPS把“看準(zhǔn)”作為訓(xùn)練目標(biāo)后,一個(gè)現(xiàn)實(shí)問題隨之而來:

      那些精細(xì)又緊扣問題的視覺證據(jù),到底從哪兒來?

      圖表是極佳的訓(xùn)練起點(diǎn):它們以多子圖、細(xì)折線、小標(biāo)記與精確刻度等,構(gòu)成了高密度、高信息量的視覺場(chǎng)景。這些微小元素往往是解題的關(guān)鍵線索,提供了豐富且細(xì)粒度的感知材料

      更重要的是,圖表中的視覺證據(jù)是可控的。每個(gè)元素都可被程序化地添加、移除或遮蔽,并能直接驗(yàn)證其對(duì)答案的影響,從而能夠以程序化的方式,準(zhǔn)確構(gòu)建“證據(jù)保留”與“證據(jù)消融”的對(duì)照視圖。

      因此,在BiPS的訓(xùn)練體系中,圖表是一個(gè)高復(fù)雜度、高度可控的實(shí)驗(yàn)場(chǎng):既足夠復(fù)雜以提供真實(shí)的細(xì)粒度證據(jù),又足夠可控以精準(zhǔn)操縱這些證據(jù)。模型在此學(xué)習(xí)的,并非解讀圖表,而是在復(fù)雜視覺場(chǎng)景中,學(xué)會(huì)將注意力聚焦于與問題真正相關(guān)的局部線索

      13K訓(xùn)練樣本,8個(gè)基準(zhǔn):一次“小數(shù)據(jù)”的能力遷移

      BiPS展示出了一種高效而穩(wěn)定的訓(xùn)練范式。僅用13K條圖表樣本對(duì)基礎(chǔ)模型進(jìn)行微調(diào),無需人工標(biāo)注,也未針對(duì)不同任務(wù)定制專門工具或模板。訓(xùn)練目標(biāo)單一明確:學(xué)會(huì)“問題指哪,就看哪”的視覺邏輯



      效果顯著:在8個(gè)不同的評(píng)測(cè)基準(zhǔn)上,模型均實(shí)現(xiàn)了一致且顯著的性能提升,涵蓋:

      • 真實(shí)圖表理解(如CharXiv)
      • 圖像驅(qū)動(dòng)的數(shù)理邏輯推理(如MathVision)
      • 通用視覺問答(如MMStar)

      以Qwen2.5-VL-7B為基礎(chǔ)模型,BiPS帶來了平均準(zhǔn)確率+7.3%的提升,這一提升并非集中在某一特定領(lǐng)域,而是跨越數(shù)據(jù)分布、跨越任務(wù)類型的全面進(jìn)步。

      即便在推理能力已高度強(qiáng)化的Qwen3-VL-8B-Thinking上,這一效果依然成立:

      CharXiv:53.0→58.1;MathVision:62.7→63.9;MMStar:75.3→76.3

      這些結(jié)果表明,BiPS學(xué)到的不是“圖表特有的解題技巧”,而是一種可遷移的“看對(duì)地方”的能力

      學(xué)會(huì)“看對(duì)地方”:邁向通用智能的關(guān)鍵一步

      真正的視覺智能不僅是“看到”,更是在復(fù)雜信息中,聚焦于與問題相關(guān)的關(guān)鍵證據(jù)

      BiPS實(shí)現(xiàn)的并非簡(jiǎn)單的技巧優(yōu)化,而是一種根本性的能力轉(zhuǎn)變:使模型的視覺注意力從被動(dòng)、均勻的掃視,轉(zhuǎn)變?yōu)橹鲃?dòng)、問題驅(qū)動(dòng)的精準(zhǔn)聚焦

      這無疑是通向通用視覺智能的關(guān)鍵一步,其核心在于:讓模型的眼睛,真正看向問題的關(guān)鍵。

      論文鏈接:

      https://arxiv.org/abs/2512.22120

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      成龍女兒吳卓林結(jié)婚現(xiàn)場(chǎng)曝光,緊握愛人的手,洋溢著甜蜜笑容!

      成龍女兒吳卓林結(jié)婚現(xiàn)場(chǎng)曝光,緊握愛人的手,洋溢著甜蜜笑容!

      娛樂團(tuán)長(zhǎng)
      2026-01-13 15:39:28
      憾負(fù)!布克21+2+9,格林8+3+3,賽后布克走過去,抱住恩比德

      憾負(fù)!布克21+2+9,格林8+3+3,賽后布克走過去,抱住恩比德

      擔(dān)酒
      2026-02-08 12:44:56
      穿沖鋒衣的女村支書,村民說她“穿著扶貧,直播賣貨卻真賺了17萬

      穿沖鋒衣的女村支書,村民說她“穿著扶貧,直播賣貨卻真賺了17萬

      網(wǎng)絡(luò)易不易
      2026-02-08 13:38:24
      35比50!中美代表都不簽,馬斯克突然通告媒體,美國恐將輸給中國

      35比50!中美代表都不簽,馬斯克突然通告媒體,美國恐將輸給中國

      阿芒娛樂說
      2026-02-08 14:17:36
      徐子淇陪李家誠出席晚宴,穿米黃色套裝端莊大氣,臉型圓潤(rùn)很富態(tài)

      徐子淇陪李家誠出席晚宴,穿米黃色套裝端莊大氣,臉型圓潤(rùn)很富態(tài)

      瘋說時(shí)尚
      2026-02-07 16:32:01
      74歲張菲,一筆賺5億。

      74歲張菲,一筆賺5億。

      果媽聊軍事
      2026-02-05 17:26:04
      乒乓亞洲杯!女單8強(qiáng)對(duì)陣出爐,王曼昱強(qiáng)勢(shì)橫掃,孫穎莎連續(xù)硬戰(zhàn)

      乒乓亞洲杯!女單8強(qiáng)對(duì)陣出爐,王曼昱強(qiáng)勢(shì)橫掃,孫穎莎連續(xù)硬戰(zhàn)

      花漾夜雨飄雪
      2026-02-07 16:32:36
      吳桂賢為何好命?大起大落的人生之路,守住良知底線

      吳桂賢為何好命?大起大落的人生之路,守住良知底線

      混沌錄
      2026-01-29 23:47:04
      許家印害慘3位女人:1個(gè)虧百億、1個(gè)被全球追債,白珊珊最冤

      許家印害慘3位女人:1個(gè)虧百億、1個(gè)被全球追債,白珊珊最冤

      社會(huì)日日鮮
      2026-02-07 13:01:20
      隨著維拉1-1,曼聯(lián)2-0,阿森納3-0,切爾西3-1,英超最新積分榜出爐

      隨著維拉1-1,曼聯(lián)2-0,阿森納3-0,切爾西3-1,英超最新積分榜出爐

      側(cè)身凌空斬
      2026-02-08 05:50:33
      新一輪雨雪來襲,超8省降雪,南方局地凍雨,除夕還有大范圍雨雪

      新一輪雨雪來襲,超8省降雪,南方局地凍雨,除夕還有大范圍雨雪

      老牛講
      2026-02-08 13:21:05
      女籃鄧圣潔去世!年僅20歲,早晚都喝酒胸口刺青,好友曝死因!

      女籃鄧圣潔去世!年僅20歲,早晚都喝酒胸口刺青,好友曝死因!

      古希臘掌管松餅的神
      2026-02-07 14:16:55
      出大事了,轟炸機(jī)直逼東京,日本投票結(jié)果出來了,或迎首個(gè)核武器

      出大事了,轟炸機(jī)直逼東京,日本投票結(jié)果出來了,或迎首個(gè)核武器

      小舟談歷史
      2025-12-21 07:19:54
      如果父母從來不打罵孩子,都是溫柔引導(dǎo),孩子的性格會(huì)非常好嗎?

      如果父母從來不打罵孩子,都是溫柔引導(dǎo),孩子的性格會(huì)非常好嗎?

      夜深愛雜談
      2026-02-07 18:28:31
      日專家矢野義昭:若中日戰(zhàn)爭(zhēng)爆發(fā),日本絕不會(huì)成為第二個(gè)烏克蘭。

      日專家矢野義昭:若中日戰(zhàn)爭(zhēng)爆發(fā),日本絕不會(huì)成為第二個(gè)烏克蘭。

      百態(tài)人間
      2026-02-06 15:29:20
      魯迅跟國民黨當(dāng)局唱了多年的對(duì)臺(tái)戲,為何始終沒被逮捕或遭暗殺?

      魯迅跟國民黨當(dāng)局唱了多年的對(duì)臺(tái)戲,為何始終沒被逮捕或遭暗殺?

      小豫講故事
      2026-02-07 06:00:13
      三名院士代表突然罷免,國防科工系統(tǒng)出大事了?究竟發(fā)生了什么?

      三名院士代表突然罷免,國防科工系統(tǒng)出大事了?究竟發(fā)生了什么?

      紀(jì)中百大事
      2026-02-07 19:48:52
      煙酒不沾壽命更短?國內(nèi)研究:不抽煙、不喝酒,可延長(zhǎng)國人壽命

      煙酒不沾壽命更短?國內(nèi)研究:不抽煙、不喝酒,可延長(zhǎng)國人壽命

      鬼菜生活
      2026-02-08 15:03:02
      西方國家對(duì)印度特別慷慨,為什么印度軍隊(duì)中俄羅斯武器占主場(chǎng)?

      西方國家對(duì)印度特別慷慨,為什么印度軍隊(duì)中俄羅斯武器占主場(chǎng)?

      莫地方
      2026-02-08 15:18:44
      出口突破832萬輛,究竟是誰在狂買中國車?

      出口突破832萬輛,究竟是誰在狂買中國車?

      牲產(chǎn)隊(duì)
      2026-02-05 19:16:07
      2026-02-08 16:19:00
      量子位 incentive-icons
      量子位
      追蹤人工智能動(dòng)態(tài)
      12137文章數(shù) 176374關(guān)注度
      往期回顧 全部

      科技要聞

      歐盟認(rèn)定存在"上癮"設(shè)計(jì) TikTok:結(jié)論錯(cuò)誤

      頭條要聞

      湖北省委原書記蔣超良再被點(diǎn)名:為官莫喝“迷魂湯”

      頭條要聞

      湖北省委原書記蔣超良再被點(diǎn)名:為官莫喝“迷魂湯”

      體育要聞

      銅牌與蘇翊鳴的這四年,他說:我對(duì)得起自己

      娛樂要聞

      曝帶女星回老家小區(qū),羅云熙緊急回應(yīng)

      財(cái)經(jīng)要聞

      金銀震蕩144小時(shí) 大爺大媽排隊(duì)「抄底」

      汽車要聞

      VLA司機(jī)大模型優(yōu)化 理想汽車OTA8.3版本更新

      態(tài)度原創(chuàng)

      本地
      游戲
      時(shí)尚
      公開課
      軍事航空

      本地新聞

      圍觀了北京第一屆黑色羽絨服大賽,我笑瘋了

      2月13日XGP玩家享福了!爽玩高能人生2、天國拯救

      40+女性冬季這樣穿:“長(zhǎng)外套+裙子”,保暖與洋氣雙向在線

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      捐錢造航母的男孩登上軍艦

      無障礙瀏覽 進(jìn)入關(guān)懷版