<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      精準識別界門綱目科屬種!北大彭宇新團隊用細粒度樹先驗提升泛化

      0
      分享至

      MIPL團隊 投稿
      量子位 | 公眾號 QbitAI

      一張藍錐嘴雀的圖片,你能認出它是“鳥”,但能認出它是“鳥綱-雀形目-唐納雀科-錐嘴雀屬-藍錐嘴雀”嗎?

      像大多數人一樣,現在的多模態大模型也認不出來。



      真實世界中的對象通常包含極其豐富的類別層次,形成類別樹結構。比如藍錐嘴雀是:動物界-脊索動物門-鳥綱-雀形目-唐納雀科-錐嘴雀屬-藍錐嘴雀(界-門-綱-目-科-屬-種)。

      區別于傳統的細粒度視覺識別,分層視覺識別旨在預測所屬的所有類別層次,而不僅僅預測最終的細粒度類別。盡管現有Finedefics、Fine-R1等生成式大模型在細粒度視覺識別任務上表現出色,但由于缺乏類別樹知識,無法從粗到細實現每一層的精準識別。

      同時,采用分層類別標簽對比學習得到的判別式大模型(如BioCLIP、BioCLIP2、BioCAP等),其表征空間已能充分編碼類別樹中的類間關系與類內關系?;谏鲜霭l現,本文利用判別式大模型的表征指導生成式大模型的學習,為多模態大模型學習類別樹提供了新路徑。



      本文是北京大學彭宇新教授團隊在細粒度多模態大模型領域的最新研究成果,相關論文已被CVPR 2026接收,并已開源

      背景

      盡管現有多模態大模型在細粒度視覺識別上的準確率取得明顯提升,但在依賴類別樹知識的分層視覺識別任務上,仍無法從粗到細實現每一層的精準識別。具體地,存在如下3點挑戰:

      1. 同層判別性差:對于更粗粒度的類別層次,“類內差異大”更加突出,模型傾向于學習類別共性;對于更細粒度的類別層次,“類間差異小”更加突出,模型傾向于學習類別差異。兩者的矛盾導致模型難以從粗到細區分每一層的相似類別

      2. 跨層一致性差:由于模型缺乏類別樹知識,難以保證任意相鄰層次的預測類別滿足父子節點關系。例如,預測結果為“鸚鵡目-裸鼻雀科”,但兩者不滿足父子節點關系,“裸鼻雀科”應該屬于“雀形目”。

      3. 新類泛化性差:現有模型傾向于挖掘不同細粒度子類別的差異,忽略了對其共性的總結(用于識別其父節點的辨識性特征),難以準確識別從未見過的新類別。



      △圖1. 研究背景

      針對上述問題,北京大學彭宇新教授團隊提出了分類感知表征對齊方法(Taxonomy-Aware Representation Alignment,TARA),用于將類別樹結構知識注入多模態大模型。通過將大模型與生物基礎模型的視覺表征對齊,促進大模型提取具備完整類別樹結構的視覺表征。同時,通過將大模型輸出答案的首個詞元表征與經生物基礎模型編碼后的真實類別表征對齊,促進大模型根據指定的層次,將具備完整類別樹結構的視覺表征映射為對應層次的類別名稱。

      實驗結果表明,本方法不僅能增強現有大模型的細粒度視覺識別能力,提升最終的細粒度類別的識別準確率,還能增強分層視覺識別能力,從粗到細提升類別樹上每一層的識別準確率。

      技術方案

      為向多模態大模型注入類別樹結構知識,本文提出了分類感知表征對齊方法TARA。如圖2所示,TARA包含2個主要部分:

      1. 分層視覺表征對齊:通過將大模型中間層與生物基礎模型最后一層的視覺表征對齊,促進大模型提取具備完整類別樹結構的視覺表征。

      2. 自由粒度類別表征對齊:通過將大模型輸出答案的首個詞元表征與經生物基礎模型編碼后的真實類別表征對齊,促進大模型根據指定的層次,將具備完整類別樹結構的視覺表征映射為對應層次的類別名稱。

      具體如下:



      △圖2. 分類感知表征對齊方法(TARA)框架圖

      1. 分層視覺表征對齊。

      經分層類別標簽訓練的生物基礎模型(例如, BioCLIP、BioCLIP2、BioCAP等)能提供包含分類學信息的監督信號,促進大模型提取具備完整類別樹結構的視覺表征。具體地,給定輸入圖像I和識別特定層次類別的問題q(例如,“圖中動物屬于什么門/綱/目/科/屬/種?從如下選項中選擇:[真實類別,相似類別1,相似類別2,相似類別3]”),生物基礎模型的視覺編碼器εv(·)輸出目標視覺特征img=εv(I)∈RN×d,其中d表示生物基礎模型的特征維度。大語言模型第?層的視覺表征表示為?img∈RN×D,采用可學習的映射層PV(·)將其映射到生物基礎模型的視覺特征空間,并最小化如下對齊損失:



      2. 自由粒度類別表征對齊。

      一張圖像同時對應不同層次的類別標簽,但用戶期望識別的類別層次是不同的。例如,專家可能希望在“種”層次上將對象識別為阿卡迪亞霸鹟,而普通用戶只需要在“綱”層次上將其識別為鳥。通過在同一層次上對齊生物基礎模型和大模型的類別文本表征,促進大模型將具備完整類別樹結構的視覺表征映射為對應層次的類別名稱。具體地,生物基礎模型的文本編碼器ET(·)輸出目標文本特征ylabel=ET(C)∈Rd,其中C表示在期望層次上的真實類別名稱。大語言模型第m層的答案表征序列表示為emanswer∈RN′×D,采用可學習的映射層PT(·)將答案的首個詞元表征映射到生物基礎模型的文本特征空間,并最小化如下對齊損失:



      最終,TARA的對齊損失定義為兩者的均值:

      3. 模型訓練和推理:

      在訓練階段,采用無需思考的強化微調(No Thinking RFT)和TARA交替優化大模型、映射層PV(·)與PT(·),促進大模型適配分層視覺識別指令的同時學習類別樹知識。在推理階段,生物基礎模型和映射層PV(·)與PT(·)均不參與運算,直接由優化后的大模型進行識別。

      實驗結果



      △表1. iNaturalist-Plant與iNaturalist-Animal分層視覺識別結果

      表1展示了在iNaturalist-Plant與iNaturalist-Animal上的分層視覺識別結果。本方法不僅能增強多種大模型的細粒度視覺識別能力,提升最終的細粒度類別的識別準確率,還能增強分層視覺識別能力,從粗到細提升類別樹上每一層的識別準確率。



      △表2. TerraIncognita的新類別(已有類別樹之外的類別)分層視覺識別結果

      表2展示了在TerraIncognita的新類別(已有類別樹之外的類別)的分層視覺識別結果。這部分新類別不僅是模型強化微調訓練集中未見類別,更是稀有或記錄極少的物種圖像,在公開數據中幾乎沒有或完全沒有可用樣本,更不可能出現在模型的預訓練數據中

      對于其中許多樣本,很可能是科學界尚未正式描述的新物種,目前只能可靠地確定其較高層次的分類標簽(如“目”和“科”)。本方法通過引入類別樹先驗,促進模型學習子類別的共性,從而總結出用于識別父類別的判別性特征,提升已知類別樹之外的新類別的識別準確率。



      △圖3. 分類感知表征對齊方法(TARA)案例展示

      圖3的案例展示表明,相比阿里的Qwen3-VL-2B大模型,本方法能提升同層判別性與跨層一致性,既區分開同一層的相似類別,又確保相鄰層次的預測類別滿足父子節點關系。

      項目價值

      針對現有多模態大模型缺乏類別樹知識,無法從粗到細實現每一層的精準識別的問題,本文提出了分類感知表征對齊方法TARA,通過對齊大模型與生物基礎模型的中間表征,注入類別樹結構知識,不僅能提升最終的細粒度類別的識別準確率,還能增強大模型的分層視覺識別能力,從粗到細提升類別樹上每一層的識別準確率。

      論文標題:
      Taxonomy-Aware Representation Alignment for Hierarchical Visual Recognition with Large Multimodal Models
      論文鏈接:
      https://arxiv.org/abs/2603.00431
      開源代碼:
      https://github.com/PKU-ICST-MIPL/TARA_CVPR2026
      實驗室網址:
      https://www.wict.pku.edu.cn/mipl

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      17+11!楊瀚森大帽富爾茨!這可是NBA狀元秀

      17+11!楊瀚森大帽富爾茨!這可是NBA狀元秀

      籃球實戰寶典
      2026-03-21 12:02:21
      扎心了!中國男性死亡中位數67歲,剛退休就離場,養老金虧大了?

      扎心了!中國男性死亡中位數67歲,剛退休就離場,養老金虧大了?

      烏娛子醬
      2026-03-20 10:51:20
      一臺造夢,一臺賺錢,蘋果 50 周年還藏了兩臺新 iPhone

      一臺造夢,一臺賺錢,蘋果 50 周年還藏了兩臺新 iPhone

      愛范兒
      2026-03-20 19:48:12
      鬧大了!路虎別車事件再反轉!當事人信息遭泄露,警方再發通報!

      鬧大了!路虎別車事件再反轉!當事人信息遭泄露,警方再發通報!

      奇思妙想草葉君
      2026-03-20 14:45:59
      匈牙利大選為何會成為全球焦點?兩大陣營生死對決

      匈牙利大選為何會成為全球焦點?兩大陣營生死對決

      史政先鋒
      2026-03-21 12:25:57
      殲20總師被除名:長期領導軍工央企,最近照流出,事發全過程披露

      殲20總師被除名:長期領導軍工央企,最近照流出,事發全過程披露

      博士觀察
      2026-03-20 21:41:54
      不是李夢!馳援女籃世界杯第1人或是她,21歲前鋒,有望取代功勛

      不是李夢!馳援女籃世界杯第1人或是她,21歲前鋒,有望取代功勛

      萌蘭聊個球
      2026-03-21 09:52:17
      西方軍事專家:只有吉爾吉斯斯坦知道,中國早就是最強超級大國了

      西方軍事專家:只有吉爾吉斯斯坦知道,中國早就是最強超級大國了

      皇朝冰酷
      2026-03-21 17:49:34
      美國已被奪舍,我們是下一個?

      美國已被奪舍,我們是下一個?

      美第奇效應
      2026-03-21 01:50:29
      又投中7個三分!抱歉戈登:你的NBA紀錄要不保了

      又投中7個三分!抱歉戈登:你的NBA紀錄要不保了

      籃球大視野
      2026-03-21 15:35:41
      風向驟變!以德為首的西方國家齊發聲:中國已在換電關鍵領域崛起

      風向驟變!以德為首的西方國家齊發聲:中國已在換電關鍵領域崛起

      聚焦最新動態
      2026-03-21 13:02:00
      0-3慘??!中超頭號降級熱門出爐:3輪不勝0進球負9分,給海牛墊底

      0-3慘?。≈谐^號降級熱門出爐:3輪不勝0進球負9分,給海牛墊底

      球場沒跑道
      2026-03-21 18:09:48
      2026年交警正式更名交管!不止換稱呼,罰單、停車、換駕照全變了

      2026年交警正式更名交管!不止換稱呼,罰單、停車、換駕照全變了

      混沌錄
      2026-03-20 21:00:04
      爽,公司全員裁撤,就地解散!

      爽,公司全員裁撤,就地解散!

      黯泉
      2026-03-21 12:20:16
      美媒:抱歉了殲-20與殲-35A,F-22和F-35將繼續主宰天空

      美媒:抱歉了殲-20與殲-35A,F-22和F-35將繼續主宰天空

      零度Military
      2026-03-21 07:00:05
      阿里巴巴2025年裁員超6.6萬人?

      阿里巴巴2025年裁員超6.6萬人?

      芯智訊
      2026-03-21 11:06:56
      看了新加坡媒體的披露,我才知道,中國已經沒必要向世界證明什么

      看了新加坡媒體的披露,我才知道,中國已經沒必要向世界證明什么

      觸摸史跡
      2026-03-21 02:58:06
      福建寧德一派出所教導員辦公室猥褻15歲女生,一審被判2年9個月,家屬欲申請抗訴

      福建寧德一派出所教導員辦公室猥褻15歲女生,一審被判2年9個月,家屬欲申請抗訴

      大風新聞
      2026-03-21 11:58:12
      伊朗戰爭最黑暗的終局正在襲來

      伊朗戰爭最黑暗的終局正在襲來

      荷蘭豆愛健康
      2026-03-21 08:27:54
      15分大逆轉!北京男籃力克遼寧,趙睿34分大爆發,趙繼偉26分!

      15分大逆轉!北京男籃力克遼寧,趙睿34分大爆發,趙繼偉26分!

      中國籃壇快訊
      2026-03-21 21:36:20
      2026-03-21 21:55:00
      量子位 incentive-icons
      量子位
      追蹤人工智能動態
      12320文章數 176418關注度
      往期回顧 全部

      科技要聞

      宇樹招股書拆解,人形機器人出貨量第一!

      頭條要聞

      軍事專家推演美軍奪取哈爾克島的三種可能:步步驚心

      頭條要聞

      軍事專家推演美軍奪取哈爾克島的三種可能:步步驚心

      體育要聞

      誰在決定字母哥未來?

      娛樂要聞

      田栩寧終于涼了?出軌風波影響惡劣

      財經要聞

      通脹警報拉響,加息潮要來了?

      汽車要聞

      小鵬汽車2025年Q4盈利凈賺3.8億 全年營收767億

      態度原創

      藝術
      旅游
      房產
      數碼
      公開課

      藝術要聞

      法國女人就這樣誘惑了全世界的男人...

      旅游要聞

      現實版“千里江山圖”原來出自雅安名山

      房產要聞

      全城狂送1000杯咖啡!網易房產【早C計劃】,即刻啟動!

      數碼要聞

      存儲芯片短缺困境難以緩解,專家稱電腦手機或漲超20%

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版