<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      北大王選所彭宇新團隊:讓多模態大模型學會「看懂物種關系」丨CVPR 2026

      0
      分享至


      TARA:融合生物知識與視覺特征,提升模型推理能力。

      作者丨鄭佳美

      編輯丨岑 峰

      近年來,多模態大模型的發展正在不斷推動視覺理解能力的提升。從圖像分類、目標檢測到視覺問答等任務,視覺系統已經能夠在多種場景中實現較高水平的識別和推理能力。然而,在更復雜的層級視覺識別任務中,現有模型仍然存在明顯不足。

      現實世界中的許多視覺概念天然具有層級結構,例如生物分類體系中的“界—門—綱—目—科—屬—種”,以及商品分類、醫學診斷等領域中的多層級標簽體系。這類任務不僅要求模型識別具體類別,還需要理解不同類別之間的層級關系和語義結構。但目前多數視覺模型仍然基于扁平分類框架進行訓練,在進行層級預測時容易出現分類路徑不一致或層級關系沖突等問題。

      與此同時,在開放世界環境中,視覺模型還需要具備識別未知類別的能力。以生物識別任務為例,現實世界中的物種數量遠遠超過現有數據集的覆蓋范圍,新的物種仍在不斷被發現。

      當模型面對訓練數據中未出現的類別時,往往難以進行合理推斷。如何利用已有知識幫助模型理解類別之間的層級結構,并在有限數據條件下推斷未知類別,逐漸成為當前視覺智能研究中的重要問題。

      在這一背景下,北大王選所的彭宇新團隊在論文《Taxonomy-Aware Representation Alignment for Hierarchical Visual Recognition with Large Multimodal Models》中提出了一種新的方法 TARA。

      他們通過引入生物基礎模型中的分類學知識,并將其與多模態模型的中間表征進行對齊,使模型能夠學習到具有層級結構的視覺表示,從而提升模型在層級視覺識別任務中的一致性表現,并增強其在未知類別識別任務中的泛化能力。


      論文地址:https://arxiv.org/pdf/2603.00431

      01


      TARA 讓多模態模型更懂「層級關系」

      實驗團隊通過在多個數據集和多種評價指標下開展實驗,對提出的 TARA(Taxonomy-Aware Representation Alignment)方法在層級視覺識別任務中的有效性進行了驗證。

      首先,在已知類別識別能力方面,研究在 iNaturalist-2021(iNat21)數據集上進行了實驗。該數據集包含大量具有層級分類結構的生物圖像,并劃分為植物和動物兩個子數據集。實驗結果表明,在引入 TARA 方法之后,模型在多個評價指標上均獲得明顯提升。

      在 iNat21-Plant 數據集上,Qwen3-VL-2B 基礎模型在經過強化學習微調后,層級一致性準確率(HCA)由 9.23% 提升到 12.78%,葉節點準確率(Accleaf)由 31.96% 提升到 32.66%,同時 POR、S-POR 和 TOR 等層級評價指標也分別提升約 3% 至 6%。

      在 iNat21-Animal 數據集上,HCA 由 8.57%提升到 10.26%,Accleaf 由 29.32% 提升到 30.77%,其他層級指標也均呈現提升趨勢。對于規模更大的 Qwen2.5-VL-3B 模型,在植物數據集上的 HCA 提升至 19.53%,在動物數據集上的 HCA 提升至 24.02%,各項指標均持續提高。以上結果表明,TARA 方法能夠穩定提升不同規模多模態模型在層級分類任務中的整體性能。


      其次,在未知類別識別能力方面,研究團隊為了驗證模型是否真正學習到分類學知識,而非僅僅記憶訓練類別,在 TerraIncognita 數據集上進行了測試。該數據集包含大量稀有或未知物種圖像,其中部分物種可能從未出現在訓練數據中。

      實驗結果顯示,在已知類別場景下,Order F1 從 23.30 提升到 41.56,Family F1 從 11.47 提升到 25.47;在未知類別場景下,Order F1 從 23.30 提升到 33.45,Family F1 從 11.47 提升到 12.67。這一結果表明,TARA 不僅提升了模型對已知類別的識別能力,同時也顯著增強了模型在面對未知物種時的泛化能力。


      再次,在模型表征能力方面,研究人員通過線性探針實驗進一步分析了 TARA 對視覺特征表達能力的影響。實驗過程為從模型最后一層提取圖像 token 表征,并利用線性分類器進行訓練,在 iNat21-Plant 數據集上測試分類準確率。實驗結果表明,原始模型的分類準確率為 13.30%,加入強化學習后提升到 14.40%,在進一步引入 TARA 方法之后準確率提升到 18.30%。這一結果說明 TARA 能夠幫助模型學習到更加具有判別力的視覺特征表示。

      此外,在分類型視覺問答任務方面,研究團隊在 ImageWikiQA 數據集上對模型性能進行了測試。該數據集包含基于 ImageNet 圖像的復雜視覺問答任務。實驗結果顯示,基礎模型的準確率為 46.60%,經過強化學習微調后提升到 48.70%,在引入 TARA 方法之后進一步提升到 51.40%。這一結果表明,通過增強層級視覺理解能力,可以進一步提升模型在復雜視覺理解和推理任務中的整體表現。


      最后,在訓練效率方面,研究人員對模型訓練過程中性能變化進行了分析。實驗結果顯示,在訓練早期階段,引入 TARA 的模型性能已經超過基線模型;在相同訓練步數條件下,TARA 模型的 HCA 指標和葉節點準確率均高于未使用該方法的模型,說明這種方法能夠加速模型的訓練收斂過程。同時,由于 TARA 僅增加少量投影層,因此整體計算開銷較小,對訓練效率影響有限。


      02


      從數據到訓練的完整實驗框架

      為了驗證方法的有效性,研究團隊設計了一套完整的實驗流程,其中包括模型訓練方案、數據集構建方式以及評價指標體系的設計。首先在實驗數據集方面,研究人員選取了多個具有代表性的公開數據集進行實驗。

      其中 iNaturalist-2021(iNat21)是一個大規模生物圖像數據集,包含完整的生物分類體系。該數據集包含兩個子集,其中 Plant 子集包含 4271 個物種類別,Animal 子集包含 5388 個物種類別。數據集中每個樣本都具有六級分類結構,即 Kingdom、Phylum、Class、Order、Family 和 Species 六個層級,因此非常適合用于層級視覺識別研究。

      除了 iNat21 數據集之外,研究團隊還使用了 TerraIncognita 數據集來測試模型在開放世界環境下的識別能力。該數據集包含來自中美洲和南美洲生物多樣性熱點地區的昆蟲圖像,其中許多物種缺乏公開圖像數據,并且部分物種可能尚未被科學界正式記錄,因此能夠用于評估模型在未知類別識別任務中的表現。

      與此同時,研究人員還使用 ImageWikiQA 數據集對模型在復雜視覺問答任務中的表現進行測試。該數據集中的問題涉及真實世界知識,需要模型同時完成圖像理解和知識推理,從而能夠檢驗模型在復雜視覺理解場景中的能力。

      在基礎模型選擇方面,研究人員采用 Qwen 系列多模態模型作為實驗基礎模型,包括 Qwen3-VL-2B-Instruct 和 Qwen2.5-VL-3B-Instruct 兩種模型。這些模型在零樣本視覺理解任務中表現良好,因此適合作為層級視覺識別研究的基礎模型。


      在訓練方法方面,研究團隊將強化學習微調方法與 TARA 表征對齊方法結合起來進行訓練。首先采用 No-Thinking 強化學習微調策略。傳統強化學習通常要求模型在生成答案前進行推理過程,但研究人員發現,在分類任務中不進行顯式推理反而能夠獲得更好的效果,因此訓練過程中采用提示語 Please directly output the answer。獎勵函數的設計為,如果模型預測結果正確則獎勵值為 1,如果預測結果不正確則獎勵值為 0。

      在此基礎上,研究團隊引入 TARA 表征對齊方法,通過兩個對齊任務向模型注入分類學知識。第一部分為視覺表示對齊。具體步驟包括使用生物基礎模型(BFM)提取圖像特征,獲取多模態模型中間層的視覺特征,將兩者映射到同一特征空間,并利用余弦相似度進行對齊。

      通過這一過程,模型能夠學習符合生物分類結構的視覺表示空間。第二部分為標簽表示對齊。具體過程為將分類標簽輸入 BFM 文本編碼器獲得標簽嵌入,然后將多模態模型生成答案的 token 表征映射到同一空間,并進行相似度對齊。通過這種方式,模型能夠學習不同層級標簽之間的語義關系。


      在訓練過程中,研究團隊采用交替訓練策略,使模型在兩種目標之間不斷優化。一方面通過強化學習優化分類任務,另一方面通過 TARA 進行知識對齊,從而使模型逐漸吸收生物分類學知識并提升層級識別能力。

      在評價指標方面,為了全面評估模型在層級視覺識別任務中的表現,研究人員設計了多種評價指標。其中 Hierarchical Consistent Accuracy(HCA)用于評估模型是否能夠正確預測完整的分類路徑,例如 Animal、Chordata、Aves、Passeriformes、Thraupidae、Dacnis,如果其中任意一層預測錯誤,則整條路徑都視為預測錯誤。Leaf-level Accuracy(Accleaf)用于衡量最細粒度類別,也就是葉節點類別的預測準確率。

      Point-Overlap Ratio(POR)用于統計預測路徑中正確節點所占的比例。Strict Point-Overlap Ratio(S-POR)在此基礎上要求預測節點必須是連續正確的節點才會計入得分。Top Overlap Ratio(TOR)則用于衡量相鄰層級之間預測結果的一致性,通過這些指標可以全面評估模型在層級結構識別任務中的整體性能。

      03


      讓視覺模型學會「推斷未知」

      整體來看,這項研究在理論和實際應用方面都具有較為重要的意義。首先,在解決多模態模型層級識別能力不足的問題方面,現有多模態模型雖然在細粒度識別任務中已經取得較好的效果,但在層級識別任務中仍然容易出現分類路徑錯誤以及層級關系不一致等情況。

      針對這一問題,研究團隊提出的 TARA 方法通過引入分類學知識,使模型在識別過程中能夠更好地保持不同層級之間的邏輯關系,從而顯著提升模型在層級分類任務中的一致性表現。

      其次,在提升模型對未知類別的泛化能力方面,研究人員指出在真實環境中新的物種仍在不斷被發現,傳統模型在缺乏訓練樣本的情況下往往難以進行準確識別。TARA 利用生物基礎模型中蘊含的分類學知識,使模型能夠推斷未知類別之間的層級關系,并在缺乏訓練樣本的情況下仍然完成識別任務,這對于開放世界識別任務具有重要意義。

      再次,在方法層面,研究提出了一種新的思路,即通過中間表征對齊的方式,將領域知識注入到多模態模型之中。研究團隊認為,這種方法不僅可以應用于生物分類任務,還能夠推廣到其他具有層級結構的應用場景,例如醫學影像分類、商品分類以及知識圖譜推理等領域,從而為多模態大模型與領域知識結合提供了一種具有普適性的技術路徑。

      最后,在推動通用視覺理解系統發展方面,研究人員認為未來的視覺系統不僅需要具備識別具體對象的能力,還需要能夠理解不同對象之間的結構關系。通過在模型訓練過程中引入層級知識,多模態大模型可以逐步具備對結構化知識的理解能力,從而進一步發展成為能夠理解復雜結構關系的視覺智能系統。

      04


      構建 TARA 的人

      這篇論文的一作何胡凌霄,現為北京大學王選計算機研究所多媒體信息處理實驗室博士生,師從彭宇新教授,主要研究方向為細粒度多模態大模型。

      學術研究方面,他主要圍繞細粒度視覺識別、多模態大模型等方向開展研究工作,在計算機視覺和多模態學習領域發表多篇論文,其中多篇被CVPR、ICLR、ICDE、BMVC、PRCV等國際學術會議接收,并參與相關領域的研究項目。

      在學習期間,他還獲得國家獎學金、北京理工大學優秀畢業生、北京理工大學優秀學生標兵等多項榮譽,并在全國大學生數學建模競賽北京賽區獲得一等獎,在華為云人工智能大賽無人車挑戰杯中獲得優勝獎等。


      參考鏈接:http://39.108.48.32/mipl/news/news.php?id=CHhehulingxiao

      論文的通訊作者彭宇新,北京大學王選計算機研究所教授、博士生導師,北京大學二級教授、博雅特聘教授,同時為IEEE、CCF、CAAI、CIE、CSIG Fellow,曾入選國家杰出青年科學基金獲得者、國家萬人計劃以及科技部中青年科技創新領軍人才等人才計劃。

      他于 2003 年畢業于北京大學信息科學技術學院計算機應用技術專業并獲得博士學位,此后在北京大學開展教學與科研工作。其主要研究方向包括多媒體分析、計算機視覺和人工智能等領域。

      彭宇新在相關領域取得了豐碩的學術成果,發表 TPAMI、IJCV、CVPR、NeurIPS、ICML 等國際重要期刊和會議論文 170 余篇,多次獲得最佳論文獎,研究成果被國際同行評價為在無對象標注圖像細分類等問題上取得重要進展。他提出了“弱監督深度圖像細粒分類”等創新方法,并建立了跨媒體評測基準PKU XMediaNet,被全球多所高校和機構廣泛使用。其團隊在 NIST 組織的 TRECVID 視頻檢索國際評測中多次獲得第一名,并在多項國際視覺競賽中取得優異成績。

      此外,他主持承擔國家 863 計劃、國家自然科學基金重點項目等 40 余項科研項目,申請發明專利 50 余項并獲得多項授權,相關成果已在國家網信辦、公安部、國家廣播電視總局以及多家互聯網企業中得到應用。同時,他還積極參與學術組織和期刊工作,擔任多個國際期刊編委和重要學術會議的組織者,在人工智能與計算機視覺領域具有重要影響力。


      參考鏈接:http://39.108.48.32/mipl/pengyuxin/

      未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社區進行轉載!

      公眾號轉載請先在「AI科技評論」后臺留言取得授權,轉載時需標注來源并插入本公眾號名片。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      《浪姐》宋妍霏遭疑「墊屁股」 霸氣曬白眼照回擊:少關注人的臀

      《浪姐》宋妍霏遭疑「墊屁股」 霸氣曬白眼照回擊:少關注人的臀

      ETtoday星光云
      2026-03-27 10:38:09
      馬杜羅下場敲警鐘!俄羅斯立死規:敢抓普京、拘俄公民,直接出兵

      馬杜羅下場敲警鐘!俄羅斯立死規:敢抓普京、拘俄公民,直接出兵

      溫讀史
      2026-03-27 17:46:44
      重磅!伊朗已回復15點停火協議,最關鍵的48小時來了

      重磅!伊朗已回復15點停火協議,最關鍵的48小時來了

      風風順
      2026-03-27 03:15:05
      TA:馬奎爾團隊不清楚曼聯的想法;他已吸取教訓不再帶傷上陣

      TA:馬奎爾團隊不清楚曼聯的想法;他已吸取教訓不再帶傷上陣

      懂球帝
      2026-03-27 17:08:17
      瞞天過海40年!李嘉誠成最大贏家,日產百萬桶,把石油全賣給中國

      瞞天過海40年!李嘉誠成最大贏家,日產百萬桶,把石油全賣給中國

      阿鳧愛吐槽
      2026-03-24 00:54:18
      出大事了,美國突然倒向烏克蘭,俄方亮明態度,歐盟反應令人意外

      出大事了,美國突然倒向烏克蘭,俄方亮明態度,歐盟反應令人意外

      興史興談
      2026-03-26 18:35:42
      富人圈子里選兒媳鐵律:美貌和文憑都是浮云,這3個品質缺一不可

      富人圈子里選兒媳鐵律:美貌和文憑都是浮云,這3個品質缺一不可

      千秋文化
      2026-02-15 20:12:48
      剛剛,廣東一地下冰雹!最新提醒

      剛剛,廣東一地下冰雹!最新提醒

      南方都市報
      2026-03-27 16:52:26
      馬英九與蕭旭岑對線后,國民黨大佬集體表態,非常不簡單

      馬英九與蕭旭岑對線后,國民黨大佬集體表態,非常不簡單

      甜檸聊史
      2026-03-27 18:01:09
      國家在全力反腐,人民解放軍除統一大業之外,還暗藏著哪些硬仗?

      國家在全力反腐,人民解放軍除統一大業之外,還暗藏著哪些硬仗?

      李昕言溫度空間
      2026-03-26 19:48:46
      太尷尬!美國政壇傳得沸沸揚揚:特朗普或迎“十年來首度缺席”

      太尷尬!美國政壇傳得沸沸揚揚:特朗普或迎“十年來首度缺席”

      王姐懶人家常菜
      2026-03-27 17:37:46
      會猝死的不只是人!

      會猝死的不只是人!

      走讀新生
      2026-03-26 13:20:32
      島內突傳重磅信號!統一藍圖落地,美國改口,賴清德窮途末路

      島內突傳重磅信號!統一藍圖落地,美國改口,賴清德窮途末路

      觀星賞月
      2026-03-27 17:26:41
      炸鍋!名宿開罵:英格蘭 4 大廢物不配入選,巨星落選有貓膩

      炸鍋!名宿開罵:英格蘭 4 大廢物不配入選,巨星落選有貓膩

      奶蓋熊本熊
      2026-03-27 05:35:00
      "仁義"好兄弟出手!伊朗終等到最大強援,特朗普萬沒料到的事發生

      "仁義"好兄弟出手!伊朗終等到最大強援,特朗普萬沒料到的事發生

      小舟談歷史
      2026-03-27 14:05:57
      風向徹底變了!西方媒體集體改口:中國,無需再向世界證明什么

      風向徹底變了!西方媒體集體改口:中國,無需再向世界證明什么

      聞識
      2026-03-27 11:32:15
      TOP14位身高170以上的女神,有顏有燈有演技

      TOP14位身高170以上的女神,有顏有燈有演技

      素然追光
      2026-01-02 02:45:02
      難以置信!因為腳氣太重,一網友囤一大堆鞋子天天輪換,引發熱議

      難以置信!因為腳氣太重,一網友囤一大堆鞋子天天輪換,引發熱議

      火山詩話
      2026-03-27 10:06:14
      央視直播乒乓時間表:3月27日CCTV5轉播國乒!附國乒世界杯新消息

      央視直播乒乓時間表:3月27日CCTV5轉播國乒!附國乒世界杯新消息

      皮皮觀天下
      2026-03-27 11:57:20
      伊朗點名美國兩大軟肋,若敢動地面部隊,先讓阿聯酋巴林變火海

      伊朗點名美國兩大軟肋,若敢動地面部隊,先讓阿聯酋巴林變火海

      書紀文譚
      2026-03-27 17:47:44
      2026-03-27 18:55:00
      AI科技評論 incentive-icons
      AI科技評論
      點評學術,服務AI
      7151文章數 20742關注度
      往期回顧 全部

      科技要聞

      楊植麟張鵬夏立雪羅福莉,聊龍蝦、聊漲價

      頭條要聞

      美方稱在美軍事基地裝爆炸物的男子逃往中國 中方回應

      頭條要聞

      美方稱在美軍事基地裝爆炸物的男子逃往中國 中方回應

      體育要聞

      邵佳一:足球就像一場馬拉松

      娛樂要聞

      張雪峰靈堂內景曝光,四周擺滿了鮮花

      財經要聞

      我在小吃培訓機構學習“科技與狠活”

      汽車要聞

      與眾08,金標大眾不能輸的一戰

      態度原創

      教育
      本地
      數碼
      健康
      軍事航空

      教育要聞

      重拳出擊,整治教育內卷,中考徹底變天了

      本地新聞

      在濰坊待了三天,沒遇到一個“濰坊人”

      數碼要聞

      華碩ROG幻世神Cronox機箱開啟預約:配備9.2"副屏,2399元

      干細胞抗衰4大誤區,90%的人都中招

      軍事要聞

      伊朗:已組織超100萬人為地面戰斗做準備

      無障礙瀏覽 進入關懷版