網易首頁 > 網易號 > 正文申請入駐

視覺語言模型“掃地僧”：360低調開源FG-CLIP2登頂29項全球基準測試 | 甲子光年

2025-11-04 12:57:55　來源: 甲子光年

北京舉報

分享至

局部細節之上見未來。

作者｜田思奇

編輯｜栗子

兩周前，一個名為FG-CLIP2的模型，悄然出現在GitHub和HuggingFace上。

沒有盛大的發布，也沒有鋪天蓋地的宣傳，但它在技術社區迅速積累起良好口碑。從國內技術社區的深度解析，到韓國IT出版社的跟進報道，加之其初代模型早已獲得人工智能頂會ICML的背書，外界對FG-CLIP2的關注持續升溫。

在多達29個公開基準測試中，FG-CLIP2的性能已全面超越Google的SigLIP 2和Meta的MetaCLIP2，成為全球最強圖文跨模態視覺基礎模型（VLM）。

這款“掃地僧式”的模型，出自360人工智能研究院。它的成功讓一個問題重新回到聚光燈下：在大模型競爭白熱化的2025年，為什么360率先完成這一步？

關鍵在于，FG-CLIP2把VLM從“看得見”推向“看得清”，也把視覺基座的上限，交回給“像素級的對齊”。

1.從全局印象到局部洞察

2025年，人工智能行業逐漸從AIGC創造力的狂歡中冷靜下來，直面更棘手的問題：AI對現實世界的理解依然脆弱。

無論是自動駕駛車輛在復雜路況下的猶豫，還是AIGC屢屢畫錯的手指，都指向同一個瓶頸：模型對世界細節的感知是粗糙且不可靠的。所有先進的AI應用的前提是：機器必須真正看懂世界。

視覺語言模型（VLM）的核心任務，是將圖像和文本分別解析成機器可讀的圖像特征（Image Feature）與文本特征（Text Feature），并在這兩者之間建立精準的語義匹配。這種解析與對齊的精準度，決定了AIGC生成模型和LMM多模態大語言模型的能力上限。

CLIP模型，正是扮演了這一視覺基座的角色，如同AI的“眼腦接口”。它通常在幕后工作，不像大語言模型或視頻模型那樣被大眾所熟知，但其重要性不言而喻。

然而，以往模型看世界的方式，多半只得到一個“全局”的印象。比如它們能識別出一幅“人和狗”的畫，但難以看清畫中的細節，乃至復雜的空間關系。

換句話說，AI的視覺理解長期停留在“看得見”，卻遠未達到“看得清”的階段。

FG-CLIP2針對這一瓶頸，提出了一條新的技術路徑。其最大的價值優勢，就是實現了局部細粒度識別。

模型不會將圖片作為一個整體來囫圇吞棗地理解。相反，它會將一張圖像分解為成千上萬個微小的局部特征區域，并對每一個區域進行獨立的、精細化的分析。

就像人類的視覺系統，不僅能感知整個場景，更能將視線中心對準任何一個細節，并清晰地洞察它。

舉個例子，FG-CLIP2能夠將“穿紅色夾克的男人”這個復雜場景，解析為“夾克”（局部區域），“紅色”（屬性特征），以及“男人”（主體）。

這讓它不再只看到“一個人和一只狗”，而能清晰區分出“穿紅色夾克的男人在撫摸一只金毛犬”與“穿藍色夾克的女人在牽著一只拉布拉多”。

同時，FG-CLIP2也能實現對復雜語言表達的精準響應，比如有效區分語義相近的文字說明。

此外，FG-CLIP2擅長對復雜空間關系的理解。

例如，在一張“一只貓在電腦屏幕前，屏幕里是另一只貓”的圖片中，過去的模型可能會混淆為“兩只貓和一張桌子”。而FG-CLIP2通過局部信息分析，能夠理解其空間層次：一只貓物理上“在……前面”，另一只貓是“在……里面”的數字圖像。

這種對“內外”、“前后”、“上下”和遮擋關系的精確判斷，是具身智能在物理世界行動和交互的基礎。

另一關鍵突破，是在局部洞察的基礎上，打破了視覺理解的語言壁壘。

視覺信息無國界，但理解往往受限于語言。FG-CLIP2是全球首批在模型底層實現中英雙語均衡訓練的視覺語言模型。它能像一個真正的雙語者，用兩種語言的思維去理解圖像中的每一個局部細節。

「甲子光年」認為，對于需要面向全球市場的中國企業而言，這種能力能夠幫助它們用一套統一的技術基座，一次性打通全球最大的兩個語種市場。

從更深層的角度看，這種原生的中文理解能力，本身就是一種文化層面的數據資產，有助于構建更加平衡和包容的全球AI技術生態。

這兩大跨越的直接成果，讓FG-CLIP2在29項全球公開基準測試中的全面領先。它為AI視覺理解設定了更高的行業基準，也為更智能，更可靠的下游應用打開了想象空間。

2.如何讓模型學會看細節？

為了讓FG-CLIP2實現真正的局部理解和像素級對齊，360人工智能研究院在模型訓練最基礎的環節：數據、方法和架構等，都進行了系統性的重構。

首先是FineHARD數據集。當架構逐漸趨同、算力可按需購買時，對數據的理解深度已經取代了模型參數，成為難以被快速復制的核心優勢。于是，360 選擇重建一套能支撐細粒度學習的訓練體系。

FineHARD匯集了數十億對中英文圖文樣本。英文部分來自增強版LAION-2B，中文整合了Wukong、Zero與360自有的5億對樣本，并新增LIT-CN、DCI-CN等評測集，補齊了中文場景長期缺失的測試標準。

通過“三層細粒度對齊”設計，FineHARD 數據集強化了模型對細節、空間與語義的感知力。

第一，在全局層面，每張圖像同時配有一段約20詞的短文本和一段超過150詞的長文本，既概述場景核心語義，又補充物體屬性和空間關系，讓模型在宏觀理解的同時具備細節記憶。

第二，在局部層面，數據集基于開放世界目標檢測（OVD）模型提取對象位置，并為4000萬個區域生成對應描述，使模型在訓練中真正“聚焦”圖像內部的局部差異。

第三，在樣本層面，團隊利用大語言模型構造并清洗出1000萬組“細粒度難負樣本”，這些語義極近卻存在細微差別的數據，迫使模型在像素級做出辨別，顯著提升了魯棒性與辨析力。

其次，有了高質量的數據，還需要相應的訓練方法來釋放其潛力。FG-CLIP2采用了一種“先全局，后局部”的兩階段訓練策略。

第一階段是預訓練，目標是實現初步的圖文語義對齊。在這個階段，模型采用與CLIP類似的整體信息對齊策略，但區別在于，除了互聯網上常見的短文本，360還為每張圖像增加了包含詳細細節描述的“長文本”。通過在數據層面引入更豐富的語義信息，為第二階段的細粒度對齊打下了堅實基礎。

第二階段是關鍵的細粒度對齊訓練。在這個階段，訓練策略不再采用CLIP的整體對齊方式。取而代之的是“圖像局部信息與文本局部信息對齊”的策略。這一步是FG-CLIP2能夠實現圖文細粒度理解的核心方法，它來源于360在開放世界目標檢測（OVD）和多模態大模型（LMM）研究中的技術積累，讓模型真正學會了將文本中的具體描述與圖像中的相應區域建立精確映射。

這套復雜的訓練，運行在一個為工業落地量身定制的架構之上。FG-CLIP2沿用了顯式雙塔結構，圖像和文本特征可以被預先計算和緩存，確保了在廣告檢索等高并發場景下毫秒級的響應速度。同時，動態分辨率機制讓模型能自適應處理不同尺寸的輸入，避免信息丟失，保證了訓練與推理行為的一致性。

最后在語言層面，該模型在底層實現了中英語料的原生并行訓練，而非后期疊加翻譯模塊。這種原生雙語設計，使得FG-CLIP2成為首個在中英文任務上同時達到全球最優水平的視覺語言模型。

如今，這一模型已通過360人工智能研究院開放接口，以API加MCP形式服務開發者。這項底層創新得以延伸到更多行業與應用中，成為產業智能化新的起點。

3.AI“看細”，產業“看遠”

在AI的多模態世界里，FG-CLIP2扮演的角色是整個智能系統的起點，一個讓語言、視覺與空間三種信息融合的通用視覺理解接口。

它的技術價值在于，首次在模型底層實現了局部細粒度識別與原生雙語對齊的統一，使機器能夠同時感知像素級的細節、空間層次與語義邏輯。

在360人工智能研究院的多模態體系中，視覺語言模型（VLM）、多模態大語言模型（LMM）、AIGC生成模型與開放世界目標檢測（OVD），構成了一個從看懂世界、到生成世界、再到理解空間的完整閉環。FG-CLIP2正是這個體系的起點，為上層模型提供精準的視覺語義支撐。

在電商領域，這種對細節和邏輯的精準復現能力，成為了絕佳的試金石。FG-CLIP2讓“以文搜圖”的精度進入新階段。它能理解諸如“穿紅裙、提白包、站在櫥窗前的女性”這類復雜描述，并將其分解為顏色、姿態、背景位置等局部特征，再與商品圖像逐一匹配。相比傳統CLIP只能識別“女性加裙子”的全局語義，FG-CLIP2在召回率和準確率上都有顯著提升。

對于跨語種平臺，它還能在中英文語料中保持一致語義理解，一次訓練覆蓋全球主要市場，顯著降低多語言標注和適配成本。未來，它將在廣告素材管理、直播選品、用戶行為預測等場景中延伸，讓視覺智能成為電商生態的底層能力。

更進一步，這種深刻的視覺理解能力，是讓機器人在物理世界中實現智能行動的前提，這正是具身智能的核心。在這里，FG-CLIP2的細粒度視覺理解能力發揮了空間智能的價值。機器人可以通過自然語言指令執行精準操作，例如識別“桌上紅色的杯子”與“柜子里藍色的盒子”的區別，或區分“打開的抽屜”和“關著的抽屜”。模型不再只是識別單個物體，而是理解了執行動作所必需的方位關系、遮擋結構和交互狀態。這種空間語義的建立，為機器人、自動駕駛和工業檢測等應用提供了可靠的視覺基礎。

甲子光年智庫在報告中指出，具身智能的核心在于感知到執行的協同，而視覺模型是關鍵起點。因此，像FG-CLIP2這樣的細粒度視覺語言模型，為機器人提供可擴展的感知能力，使其在真實環境中看懂任務、理解語義并完成動作。

FG-CLIP2的細粒度理解能力還在多個領域展現潛力。在AIGC內容生成中，它可作為控制信號，確保生成畫面與文本提示在細節上高度一致，例如在廣告圖像生成中精準定位品牌Logo和產品顏色。在內容審核與安防監控中，它能跨語言識別局部違規元素，如特定人物、標志或隱喻性組合，支持“尋找背著黑色雙肩包的男子”這類自然語言檢索。

目前FG-CLIP2已在360集團的多個核心業務中落地，包括廣告圖像匹配、IoT攝像機場景識別與360云盤圖片搜索。模型在高并發場景下穩定運行，延遲可控在毫秒級，驗證了其在真實商業環境中的工程可靠性。

4.非共識的AI發展哲學

FG-CLIP2的成功，讓外界好奇，為什么是一家以“安全”著稱的互聯網公司，能在視覺理解這個基礎領域取得了突破？答案在于一種長期存在于360內部，卻與當前AI發展階段高度契合的非共識哲學。

這種哲學源自其技術成長的起點。安全業務工程師的工作，不僅是確保系統基本正常運行，更要找到那1%可能摧毀一切的漏洞。當這種思維被應用于訓練AI時，天然地就會讓他們更關注那些讓模型出錯的“難負樣本”，追求模型的魯棒性和可靠性，而非僅僅是平均表現。這是一種從安全時代繼承而來的反脆弱基因。

正是基于這種基因，360很早就做出了前瞻性的戰略布局。當行業大部分注意力還集中在AI生成的顯性成果上時，360已在思考更深的一層：如果沒有足夠穩固的底層模型，這些絢爛的應用或將難以持續。

從2021年起，360人工智能研究院就開始系統化地布局多模態研究，提出視覺、文本與空間三維并進的路線。其成果并非一次性的“秀肌肉”，而是持續、可驗證的產出：過去三年，團隊在ICML、NeurIPS、ICCV等頂級會議發表論文12篇，并在多項國際AI競賽中奪冠。

當2025年諾貝爾獎再度聚焦基礎學科，它也照亮了AI發展的本質：基礎模型決定未來高度。當整個行業都在追逐“更快、更強、更通用”的明線時，360在“更穩、更準、更可靠”的暗線上持續投入。直到今天，當AI落地的需求讓可靠性進入聚光燈下，這條暗線才終于顯現出它的價值。

人工智能的發展，正從探索創造能力的邊界，回歸到提升理解現實的精度。FG-CLIP2的出現，不僅是某個公司在技術排行榜上的一次登頂，更是行業發展邏輯的一次重要提醒：在賦予機器強大的生成能力之前，必須先為其建立一個可靠的感知基礎。

看清世界的勇氣，與創造世界的想象力同樣珍貴。

（文中圖片來源：360人工智能研究院封面圖由AI生成）

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.