<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      視覺語言模型“掃地僧”:360低調開源FG-CLIP2登頂29項全球基準測試 | 甲子光年

      0
      分享至




      局部細節之上見未來。

      作者|田思奇

      編輯|栗子

      兩周前,一個名為FG-CLIP2的模型,悄然出現在GitHub和HuggingFace上。

      沒有盛大的發布,也沒有鋪天蓋地的宣傳,但它在技術社區迅速積累起良好口碑。從國內技術社區的深度解析,到韓國IT出版社的跟進報道,加之其初代模型早已獲得人工智能頂會ICML的背書,外界對FG-CLIP2的關注持續升溫。

      在多達29個公開基準測試中,FG-CLIP2的性能已全面超越Google的SigLIP 2和Meta的MetaCLIP2,成為全球最強圖文跨模態視覺基礎模型(VLM)。


      這款“掃地僧式”的模型,出自360人工智能研究院。它的成功讓一個問題重新回到聚光燈下:在大模型競爭白熱化的2025年,為什么360率先完成這一步?

      關鍵在于,FG-CLIP2把VLM從“看得見”推向“看得清”,也把視覺基座的上限,交回給“像素級的對齊”。

      1.從全局印象到局部洞察

      2025年,人工智能行業逐漸從AIGC創造力的狂歡中冷靜下來,直面更棘手的問題:AI對現實世界的理解依然脆弱

      無論是自動駕駛車輛在復雜路況下的猶豫,還是AIGC屢屢畫錯的手指,都指向同一個瓶頸:模型對世界細節的感知是粗糙且不可靠的。所有先進的AI應用的前提是:機器必須真正看懂世界。

      視覺語言模型(VLM)的核心任務,是將圖像和文本分別解析成機器可讀的圖像特征(Image Feature)與文本特征(Text Feature),并在這兩者之間建立精準的語義匹配。這種解析與對齊的精準度,決定了AIGC生成模型和LMM多模態大語言模型的能力上限。

      CLIP模型,正是扮演了這一視覺基座的角色,如同AI的“眼腦接口”。它通常在幕后工作,不像大語言模型或視頻模型那樣被大眾所熟知,但其重要性不言而喻。


      然而,以往模型看世界的方式,多半只得到一個“全局”的印象。比如它們能識別出一幅“人和狗”的畫,但難以看清畫中的細節,乃至復雜的空間關系。

      換句話說,AI的視覺理解長期停留在“看得見”,卻遠未達到“看得清”的階段。

      FG-CLIP2針對這一瓶頸,提出了一條新的技術路徑。其最大的價值優勢,就是實現了局部細粒度識別

      模型不會將圖片作為一個整體來囫圇吞棗地理解。相反,它會將一張圖像分解為成千上萬個微小的局部特征區域,并對每一個區域進行獨立的、精細化的分析。

      就像人類的視覺系統,不僅能感知整個場景,更能將視線中心對準任何一個細節,并清晰地洞察它。

      舉個例子,FG-CLIP2能夠將“穿紅色夾克的男人”這個復雜場景,解析為“夾克”(局部區域),“紅色”(屬性特征),以及“男人”(主體)。

      這讓它不再只看到“一個人和一只狗”,而能清晰區分出“穿紅色夾克的男人在撫摸一只金毛犬”與“穿藍色夾克的女人在牽著一只拉布拉多”。

      同時,FG-CLIP2也能實現對復雜語言表達的精準響應,比如有效區分語義相近的文字說明。

      此外,FG-CLIP2擅長對復雜空間關系的理解

      例如,在一張“一只貓在電腦屏幕前,屏幕里是另一只貓”的圖片中,過去的模型可能會混淆為“兩只貓和一張桌子”。而FG-CLIP2通過局部信息分析,能夠理解其空間層次:一只貓物理上“在……前面”,另一只貓是“在……里面”的數字圖像。

      這種對“內外”、“前后”、“上下”和遮擋關系的精確判斷,是具身智能在物理世界行動和交互的基礎。


      另一關鍵突破,是在局部洞察的基礎上,打破了視覺理解的語言壁壘。

      視覺信息無國界,但理解往往受限于語言。FG-CLIP2是全球首批在模型底層實現中英雙語均衡訓練的視覺語言模型。它能像一個真正的雙語者,用兩種語言的思維去理解圖像中的每一個局部細節。

      「甲子光年」認為,對于需要面向全球市場的中國企業而言,這種能力能夠幫助它們用一套統一的技術基座,一次性打通全球最大的兩個語種市場。

      從更深層的角度看,這種原生的中文理解能力,本身就是一種文化層面的數據資產,有助于構建更加平衡和包容的全球AI技術生態。

      這兩大跨越的直接成果,讓FG-CLIP2在29項全球公開基準測試中的全面領先。它為AI視覺理解設定了更高的行業基準,也為更智能,更可靠的下游應用打開了想象空間。

      2.如何讓模型學會看細節?

      為了讓FG-CLIP2實現真正的局部理解和像素級對齊,360人工智能研究院在模型訓練最基礎的環節:數據、方法和架構等,都進行了系統性的重構。

      首先是FineHARD數據集。當架構逐漸趨同、算力可按需購買時,對數據的理解深度已經取代了模型參數,成為難以被快速復制的核心優勢。于是,360 選擇重建一套能支撐細粒度學習的訓練體系。

      FineHARD匯集了數十億對中英文圖文樣本。英文部分來自增強版LAION-2B,中文整合了Wukong、Zero與360自有的5億對樣本,并新增LIT-CN、DCI-CN等評測集,補齊了中文場景長期缺失的測試標準。

      通過“三層細粒度對齊”設計,FineHARD 數據集強化了模型對細節、空間與語義的感知力。

      第一,在全局層面,每張圖像同時配有一段約20詞的短文本和一段超過150詞的長文本,既概述場景核心語義,又補充物體屬性和空間關系,讓模型在宏觀理解的同時具備細節記憶。

      第二,在局部層面,數據集基于開放世界目標檢測(OVD)模型提取對象位置,并為4000萬個區域生成對應描述,使模型在訓練中真正“聚焦”圖像內部的局部差異。

      第三,在樣本層面,團隊利用大語言模型構造并清洗出1000萬組“細粒度難負樣本”,這些語義極近卻存在細微差別的數據,迫使模型在像素級做出辨別,顯著提升了魯棒性與辨析力。


      其次,有了高質量的數據,還需要相應的訓練方法來釋放其潛力。FG-CLIP2采用了一種“先全局,后局部”的兩階段訓練策略。

      第一階段是預訓練,目標是實現初步的圖文語義對齊。在這個階段,模型采用與CLIP類似的整體信息對齊策略,但區別在于,除了互聯網上常見的短文本,360還為每張圖像增加了包含詳細細節描述的“長文本”。通過在數據層面引入更豐富的語義信息,為第二階段的細粒度對齊打下了堅實基礎。

      第二階段是關鍵的細粒度對齊訓練。在這個階段,訓練策略不再采用CLIP的整體對齊方式。取而代之的是“圖像局部信息與文本局部信息對齊”的策略。這一步是FG-CLIP2能夠實現圖文細粒度理解的核心方法,它來源于360在開放世界目標檢測(OVD)和多模態大模型(LMM)研究中的技術積累,讓模型真正學會了將文本中的具體描述與圖像中的相應區域建立精確映射。


      這套復雜的訓練,運行在一個為工業落地量身定制的架構之上。FG-CLIP2沿用了顯式雙塔結構,圖像和文本特征可以被預先計算和緩存,確保了在廣告檢索等高并發場景下毫秒級的響應速度。同時,動態分辨率機制讓模型能自適應處理不同尺寸的輸入,避免信息丟失,保證了訓練與推理行為的一致性。

      最后在語言層面,該模型在底層實現了中英語料的原生并行訓練,而非后期疊加翻譯模塊。這種原生雙語設計,使得FG-CLIP2成為首個在中英文任務上同時達到全球最優水平的視覺語言模型。

      如今,這一模型已通過360人工智能研究院開放接口,以API加MCP形式服務開發者。這項底層創新得以延伸到更多行業與應用中,成為產業智能化新的起點。

      3.AI“看細”,產業“看遠”

      在AI的多模態世界里,FG-CLIP2扮演的角色是整個智能系統的起點,一個讓語言、視覺與空間三種信息融合的通用視覺理解接口。

      它的技術價值在于,首次在模型底層實現了局部細粒度識別與原生雙語對齊的統一,使機器能夠同時感知像素級的細節、空間層次與語義邏輯。

      在360人工智能研究院的多模態體系中,視覺語言模型(VLM)、多模態大語言模型(LMM)、AIGC生成模型與開放世界目標檢測(OVD),構成了一個從看懂世界、到生成世界、再到理解空間的完整閉環。FG-CLIP2正是這個體系的起點,為上層模型提供精準的視覺語義支撐。

      在電商領域,這種對細節和邏輯的精準復現能力,成為了絕佳的試金石。FG-CLIP2讓“以文搜圖”的精度進入新階段。它能理解諸如“穿紅裙、提白包、站在櫥窗前的女性”這類復雜描述,并將其分解為顏色、姿態、背景位置等局部特征,再與商品圖像逐一匹配。相比傳統CLIP只能識別“女性加裙子”的全局語義,FG-CLIP2在召回率和準確率上都有顯著提升。

      對于跨語種平臺,它還能在中英文語料中保持一致語義理解,一次訓練覆蓋全球主要市場,顯著降低多語言標注和適配成本。未來,它將在廣告素材管理、直播選品、用戶行為預測等場景中延伸,讓視覺智能成為電商生態的底層能力。

      更進一步,這種深刻的視覺理解能力,是讓機器人在物理世界中實現智能行動的前提,這正是具身智能的核心。在這里,FG-CLIP2的細粒度視覺理解能力發揮了空間智能的價值。機器人可以通過自然語言指令執行精準操作,例如識別“桌上紅色的杯子”與“柜子里藍色的盒子”的區別,或區分“打開的抽屜”和“關著的抽屜”。模型不再只是識別單個物體,而是理解了執行動作所必需的方位關系、遮擋結構和交互狀態。 這種空間語義的建立,為機器人、自動駕駛和工業檢測等應用提供了可靠的視覺基礎。

      甲子光年智庫在報告中指出,具身智能的核心在于感知到執行的協同,而視覺模型是關鍵起點。因此,像FG-CLIP2這樣的細粒度視覺語言模型,為機器人提供可擴展的感知能力,使其在真實環境中看懂任務、理解語義并完成動作。

      FG-CLIP2的細粒度理解能力還在多個領域展現潛力。在AIGC內容生成中,它可作為控制信號,確保生成畫面與文本提示在細節上高度一致,例如在廣告圖像生成中精準定位品牌Logo和產品顏色。在內容審核與安防監控中,它能跨語言識別局部違規元素,如特定人物、標志或隱喻性組合,支持“尋找背著黑色雙肩包的男子”這類自然語言檢索。

      目前FG-CLIP2已在360集團的多個核心業務中落地,包括廣告圖像匹配、IoT攝像機場景識別與360云盤圖片搜索。模型在高并發場景下穩定運行,延遲可控在毫秒級,驗證了其在真實商業環境中的工程可靠性。

      4.非共識的AI發展哲學

      FG-CLIP2的成功,讓外界好奇,為什么是一家以“安全”著稱的互聯網公司,能在視覺理解這個基礎領域取得了突破?答案在于一種長期存在于360內部,卻與當前AI發展階段高度契合的非共識哲學。

      這種哲學源自其技術成長的起點。安全業務工程師的工作,不僅是確保系統基本正常運行,更要找到那1%可能摧毀一切的漏洞。當這種思維被應用于訓練AI時,天然地就會讓他們更關注那些讓模型出錯的“難負樣本”,追求模型的魯棒性和可靠性,而非僅僅是平均表現。這是一種從安全時代繼承而來的反脆弱基因。

      正是基于這種基因,360很早就做出了前瞻性的戰略布局。當行業大部分注意力還集中在AI生成的顯性成果上時,360已在思考更深的一層:如果沒有足夠穩固的底層模型,這些絢爛的應用或將難以持續。

      從2021年起,360人工智能研究院就開始系統化地布局多模態研究,提出視覺、文本與空間三維并進的路線。其成果并非一次性的“秀肌肉”,而是持續、可驗證的產出:過去三年,團隊在ICML、NeurIPS、ICCV等頂級會議發表論文12篇,并在多項國際AI競賽中奪冠。


      當2025年諾貝爾獎再度聚焦基礎學科,它也照亮了AI發展的本質:基礎模型決定未來高度。當整個行業都在追逐“更快、更強、更通用”的明線時,360在“更穩、更準、更可靠”的暗線上持續投入。直到今天,當AI落地的需求讓可靠性進入聚光燈下,這條暗線才終于顯現出它的價值。

      人工智能的發展,正從探索創造能力的邊界,回歸到提升理解現實的精度。FG-CLIP2的出現,不僅是某個公司在技術排行榜上的一次登頂,更是行業發展邏輯的一次重要提醒:在賦予機器強大的生成能力之前,必須先為其建立一個可靠的感知基礎。

      看清世界的勇氣,與創造世界的想象力同樣珍貴。

      (文中圖片來源:360人工智能研究院 封面圖由AI生成)


      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      幫周星馳賺20億后,她嫁給大16歲百億富豪,如今是三個孩子的后媽

      幫周星馳賺20億后,她嫁給大16歲百億富豪,如今是三個孩子的后媽

      民間平哥
      2025-12-26 21:53:38
      特朗普還沒啟程訪華,中國突然公布黃金庫存,美國霸權地位已不保

      特朗普還沒啟程訪華,中國突然公布黃金庫存,美國霸權地位已不保

      花花娛界
      2025-12-25 20:36:30
      “父母窮,孩子連穿粉色棉襖的資格都沒有”,家長直言:厭惡女兒

      “父母窮,孩子連穿粉色棉襖的資格都沒有”,家長直言:厭惡女兒

      妍妍教育日記
      2025-12-26 17:57:01
      裁判造關鍵爭議!幾乎掀翻廣東男籃,高詩巖自責1幕,令人動容!

      裁判造關鍵爭議!幾乎掀翻廣東男籃,高詩巖自責1幕,令人動容!

      話體壇
      2025-12-26 22:21:08
      王勵勤人事調整展現高超手腕!秦志戩由乒協回國乒,有望任總教練

      王勵勤人事調整展現高超手腕!秦志戩由乒協回國乒,有望任總教練

      不寫散文詩
      2025-12-25 20:22:00
      中日游客雙向奔赴,日本人不歡迎中國游客,中國游客也不想去日本

      中日游客雙向奔赴,日本人不歡迎中國游客,中國游客也不想去日本

      扶蘇聊歷史
      2025-12-26 11:09:04
      14場0進球!皇馬巨星罕見進球荒,身價1年狂跌5000萬歐

      14場0進球!皇馬巨星罕見進球荒,身價1年狂跌5000萬歐

      足球狗說
      2025-12-26 14:08:47
      一旦釋放出性感魅力,著實令人心醉神迷

      一旦釋放出性感魅力,著實令人心醉神迷

      鋒哥與八卦哥
      2025-12-25 16:16:14
      咸魚還是太全面了,怪不得人稱國內黑市

      咸魚還是太全面了,怪不得人稱國內黑市

      另子維愛讀史
      2025-12-20 17:07:20
      60:51!韓國瑜落錘,彈劾賴清德提案通過,鄭麗文有個擔憂或成真

      60:51!韓國瑜落錘,彈劾賴清德提案通過,鄭麗文有個擔憂或成真

      書紀文譚
      2025-12-26 19:23:26
      一個不被任何人拿捏的方法:不要回答別人的問題,回答別人的目的

      一個不被任何人拿捏的方法:不要回答別人的問題,回答別人的目的

      詩詞中國
      2025-12-20 20:38:32
      1991年河南母子奸殺沉尸案,25年后終告破,嫌疑人病亡開棺驗尸

      1991年河南母子奸殺沉尸案,25年后終告破,嫌疑人病亡開棺驗尸

      史記趣聞
      2025-12-16 20:40:04
      山東省民營企業家協會第八屆第三次會員大會在濟南成功召開

      山東省民營企業家協會第八屆第三次會員大會在濟南成功召開

      齊魯壹點
      2025-12-26 16:58:14
      今天更冷! 上海迎來近期最冷時刻,市區最低1.9℃ 郊區有冰凍,雙休日回暖,下周或有降雨和大風

      今天更冷! 上海迎來近期最冷時刻,市區最低1.9℃ 郊區有冰凍,雙休日回暖,下周或有降雨和大風

      縱相新聞
      2025-12-26 22:35:03
      王菲西藏祈福,頭戴綠頭巾,素顏下眼袋好明顯,歲月不饒人啊

      王菲西藏祈福,頭戴綠頭巾,素顏下眼袋好明顯,歲月不饒人啊

      韓馳
      2025-12-26 22:37:49
      4.6℃!多地氣溫“大跳水”,廣州氣溫繼續下降!明天還會更冷?

      4.6℃!多地氣溫“大跳水”,廣州氣溫繼續下降!明天還會更冷?

      城事特搜
      2025-12-26 19:38:10
      中規中矩,詹姆斯13中7拿到18分2板5助,正負值-33全場最低

      中規中矩,詹姆斯13中7拿到18分2板5助,正負值-33全場最低

      懂球帝
      2025-12-26 11:35:07
      打得也太憋屈了!艾頓在湖人根本沒有辦法得到足夠的信任?

      打得也太憋屈了!艾頓在湖人根本沒有辦法得到足夠的信任?

      稻谷與小麥
      2025-12-26 22:32:41
      老婆敗光20億家產傳聞真相大白10個月,曝張學友近況,一點不意外

      老婆敗光20億家產傳聞真相大白10個月,曝張學友近況,一點不意外

      素衣讀史
      2025-12-26 17:30:27
      名宿:我曾因為糾正C羅、被粉絲拷問幾金幾冠!我說我有世界杯!

      名宿:我曾因為糾正C羅、被粉絲拷問幾金幾冠!我說我有世界杯!

      氧氣是個地鐵
      2025-12-26 17:19:39
      2025-12-26 23:23:00
      甲子光年
      甲子光年
      中國科技產業化前沿智庫
      3302文章數 9253關注度
      往期回顧 全部

      科技要聞

      收割3000億!拼多多"土辦法"熬死所有巨頭

      頭條要聞

      黑老大2名表超5千萬成交 深圳原政法委書記是其保護傘

      頭條要聞

      黑老大2名表超5千萬成交 深圳原政法委書記是其保護傘

      體育要聞

      開翻航母之后,他決定親手造一艘航母

      娛樂要聞

      王傳君生病后近照變化大,面部浮腫

      財經要聞

      投資巨鱷羅杰斯最新持倉:只留四種資產

      汽車要聞

      兩大CEO試駕 華為乾崑*啟境開啟首款獵裝轎跑路測

      態度原創

      房產
      教育
      藝術
      健康
      公開課

      房產要聞

      炸裂,三亞360億超級清單發布,又一批重大配套要來了!

      教育要聞

      藝考交9萬包過考上大學,家長舉報反被罵?網友:空手套白狼!

      藝術要聞

      William Dyce:19世紀蘇格蘭重要的畫家

      這些新療法,讓化療不再那么痛苦

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 嫩草研究院久久久精品| 无码人妻丰满熟妇区五十路百度 | 亚洲AV成人无码久久精品黑人| 色婷婷成人| 最新av播放| 群交射精白浆视频| 无码内射中文字幕岛国片 | 潮喷视频免费| 久久久亚洲精品无码| 国产精品无码久久久久久久久久| 亚洲中文一区二区av| 两个人的免费视频| 天天爽夜夜爽夜夜爽| 国产精品国产三级国产a| 日本一区二区三区在线 |观看| AV色播| 色吊丝免费视频| 老男人久久青草av高清| 亚洲中文字幕在线无码一区二区| 成人国产综合| 极品人妻系列| 被c到高潮疯狂喷水国产| 亚洲情综合五月天| 国产主播第一页| 成人三级精品| a∨变态另类天堂无码专区| 精品中文人妻在线不卡| 制服丝袜无码在线| 精品综合在线| 五十路熟女一区二区三区| 亚洲欧美综合中文| 国产av日韩av| 午夜欧美精品久久久久久久| 尹人香蕉久久99天天拍| 免费观看全黄做爰大片| 紫阳县| 成人h动漫精品一区二区无码| 精品久久久久久中文字幕大豆网 | 国产精品香蕉| heyzo一区二区三区| 黑人巨大无码中文字幕无码|