11月3日消息,360集團(tuán)低調(diào)開源的視覺語言對齊模型FG-CLIP2,據(jù)介紹,這款模型在涵蓋長短文本圖文檢索、目標(biāo)檢測等在內(nèi)的29項權(quán)威公開基準(zhǔn)測試中,超越了科技巨頭Google的SigLIP 2與Meta的MetaCLIP2。
在模型核心上,它實現(xiàn)了三大創(chuàng)新:第一,層次化對齊架構(gòu),讓模型能像人眼一樣,同時把握宏觀場景與微觀細(xì)節(jié),實現(xiàn)從“看得見”到“看得清”的跨越。第二,動態(tài)注意力機(jī)制,使模型可以智能聚焦于圖像關(guān)鍵區(qū)域,以最小算力代價換取精準(zhǔn)的細(xì)節(jié)捕捉能力。第三,雙語協(xié)同優(yōu)化策略,從底層解決了中英文理解不平衡的難題,實現(xiàn)了真正的雙語原生支持。
據(jù)介紹,F(xiàn)G-CLIP2的價值不僅在于實驗室指標(biāo)的領(lǐng)先,更在于其廣泛而深遠(yuǎn)的行業(yè)應(yīng)用潛力,推動AI從“感知”走向“認(rèn)知”,從“可用”走向“好用”。(定西)
本文來自網(wǎng)易科技報道,更多資訊和深度內(nèi)容,關(guān)注我們。
