11月3日消息,360集團(tuán)低調(diào)開(kāi)源的視覺(jué)語(yǔ)言對(duì)齊模型FG-CLIP2,據(jù)介紹,這款模型在涵蓋長(zhǎng)短文本圖文檢索、目標(biāo)檢測(cè)等在內(nèi)的29項(xiàng)權(quán)威公開(kāi)基準(zhǔn)測(cè)試中,超越了科技巨頭Google的SigLIP 2與Meta的MetaCLIP2。
在模型核心上,它實(shí)現(xiàn)了三大創(chuàng)新:第一,層次化對(duì)齊架構(gòu),讓模型能像人眼一樣,同時(shí)把握宏觀場(chǎng)景與微觀細(xì)節(jié),實(shí)現(xiàn)從“看得見(jiàn)”到“看得清”的跨越。第二,動(dòng)態(tài)注意力機(jī)制,使模型可以智能聚焦于圖像關(guān)鍵區(qū)域,以最小算力代價(jià)換取精準(zhǔn)的細(xì)節(jié)捕捉能力。第三,雙語(yǔ)協(xié)同優(yōu)化策略,從底層解決了中英文理解不平衡的難題,實(shí)現(xiàn)了真正的雙語(yǔ)原生支持。
據(jù)介紹,F(xiàn)G-CLIP2的價(jià)值不僅在于實(shí)驗(yàn)室指標(biāo)的領(lǐng)先,更在于其廣泛而深遠(yuǎn)的行業(yè)應(yīng)用潛力,推動(dòng)AI從“感知”走向“認(rèn)知”,從“可用”走向“好用”。(定西)
本文來(lái)自網(wǎng)易科技報(bào)道,更多資訊和深度內(nèi)容,關(guān)注我們。
