<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      干翻 GPT-4V 的面壁 8B「小鋼炮」,被Nature 收錄了

      0
      分享至



      大模型已收斂,小模型還有廣闊天地。

      作者丨陳為銳

      編輯丨陳彩嫻

      當(dāng)全球 AI 圈還在為千億參數(shù)模型的算力消耗焦頭爛額時,一支由清華大學(xué)和面壁智能組成的團(tuán)隊,悄悄在邊緣設(shè)備上完成了一場多模態(tài)大模型落地的變革。

      日前,《Nature Communications》正式收錄了面壁智能此前發(fā)布的一項研究成果,該項研究推出了新模型 MiniCPM-V 系列,并重點介紹了首批 3 個模型,包括 MiniCPM-V 1.0、MiniCPM-V 2.0 和 MiniCPM-Llama3-V 2.5。

      MiniCPM-V 1.0 使用預(yù)訓(xùn)練階段 1&2 和 SFT 進(jìn)行訓(xùn)練,未使用自適應(yīng)視覺編碼和 RLAIF-V;MiniCPM-V 2.0 包含了所有訓(xùn)練階段和自適應(yīng)視覺編碼策略,以進(jìn)一步提升性能;MiniCPM-Llama3-V 2.5 采用 Llama3-Instruct 8B 作為其基礎(chǔ) LLM,展現(xiàn)多模態(tài)理解能力。

      研究結(jié)果表明,MiniCPM-V 僅用 80 億參數(shù)就實現(xiàn)了 GPT-4V 級別的多模態(tài)能力,不僅在 11 個權(quán)威基準(zhǔn)測試中全面超越 GPT-4V、Gemini Pro 和 Claude 3 等頭部模型,更顛覆了人們對邊緣計算的認(rèn)知,讓手機端也能運行媲美云端的多模態(tài)大模型。


      Nature Communications 地址:https://www.nature.com/articles/s41467-025-61040-5

      01
      80 億參數(shù)干翻 GPT-4V

      MiniCPM-V 由三個關(guān)鍵模塊組成:視覺編碼器、壓縮層和 LLM。輸入圖像首先通過視覺編碼器進(jìn)行編碼,采用自適應(yīng)視覺編碼方法,然后,視覺標(biāo)記由壓縮層進(jìn)行壓縮,該層采用具有一層交叉注意力的感知器重采樣結(jié)構(gòu),最后,壓縮后的視覺標(biāo)記以及文本輸入被輸入到 LLM 中進(jìn)行條件文本生成。


      圖源:Nature

      作為面向邊緣設(shè)備的高效多模態(tài)大語言模型,MiniCPM-V 系列的技術(shù)創(chuàng)新主要體現(xiàn)在自適應(yīng)視覺編碼、漸進(jìn)式多模態(tài)學(xué)習(xí)、對齊優(yōu)化及邊緣部署優(yōu)化四大維度。

      為解決高分辨率圖像編碼的效率與有效性難題,MiniCPM-V 采用了分層處理策略,將圖像分割為最多 10 個切片,每個切片調(diào)整至與視覺編碼器預(yù)訓(xùn)練設(shè)置匹配的分辨率和縱橫比,接著通過 ViT 編碼器將每個切片轉(zhuǎn)換為 1024 個視覺令牌,再經(jīng)壓縮層將 token 數(shù)量大幅縮減,最后引入空間 schema 標(biāo)記各切片在原圖中的位置關(guān)系,確保全局信息完整性,相比傳統(tǒng)方法顯著降低了計算量與內(nèi)存占用。

      在模型訓(xùn)練階段,MiniCPM-V 通過大規(guī)模圖文對實現(xiàn)視覺模塊與語言模型的空間對齊,分三階段逐步擴展輸入分辨率并引入 OCR 數(shù)據(jù)增強文本識別能力;監(jiān)督微調(diào)階段整合高質(zhì)量視覺問答數(shù)據(jù),而后再通過 RLAIF-V 方法,通過開源模型生成多版本響應(yīng)并拆分原子聲明進(jìn)行真實性評分,最終利用 DPO 算法優(yōu)化偏好學(xué)習(xí),能有效降低幻覺率。

      而真正讓 MiniCPM-V 有希望 “顛覆行業(yè)” 的,是其在邊緣設(shè)備上的高效部署能力。

      傳統(tǒng)多模態(tài)模型只能在云端運行,而 MiniCPM-V 通過 4 位量化、內(nèi)存序貫加載、目標(biāo)設(shè)備編譯優(yōu)化、自動參數(shù)搜索及 NPU 加速等技術(shù),實現(xiàn)了在智能手機、PC 等邊緣設(shè)備上的高效運行,在內(nèi)存需求從 16-17G 降至 5G 的情況下,實現(xiàn)了編碼延遲從 50.5s 降至 17.0s,視覺編碼時間縮短 65%,減少了 45.2% 圖像處理時間。

      在 11 項公開基準(zhǔn)測試中,80 億參數(shù)的 MiniCPM-Llama3-V2.5 展現(xiàn)出顯著優(yōu)勢:在 OpenCompass 評分中超越 GPT-4V(2023.11.16 版本)、Gemini Pro 和 Claude 3 等專有模型,同時在 OCRBench、TextVQA 等文本識別任務(wù)上優(yōu)于 Qwen-VL-Max 等開源模型,表格轉(zhuǎn) Markdown 等實用功能表現(xiàn)突出。與強大的專有模型相比,MiniCPM-Llama3-V 2.5 在參數(shù)數(shù)量顯著更少的情況下實現(xiàn)了更好的性能,更適合廣泛應(yīng)用。


      圖源:Nature

      此外,MiniCPM-V 模型也展現(xiàn)出強大的 OCR 能力,包括場景文本、文檔和截圖理解。模型在 OCRBench、TextVQA 和 DocVQA 上優(yōu)于 1.7B–34B 的開源 MLLMs,20 億參數(shù)的 V2.0 版本性能超過同規(guī)模模型,甚至媲美 80 億參數(shù)模型;幻覺率在 Object HalBench 上低于 GPT-4V。


      圖源:Nature

      效率方面,MiniCPM-V 的推理計算量顯著更低。MiniCPM-Llama3-V 2.5 的視覺 token 數(shù)量范圍是(96,960),低于 LLaVA-NeXT-Llama-3-8B 的(1728,2880),使得其在推理速度、首 token 延遲、內(nèi)存使用和功耗方面更適配實際設(shè)備應(yīng)用。

      不過,盡管性能表現(xiàn)良好,但研究人員也表示,當(dāng)前的 MiniCPM-V 模型仍存在一些局限性,在多模態(tài)理解能力和推理效率方面以及將能力擴展到其他模態(tài)方面仍有很大的改進(jìn)空間。

      02
      為什么完成從 "云端依賴" 到 "端側(cè)自由" 的跨越很重要?

      在我們看來,這篇論文的意義遠(yuǎn)不止于技術(shù)突破,其核心觀點在于,如果能實現(xiàn)多模態(tài)大模型從云端到端側(cè)的全面轉(zhuǎn)型,或許整個行業(yè)能迎來一個新的 “iPhone” 時刻,開啟端側(cè) AI 的黃金時代。

      多模態(tài)大模型的快速發(fā)展為理解、推理和交互的多模態(tài)能力帶來了飛躍,不僅從根本上重塑了人工智能研究和產(chǎn)業(yè)格局,也為通往下一階段人工智能指明了路徑。

      然而,當(dāng)前的多模態(tài)大模型仍遠(yuǎn)未達(dá)到實際應(yīng)用于現(xiàn)實世界的水平,最主要的原因在于多模態(tài)大模型龐大參數(shù)數(shù)量帶來的沉重計算負(fù)擔(dān),使得大多數(shù)模型只能部署在高性能云服務(wù)器上。這一局限性不僅導(dǎo)致了巨大的能源消耗,還限制了多模態(tài)大模型在移動設(shè)備、能源敏感場景、無穩(wěn)定網(wǎng)絡(luò)連接等離線環(huán)境中的潛在應(yīng)用范圍。

      此外,對于多模態(tài)大模型來說,智能手機和計算機等邊緣設(shè)備由于散熱、尺寸限制和功耗等因素,往往面臨資源限制。

      在部署模型時,最關(guān)鍵的兩大限制是內(nèi)存容量和 CPU/GPU 處理速度。高性能服務(wù)器通常擁有龐大的內(nèi)存容量,往往超過 100GB 甚至 1TB,相比之下,手機的內(nèi)存通常在 12GB 到 16GB 之間,這對于 MLLM 部署可能不足。

      另一方面,智能手機中 CPU 的整體處理速度明顯較慢。對比來看,驍龍 8 Gen3 只有 8 個 CPU 核心,Intel Xeon Platinum 8580 則達(dá)到了 60 個 CPU 核心,功效方面,高通 Adreno 750 只有 6 TFLOPS,而 NVIDIA 4090 則可以達(dá)到 83 TFLOPS。

      也正因此,在行業(yè)越來越關(guān)注輕量級多模態(tài)大語言模型的當(dāng)下,面壁智能提出了可在邊緣設(shè)備上部署的 MiniCPM-V 系列,場景涵蓋手機、個人電腦、車輛和機器人等更廣泛的設(shè)備范圍。

      MiniCPM-V 的理念是在性能和效率之間取得良好平衡,有望成為多模態(tài)大模型小型化趨勢的一個代表案例。

      根據(jù)研究人員的說法,在總結(jié)多模態(tài)大模型在性能、參數(shù)和發(fā)布時間方面的最新發(fā)展后,可以觀察到一條類似摩爾定律的趨勢:達(dá)到 GPT-4V 級別性能的模型大小隨著時間的推移迅速減小,這種現(xiàn)象或許可以被稱為 MLLMs 的摩爾定律。

      同時,手機和個人電腦等邊緣設(shè)備的計算能力正在穩(wěn)步增加,這兩種趨勢的融合表明,可在邊緣設(shè)備上部署的可用(例如 GPT-4V 級別)多模態(tài)大模型很快就會落地。

      這種離線智能的實現(xiàn),讓端側(cè)設(shè)備完成了從功能機到智能機的跨越,設(shè)備不再是云端顯示器,而是成為真正的智能主體。


      在多臺邊緣設(shè)備上部署 MiniCPM-V。得益于部署優(yōu)化技術(shù),MiniCPM-Llama3-V 2.5 可以在手機和個人電腦上高效運行,提供可接受的延遲和吞吐量(圖源:Nature)

      在端側(cè)智能的需求下,MiniCPM-V 能夠登上《Nature Communications》,原因之一或許在于其揭開了這場智能革命的一角,推動著 AI 從 "少數(shù)人的工具" 走向 "大眾的能力"的變化。當(dāng) 80 億參數(shù)的模型能在手機上流暢運行,普通人也能在更安全、更多元的場景下享受多模態(tài)智能。

      隨著邊緣計算能力的持續(xù)提升和模型效率的不斷優(yōu)化,AI 普及化的下一個爆發(fā)點,將出現(xiàn)在每個人的指尖之下、設(shè)備之中。邊緣智能的時代,正在加速到來。


      未經(jīng)「AI科技評論」授權(quán),嚴(yán)禁以任何方式在網(wǎng)頁、論壇、社區(qū)進(jìn)行轉(zhuǎn)載!

      公眾號轉(zhuǎn)載請先在「AI科技評論」后臺留言取得授權(quán),轉(zhuǎn)載時需標(biāo)注來源并插入本公眾號名片。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      南京博物院盜賣文物,捐贈后人追查十年遭打碼“證據(jù)”糊弄,失蹤五件國寶還有多少黑幕

      南京博物院盜賣文物,捐贈后人追查十年遭打碼“證據(jù)”糊弄,失蹤五件國寶還有多少黑幕

      爆角追蹤
      2025-12-18 15:36:33
      杭州剛提新車就撞人后續(xù):疑似被撞銷售不幸身亡,涉事司機麻煩了

      杭州剛提新車就撞人后續(xù):疑似被撞銷售不幸身亡,涉事司機麻煩了

      漢史趣聞
      2025-12-18 11:38:12
      確認(rèn):涉刑案!上海市中心,一西裝男子突然當(dāng)街下跪:“對不起,我給你跪下了……”

      確認(rèn):涉刑案!上海市中心,一西裝男子突然當(dāng)街下跪:“對不起,我給你跪下了……”

      環(huán)球網(wǎng)資訊
      2025-12-18 19:49:16
      21號就是冬至了!為什么說今年的冬至可不一般,60年一遇?

      21號就是冬至了!為什么說今年的冬至可不一般,60年一遇?

      阿天愛旅行
      2025-12-17 00:16:32
      鴻蒙系統(tǒng)居然不讓買甲流用藥!用戶憤怒吐槽后,華為客服光速道歉

      鴻蒙系統(tǒng)居然不讓買甲流用藥!用戶憤怒吐槽后,華為客服光速道歉

      回旋鏢
      2025-12-18 19:18:42
      偽史論該歇歇了!浙江宣傳發(fā)文:警惕“1644史觀”帶亂了節(jié)奏!

      偽史論該歇歇了!浙江宣傳發(fā)文:警惕“1644史觀”帶亂了節(jié)奏!

      翻開歷史和現(xiàn)實
      2025-12-17 22:28:42
      張小泉名下浙A邁巴赫被拍賣,已被強制執(zhí)行超31億元

      張小泉名下浙A邁巴赫被拍賣,已被強制執(zhí)行超31億元

      21世紀(jì)經(jīng)濟(jì)報道
      2025-12-18 13:24:14
      珠海一小區(qū)業(yè)主放火燒自家房子,事前疑在群里發(fā)預(yù)告,物業(yè):火已撲滅無傷亡,警方介入

      珠海一小區(qū)業(yè)主放火燒自家房子,事前疑在群里發(fā)預(yù)告,物業(yè):火已撲滅無傷亡,警方介入

      極目新聞
      2025-12-18 17:10:51
      長城魏建軍炮轟兩項熱門技術(shù)!撕開“創(chuàng)新”遮羞布,有人坐不住了

      長城魏建軍炮轟兩項熱門技術(shù)!撕開“創(chuàng)新”遮羞布,有人坐不住了

      火山詩話
      2025-12-18 06:10:56
      俄軍騎兵重現(xiàn)戰(zhàn)場,烏軍單日殲敵1730人

      俄軍騎兵重現(xiàn)戰(zhàn)場,烏軍單日殲敵1730人

      史政先鋒
      2025-12-17 21:01:32
      國羽傳捷報!王祉怡2-0橫掃世界冠軍,小組第1出線,圣壇組合接場

      國羽傳捷報!王祉怡2-0橫掃世界冠軍,小組第1出線,圣壇組合接場

      劉姚堯的文字城堡
      2025-12-18 18:29:37
      泰軍炸掉詐騙園區(qū)、器官移植中心,洪森為何氣急敗壞?

      泰軍炸掉詐騙園區(qū)、器官移植中心,洪森為何氣急敗壞?

      胡嚴(yán)亂語
      2025-12-16 20:33:51
      香港中環(huán)發(fā)生巨額劫案 4持刀男劫走10億日元

      香港中環(huán)發(fā)生巨額劫案 4持刀男劫走10億日元

      看看新聞Knews
      2025-12-18 14:16:03
      國務(wù)院安委會辦公室對21個市級政府開展安全生產(chǎn)約談

      國務(wù)院安委會辦公室對21個市級政府開展安全生產(chǎn)約談

      界面新聞
      2025-12-18 14:41:59
      江蘇文旅廳調(diào)查南博藏品現(xiàn)身拍賣事件,龐萊臣后人不認(rèn)可偽作說法

      江蘇文旅廳調(diào)查南博藏品現(xiàn)身拍賣事件,龐萊臣后人不認(rèn)可偽作說法

      極目新聞
      2025-12-18 14:34:14
      8換1?再見字母哥!湖人掏空所有,豪賭3巨頭,為詹姆斯力拼第5冠

      8換1?再見字母哥!湖人掏空所有,豪賭3巨頭,為詹姆斯力拼第5冠

      毒舌NBA
      2025-12-18 08:49:06
      美啟動111億對臺軍售,不到24小時收到報告:中方取消13萬噸訂單

      美啟動111億對臺軍售,不到24小時收到報告:中方取消13萬噸訂單

      南宮一二
      2025-12-18 13:22:12
      我替首長擋了5槍,他連電話都沒打,我退伍后,剛到火車站就被人攔住

      我替首長擋了5槍,他連電話都沒打,我退伍后,剛到火車站就被人攔住

      張道陵秘話
      2025-12-17 10:20:09
      重情重義!曝許亞軍為何晴付10年醫(yī)藥費,延長生命偷偷打生活費

      重情重義!曝許亞軍為何晴付10年醫(yī)藥費,延長生命偷偷打生活費

      查爾菲的筆記
      2025-12-17 20:23:54
      廣州一公司突發(fā)公告:董事長逝世

      廣州一公司突發(fā)公告:董事長逝世

      南方都市報
      2025-12-18 14:20:30
      2025-12-18 21:43:00
      AI科技評論 incentive-icons
      AI科技評論
      點評學(xué)術(shù),服務(wù)AI
      7012文章數(shù) 20715關(guān)注度
      往期回顧 全部

      科技要聞

      2025新一代人工智能創(chuàng)業(yè)大賽

      頭條要聞

      “法國政變”視頻在臉書瘋傳 馬克龍想刪卻刪不掉

      頭條要聞

      “法國政變”視頻在臉書瘋傳 馬克龍想刪卻刪不掉

      體育要聞

      巴黎首奪世界級冠軍 加冕6冠王比肩巴薩拜仁

      娛樂要聞

      絲芭放大招了!實名舉報鞠婧祎經(jīng)濟(jì)犯罪

      財經(jīng)要聞

      尹艷林:呼吁加快2.5億新市民落戶進(jìn)程

      汽車要聞

      在零下30℃的考場里 凡爾賽C5 X和508L拿到了"穩(wěn)"的證明

      態(tài)度原創(chuàng)

      時尚
      旅游
      家居
      教育
      數(shù)碼

      鞋子專場||穿了五年十年,掏心窩子說,最常穿的還是這一雙!

      旅游要聞

      突發(fā)通報!新疆喀納斯景區(qū):發(fā)生局部雪崩,一人被埋,已無生命體征

      家居要聞

      高端私宅 理想隱居圣地

      教育要聞

      初升高|除了關(guān)注中考,對于綿陽學(xué)生,更重要的是……

      數(shù)碼要聞

      豪威集團(tuán)發(fā)布超低功耗單芯片全彩場序微顯示器賦能新一代智能眼鏡

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 国产熟女精品视频| 激情国产一区二区三区四区小说 | 在线精品视频一区二区三四| 少妇50p| 国产视频最新| 女女互磨互喷水高潮les呻吟| a片在线免费观看| 国产浮力第一页| 精品国产AV无码一区二区三区| 在线天堂资源www在线中文| 国产在线精品一区二区三区直播| 狠狠色AV一区二区| 久久av高潮av喷水av无码| 欧美肥妇多毛bbw| 极品尤物一区二区三区| 日韩av黄片| 三浦在线| 日本伊人色综合网| 97精品人妻系列无码人妻| 狠狠色丁香婷婷综合| 漳州市| 男人天堂2024手机在线| 亚洲红杏AV无码专区首页| 色橹橹欧美在线观看视频高清| a?v天堂99| 通道| 亚洲色图另类| 2020国产欧洲精品网站| 四虎影视在线影院在线观看免费视频| 亚洲熟女乱综合一区二区| 亚洲综合成人亚洲| 白浆网站| 爆乳一区二区| 国产精品老年自拍视频| 乌克兰少妇videos高潮| 亚洲免费观看视频| 精品国产AV| 久久黄色网| 国内少妇人妻偷人精品视频| 免费裸体美女网站| 国产自啪精品视频网站丝袜|