![]()
你有沒有注意到,在昨晚的蘋果WWDC大會(huì)上,除了褒貶不一的新iOS系統(tǒng)之外,整個(gè)資本市場(chǎng)和開發(fā)者們真正關(guān)注的都是,蘋果下一代系統(tǒng)和AI之間的關(guān)系會(huì)是什么樣的。
蘋果也確實(shí)給出了他們的答案,簡單來說就是:蘋果正式開放了本地語言模型的API。
是的,那一刻起,我們手上的iPhone,不再只是一個(gè)拍照好、生態(tài)強(qiáng)的消費(fèi)電子產(chǎn)品,而是真正擁有了“AI大腦”的能力。
但很快你會(huì)發(fā)現(xiàn),即便蘋果這次開放的本地模型性能對(duì)標(biāo)GPT-3.5,開發(fā)者要真正在端側(cè)跑起來AI應(yīng)用,仍然會(huì)遇到一個(gè)老問題:慢。不只是模型體積問題,更是推理速度不夠快,尤其在處理長文本任務(wù)時(shí),性能掉得厲害。
然而,就在幾乎同一時(shí)間,一家國產(chǎn)AI團(tuán)隊(duì)發(fā)布了一個(gè)性能驚人的新模型——MiniCPM 4.0。他們?cè)诙藗?cè)處理128K長文本時(shí),實(shí)現(xiàn)了常規(guī)場(chǎng)景5倍提速,解碼速度最高220倍提升,并且開源了。
![]()
本地模型的黃金時(shí)代正在開啟
我們都知道云端大模型雖然強(qiáng)大,但也貴得離譜,AI創(chuàng)業(yè)者經(jīng)常要面對(duì)這樣一個(gè)選擇:
用云端大模型,用戶體驗(yàn)好,但成本跟著調(diào)用次數(shù)線性上漲,越火越虧錢;
用云端低成本模型,雖然能控成本,但要么模型效果差,要么依然無法解決本地運(yùn)行的隱私問題,用戶留不住。
本地模型(也叫“端側(cè)模型”)則是這一局博弈中的“第三條路”:
響應(yīng)快:所有計(jì)算本地完成,沒有網(wǎng)絡(luò)延遲。
更安全:隱私數(shù)據(jù)不出設(shè)備,天然符合合規(guī)要求。
不花錢:開發(fā)者不再為每次調(diào)用買單,邊際成本幾乎為零。
蘋果這次的發(fā)布就是在推這件事:把基礎(chǔ)模型塞進(jìn)每臺(tái)iPhone、iPad、Mac里,直接變成AI開發(fā)的“新基建”。而這對(duì)模型廠商來說,意味著一個(gè)億級(jí)設(shè)備體量的新戰(zhàn)場(chǎng)已經(jīng)打開。
MiniCPM 4.0
說回MiniCPM 4.0,它來自一家名叫面壁智能的團(tuán)隊(duì),專注做端側(cè)模型已經(jīng)很多年,這次他們做出了一個(gè)極具想象力的“小鋼炮”。
在極限場(chǎng)景下,MiniCPM 4.0的長文本推理速度可以實(shí)現(xiàn)最快220倍提升,常規(guī)場(chǎng)景下也有5倍提速。對(duì)于端側(cè)設(shè)備來說,這不是性能優(yōu)化,這是質(zhì)變:
以前手機(jī)只能做簡單問答,現(xiàn)在可以一秒內(nèi)讀懂整篇論文、分析代碼,真正成為生產(chǎn)力工具;
原本AI對(duì)話還會(huì)卡頓,現(xiàn)在你點(diǎn)一下模型就瞬間回你;
不需要聯(lián)網(wǎng),不依賴云端,你自己的AI,離你更近了。
提速背后的秘密
要在手機(jī)、PC等端側(cè)設(shè)備上實(shí)現(xiàn)這么夸張的提速,我覺得實(shí)在是有點(diǎn)離譜,所以我很好奇MiniCPM是怎么做到的,國產(chǎn)大模型公司怎么會(huì)有那么多“黑科技”。
所以,為了搞懂這件事,我把面壁這次隨模型發(fā)布的43頁開源論文《MiniCPM4: Ultra-EfficientLLMson End Devices》丟給了AI,嘗試進(jìn)行理解。我覺得用一句話概括就是:不是簡單“減肥”,而是“系統(tǒng)級(jí)瘦身 + 增強(qiáng)”。
他們的速度升級(jí)來自四個(gè)層面的創(chuàng)新:
架構(gòu)層:采用升級(jí)版的稀疏注意力機(jī)制 InfLLM v2,只計(jì)算最相關(guān)的信息,大幅減少計(jì)算量;
訓(xùn)練層:只用同類模型22%的訓(xùn)練數(shù)據(jù),就達(dá)到了相當(dāng)甚至更強(qiáng)的能力;
推理層:自研 CPM.cu 推理框架,結(jié)合量化、投機(jī)解碼等技術(shù),實(shí)現(xiàn)了輕量級(jí)、低延遲的本地運(yùn)行;
系統(tǒng)層:通過 ArkInfer 框架,實(shí)現(xiàn)跨平臺(tái)端側(cè)部署,適配主流芯片,如高通、華為、Intel等。
這里可以特別說一句:雖然蘋果開放了模型API,但真正要把模型“跑起來”,一個(gè)高效穩(wěn)定的推理框架幾乎是剛需。而這類框架在開源社區(qū)中其實(shí)非常稀缺。面壁這次隨MiniCPM 4.0一起開源的ArkInfer和CPM.cu組合,恰好補(bǔ)上了這個(gè)缺口——不僅跑得快、平臺(tái)適配廣,而且開發(fā)門檻低,幾行代碼就能部署到端側(cè),這對(duì)于開發(fā)者來說是非常實(shí)用的“剛需型工具”。
簡單來說,這不是靠“堆GPU”搞出來的,而是像F1賽車一樣,每一寸系統(tǒng)都在為效率而生。
![]()
不止是“快”
AI開發(fā)者會(huì)知道,這種從“幾秒”到“幾百毫秒”的體驗(yàn)提升,會(huì)引發(fā)三個(gè)重要變化:
首先,用AI交互變得說話一樣順暢,無論是旅行場(chǎng)景下的實(shí)時(shí)翻譯、智能助理還是游戲NPC,瞬時(shí)響應(yīng)會(huì)成為“標(biāo)配體驗(yàn)”;
其次,更多AI任務(wù)可以本地完成,比如信息摘要、文檔寫作、代碼生成,對(duì)于現(xiàn)在少了AI幾乎就不會(huì)做任何工作的我來說,坐飛機(jī)、高鐵等網(wǎng)絡(luò)不穩(wěn)定的場(chǎng)景下,我也能工作了;
最后是開發(fā)者生態(tài)被重新激活,未來不僅是手機(jī)App,還有無數(shù)穿戴設(shè)備、邊緣終端,都可以跑得動(dòng)自己的AI。以我自己來說,雖然我已經(jīng)用AI開發(fā)了很多產(chǎn)品,但少有AI產(chǎn)品,因?yàn)樽鲇蠥I功能的產(chǎn)品面臨的最直接的問題就是成本問題,你需要能保證你提供的產(chǎn)品價(jià)值能覆蓋調(diào)用的AI API成本,而且你需要思考清楚商業(yè)策略讓用戶愿意付費(fèi),這期是難倒了一大批的獨(dú)立開發(fā)者,也會(huì)讓你做產(chǎn)品時(shí)很難抉擇,但是端側(cè)模型的“0成本”調(diào)用完全可以解放這部分估計(jì),你只需要去想象創(chuàng)新的可能就好了。
AI在你手上
蘋果率先提供了端側(cè)AI的舞臺(tái)(估計(jì)Google為安卓系統(tǒng)提供的模型也快趕上了),而MiniCPM 4.0讓我們看到真正能“跑起來”的主角長什么樣。
隨著模型越來越高效、部署越來越便捷,我們正站在一個(gè)新階段的門口:
AI不再只是“線上服務(wù)”,而是像操作系統(tǒng)、電池一樣,成為每臺(tái)設(shè)備的內(nèi)建能力。
就像智能手機(jī)點(diǎn)燃了App經(jīng)濟(jì)那樣,下一輪AI浪潮,將由“跑得動(dòng)”、“用得上”、“快到飛起”的端側(cè)模型引爆。
而MiniCPM 4.0,就是那臺(tái)準(zhǔn)備好沖線的“AI小鋼炮”。
如果你是開發(fā)者,強(qiáng)烈推薦去 GitHub 看看這款模型的表現(xiàn);這是個(gè)從模型參數(shù)到預(yù)訓(xùn)練數(shù)據(jù)集,再到端側(cè)推理框架都開源的真開源模型;
如果你是AI產(chǎn)品創(chuàng)業(yè)者,不妨考慮下下一版是不是可以用端側(cè)方案來做出點(diǎn)“爽感”不一樣的體驗(yàn);
畢竟,在今天的大模型時(shí)代,“快”從來不是一個(gè)小指標(biāo),它可能是一整個(gè)產(chǎn)品邏輯的起點(diǎn)。
MiniCPM GitHub鏈接:https://github.com/OpenBMB/MiniCPM
Huggingface鏈接:https://huggingface.co/openbmb/MiniCPM4-8B
43頁開源論文:https://github.com/OpenBMB/MiniCPM/blob/main/report/MiniCPM_4_Technical_Report.pdf
https://arxiv.org/pdf/2506.07900
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.