![]()
核心觀點:
- 小語言模型的巨額融資成為常態,頭部公司的單輪融資額動輒達到數億美金或歐元量級。例如,MistralAI在短短半年內從種子輪(1.05億歐元)迅速躍升至B輪(3.85億歐元),中國的01.AI在A輪融資后估值即超過10億美元,迅速躋身獨角獸行列。
- 與大型云端模型不同,小語言模型憑借其低延遲、高隱私、離線運行能力,在與用戶日常生活緊密相關的智能終端領域率先取得突破性進展。
- 近年來,國家層面通過《關于深入實施“人工智能+”行動的意見》、《國家人工智能產業綜合標準化體系建設指南(2024版)》等頂層設計,明確了智能終端的規模化普及目標,相關政策指出到2027年,新一代智能終端、智能體等應用普及率要超過70%,直接為小語言模型創造了廣闊的市場需求。
- 全球小語言模型市場已初步形成"國際科技巨頭生態壟斷、中國AI獨角獸技術突破、專注型初創快速落地、硬件終端巨頭跨界整合"的多元化競爭格局。
- 中國作為全球最大的智能終端制造和消費市場,在小語言模型領域具有天然優勢。預計中國市場占據全球市場約25-30%的份額,2024年市場規模約為96~115億元人民幣,到2031年或達到336~403億元人民幣。
![]()
(1)定義及優勢
小型語言模型(Small Language Models,SLM)指的是相對于大型語言模型而言,規模較小、參數數量較少的模型,通常情況下,其參數量在數百萬到數幾十億之間。而大型語言模型的參數量則高達千億甚至萬億個,例如OpenAI的chatGPT3.0模型(1750億)。
小語言模型通常在處理特定任務或領域時,能夠以較低的計算成本實現相對不錯的性能。此外,小語言模型在資源有限、需要快速部署或對實時性要求較高的應用場景中亦非常實用。
(2)主要特點及對比
鑒于參數量相對較少,小語言模型在訓練和部署方面,具有成本低、快速響應、特定領域優化、易于集成、可解釋性等優勢。
圖表1小語言模型特點
![]()
信息來源:融中咨詢
總體來說,大模型與小模型在參數數量、訓練數據量、計算資源需求及應用場景方面有區別。大模型(參數十億級以上)依賴海量數據和高算力,適用于高精度復雜任務(如NLP);而小模型參數少,對數據和算力的需求低,成本更低。
圖表2大語言模型與小語言模型的對比
![]()
信息來源:融中咨詢
以Phi-3全系列、Gemma-7b、Mistral-7b等小語言模型的性能數據與Mixtral-8x7b、GPT-3.5-Turbo、Claude-3-Sonnet等大模型進行對比,語言理解、推理、數學、代碼生成等方面,并沒有出現明顯的差異。具體如下圖所示。
圖表3Phi-3-Mini的性能對比
![]()
信息來源:融中咨詢
(3)近期模型
2024-2025年新發布的小語言模型匯總了來自全球頂尖科技公司(如Google、Microsoft、Meta、Apple、NVIDIA、阿里巴巴、騰訊等)和學術機構(如北大),其競爭焦點已從單純追求“參數規模”轉向追求“性能與效率的極致平衡”。開發者們正致力于打造在特定場景下(如邊緣計算、手機端、安全領域)能力卓越,且能耗更低、速度更快的“小而強”模型。
圖表42024-2025年新發布的小語言模型統計
![]()
信息來源:融中咨詢
![]()
小語言模型(SLM)行業自2023年起進入了快速發展期,呈現出從通用模型向專業化、多樣化方向演進的特點。
早期發展(2023年之前):行業起步階段以開源和通用型模型為主,例如Megatron-GPT2、GPT-Neo等。這些模型為后續發展奠定了技術基礎。
爆發增長(2023年及之后):這一年模型發布數量顯著增加,并出現了關鍵趨勢。微軟發布的Phi系列(從Phi-1.5到Phi-2)展示了通過高質量數據訓練小模型的巨大潛力。同時,領域專用模型開始涌現,如AstroLLaMA(天文學),標志著SLMs開始向垂直領域深入。開發團隊也愈發多元,涵蓋了學術界、工業界和開源社區。
深化與專業化(2024年及以后):行業發展進一步聚焦于垂直領域和性能優化。微軟持續迭代其Phi系列(Phi-3,Phi-3.5),其他機構也推出了如ChemLLM(化學)和Hippocrates(醫療)等大量專業模型。同時,技術路徑更加多樣,出現了如Rho-1等專注于代碼訓練的模型。這一趨勢預計將持續到2025年及未來,SLMs正朝著更精細的領域定制、更高的效率以及更廣泛的開發者參與方向演進。
圖表5小語言模型的發展歷史
![]()
信息來源:融中咨詢
![]()
(1)產業鏈結構:端、邊、芯協同生態
小語言模型產業鏈涵蓋硬件基礎設施、算法模型研發及行業終端應用的多層次生態體系。其最顯著的特點是與"端、邊、芯"(終端設備、邊緣計算、芯片)的高度協同。與傳統云端大模型依賴數據中心算力不同,SLM的價值實現必須深度嵌入終端設備的硬件能力和應用場景。
圖表6小語言模型產業鏈結構圖
![]()
信息來源:融中咨詢
上游:數據與硬件支持
小語言模型產業的蓬勃發展,離不開其上游堅實的基礎支撐層,該層級為模型的研發、訓練與部署提供了不可或缺的核心資源。
1)在硬件與算力層面,訓練環節主要由NVIDIA的GPU(如H100/H200)主導,AMD、Intel等廠商也在積極競爭。而在推理環節,尤其是邊緣計算芯片,如高通手機芯片、蘋果的M系列NPU以及Intel的CoreUltraNPU,成為了小模型生態落地的關鍵戰場,它們為模型在終端設備上的高效運行提供了硬件基礎,同時眾多初創公司也致力于開發專用的低功耗AI加速器。
2)AWS、Azure、GoogleCloud等全球云計算平臺則提供了強大的訓練算力與便捷的模型托管服務,顯著降低了研發門檻。其次,高質量的數據與服務是模型智能的源泉,專業的數據供應商提供預訓練數據集與合成數據,而數據清洗與標注公司則為小模型在特定領域的專業化提供了關鍵的精標數據支持。
3)成熟的框架與工具構成了技術棧的基石。以PyTorch、TensorFlow、JAX為核心的開源框架,與HuggingFace的Transformers、Tokenizers等生態工具共同構成了模型開發的標準流程,而ONNX等開放格式則極大地推動了模型的跨平臺部署與應用。
中游:技術研發與模型開發
中游是模型與生態層,作為產業鏈的核心,這里匯聚了多元的參與者,共同推動小語言模型的研發、優化與分發。
1)在模型開發者層面,科技巨頭如Microsoft、Google、Meta和Apple憑借其前沿的Phi、Gemma、Llama及OpenELM等系列模型引領技術方向,并普遍采用開源策略以構建開發者生態,同時為其云業務引流。
2)01.AI、Moondream等頂尖AI實驗室與初創公司則展現出更高的靈活性與專注度,在特定領域或技術點上實現關鍵突破;而充滿活力的開源社區基于巨頭發布的基座模型,進行精細微調、壓縮與優化。
下游:應用場景的落地
在行業應用解決方案上,小模型憑借其能夠本地化部署的優勢,在各個領域發揮優勢。
1)在金融領域,SLM實現智能客服、財報分析和風險審核,嚴格保障數據安全;
2)在醫療領域,SLM輔助臨床決策、結構化病歷,有力保護患者隱私;
3)在教育領域,SLM充當個性化學習助手;
4)在法律領域完成高效的合同審查與案例查詢;
5)在手機與PC上,以端側智能助手的形式實現照片增強、文案創作和實時翻譯;
6)在汽車座艙內,作為車載語音助手提供快速響應、離線可用的交互體驗;
7)在IoT設備中,則成為機器人、智能家居的中控大腦,實現低延遲、低功耗的智能控制。
(2)市場規模:從爆發期邁向成熟期
全球小語言模型市場正處于快速增長通道。2024年市場規模為53.8億美元,到2031年將增長至188億美元,年復合增長率(CAGR)為20.9%。這一增速顯著高于傳統企業軟件市場,反映了端側AI作為新興技術的強勁需求。
中國市場占據全球小語言市場25-30%的份額。中國作為全球最大的智能終端制造和消費市場,在小語言模型領域具有天然優勢。預計中國市場占據全球市場約25-30%的份額,2024年市場規模約為96-115億元人民幣,到2031年將達到336-403億元人民幣。
圖表7全球及中國小語言模型行業規模情況
![]()
數據來源:融中咨詢
![]()
SLM正逐漸成為推動行業智能化變革的關鍵力量。在金融領域,它用于自動化處理財報摘要生成與智能投研信息提取,提升風控與運營效率;娛樂行業利用它創作營銷文案、驅動游戲NPC基礎對話并賦能互動敘事;汽車系統通過集成SLM,打造能理解復雜指令的車載語音助手,提升交互體驗與駕駛安全;教育工具借其提供個性化的學習輔導和交互式語言練習;電商零售則依靠SLM聊天機器人高效處理售前售后咨詢,顯著提升客戶服務體驗與滿意度;在醫療領域,SLM被用于初步的健康問答分診,并輔助完成病歷結構化等行政工作,幫助優化緊張的醫療資源分配。
圖表8小語言模型下游細分結構
![]()
數據來源:融中咨詢
(1)核心應用場景:智能終端引領落地潮
小語言模型的應用落地正處在從"探索孵化期"向"規模應用期"過渡的關鍵階段。與大型云端模型不同,SLM憑借其低延遲、高隱私、離線運行能力,在與用戶日常生活緊密相關的智能終端領域率先取得突破性進展。其應用的核心邏輯在于將智能計算從云端前置到設備本地,為用戶提供更即時、更個性化、更安全的AI體驗,推動AI應用從"能用"向"好用"邁進。
圖表9主要行業小語言模型應用成熟度評估(2024-2025年)
![]()
數據來源:融中咨詢
(2)標桿案例深度剖析
案例一:小米"超級小愛同學"——生態融合的端側AI大腦
小米公司在其澎湃OS(HyperOS)中集成的"超級小愛同學",是SLM在智能手機終端應用的標桿案例。它不再是一個簡單的語音問答工具,而是深度融合了SLM能力的端側AI大腦。
該助手具備強大的多模態交互、全局自然語言搜索、屏幕識別和跨設備執行能力。例如,用戶可以直接用自然語言命令手機"幫我查找上周拍的帶狗的照片,并發送給媽媽",系統能理解指令、識別圖像內容、調用聯系人并執行發送動作。其核心是結合了全生態感知的個人本地信息庫。SLM在端側直接處理和理解用戶的個人數據(如日程、照片、偏好),無需上傳云端,從而具備了高度個性化的記憶能力,極大地保護了用戶隱私。該功能已于2024年11月開始在小米15、小米14等系列機型上推送內測。
案例二:長安馬自達EZ-60——端側模型賦能的智能座艙
面壁智能與長安馬自達的合作,誕生了全球首批搭載純端側大模型并實現量產的車型——MAZDAEZ-60,標志著SLM在智能汽車領域的商業化落地取得了重大突破。
在智能座艙內,SLM作為長安馬自達的車載AI助手,負責處理導航、娛樂、車輛控制等多種語音指令。用戶可以通過自然語言與車輛交互,例如"幫我找一家附近評分高的川菜館,并導航過去",系統能夠理解意圖、搜索信息、規劃路線并啟動導航。車載助手即使在隧道、山區等無網絡環境下,依然能夠提供毫秒級的快速響應和穩定流暢的交互。同時,所有語音交互數據和用戶偏好數據都在車內本地處理,最大限度地保障了用戶的隱私和數據安全。
案例三:GooglePixel的GeminiNano——操作系統級整合
在國際市場,Google的GeminiNano代表了另一種端側AI的落地路徑——通過操作系統級別的深度整合,將SLM能力開放給整個Android生態。GeminiNano推出了1.8B和3.25B兩個參數版本,專為移動設備優化,支持4位量化部署,可在主流Android手機上流暢運行。其核心能力包括設備端文本生成、智能回復建議、實時語音轉寫等。
Google的策略是將GeminiNano作為Android操作系統的基礎AI能力,開放給所有應用開發者調用。這意味著,未來數十億臺Android設備都將內置端側AI能力,開發者無需自己訓練模型,即可為用戶提供智能化體驗。這種"平臺化"策略,與小米、面壁智能的"場景化"落地形成了有趣的對比,反映了不同企業在SLM商業化路徑上的差異化選擇。
圖表10SLM在主流終端的應用功能對比
![]()
信息來源:融中咨詢
![]()
(1)市場參與者圖譜:多元化競爭生態
全球小語言模型市場已初步形成"國際科技巨頭生態壟斷、中國AI獨角獸技術突破、專注型初創快速落地、硬件終端巨頭跨界整合"的多元化競爭格局。
第一梯隊:國際科技巨頭
以Google、Apple為代表。這些企業通過操作系統和芯片的生態控制力,構建了難以撼動的競爭壁壘。Google的GeminiNano深度集成Android系統,覆蓋全球數十億設備;Apple的AppleIntelligence基于自研芯片,強調隱私優先和端云協同,截至2024年Q4,超過10億臺設備將獲得該功能。
谷歌:谷歌的小語言模型(如Gemma)是基于谷歌最強大的大模型(如Gemini)的技術和研究構建的輕量級、開源模型。它們共享相同的技術基礎架構和組件,但在參數規模上進行了精簡,旨在讓更多的開發者和組織能夠輕松獲取和使用先進的AI技術。
Gemma模型的核心特點是輕量級和高度優化,確保它們可以在從移動設備到云端系統等各種計算環境中靈活訪問和運行。谷歌發布了兩個主要版本的Gemma模型,分別為20億參數和70億參數的規模。每個版本都提供預訓練模型和指令調優的變體,以滿足不同開發者的需求和應用場景。
微軟:微軟在小語言模型領域也有著清晰的戰略和出色的產品,微軟開源了一個名為Phi-3-mini的小型語言模型,它擁有38億參數,并在多種任務上展現出了出色的性能。Phi系列(開源模型)是微軟SLM研究的主力軍,已經迭代了多個版本。Phi-3系列(2024年4月發布),Phi-3使用了與Llama2類似的更現代架構,并在一個由高度篩選的網頁數據和合成數據組成的超大數據集上進行了訓練,進一步鞏固了“數據質量至上”的理念。
英偉達:英偉達的SLM代表作是Nemotron和ChatQA系列,但其影響力更體現在它提供的整個開發生態上。與谷歌、微軟等主要從模型研發角度切入不同,英偉達的SLM戰略是其全棧AI帝國藍圖中的關鍵一環,核心思想是:“我們提供從芯片、軟件到模型的一整套最佳實踐,告訴全世界如何最高效地構建和使用SLM。
Meta:Meta的SLM戰略核心非常清晰,Meta強力推進開源,與OpenAI和Anthropic的閉源策略相反,Meta選擇將其最重要的模型(如Llama系列)開源,允許研究者和開發者免費商用、研究和修改。這極大地推動了AI技術的民主化。此外,Meta構建模型家族,Meta不滿足于只發布一個模型,而是構建了從70億到700億參數的完整模型譜系,覆蓋從手機到數據中心的各類場景。同時,Meta注重社區驅動創新,通過開源,Meta吸引了全球最聰明的頭腦在其模型基礎上進行微調、優化和創新,形成了一個強大的飛輪效應。社區貢獻的無數微調版本反過來又增強了Llama生態的活力。
Apple:OpenELM是蘋果在2024年4月發布的一個模型家族,它清晰地展示了蘋果在SLM領域的技術路線。OpenELM是一個基礎語言模型,而非對話模型。它的目的是作為一個強大的起點,供社區和研究者進行微調和進一步開發,同時也向業界展示了蘋果在模型架構上的創新能力。
第二梯隊:中國AI獨角獸
以智譜AI、MiniMax為代表。這些企業在通用大模型領域已建立深厚的技術和資本壁壘,現階段正利用其優勢向下布局端側市場。智譜AI推出GLM-Edge系列,與高通深度適配;MiniMax探索MoE等高效架構以降低推理成本。
此外,阿里巴巴的SLM戰略是其宏大AI藍圖中的關鍵一環,旨在滿足不同場景下的算力和效率需求。Qwen2.5系列是阿里巴巴最新一代的小語言模型,這是目前阿里最新、最強大的模型家族,其中包含了多個卓越的小模型,包括Qwen2.5-1.5B/3B/7B、Qwen2.5-72B-IN-9B等。
第三梯隊:專注型初創企業
以面壁智能為代表。此類企業自創立之初就聚焦于端側AI和輕量化模型賽道,技術迭代迅速,商業化落地目標明確。其核心優勢在于技術專注度和靈活性,能夠快速響應市場需求。
第四梯隊:硬件及終端巨頭
以小米、地平線為代表。小米通過自研"超級小愛同學",將SLM能力深度集成到手機和IoT產品生態中;地平線則作為上游芯片領導者,通過提供高性能車規級AI芯片,賦能下游智能汽車應用。
此外,vivo的“藍心大模型”是一個覆蓋不同規模的模型家族,其中端側模型是其重中之重,也是一個典型的代表。其中藍心大模型7B(70億參數)及以下,這是vivo端側能力的核心,主要包括藍心大模型7B,這是能夠在旗艦機型上流暢運行的、能力最全面的端側模型。它負責處理手機端大部分復雜的AI任務。
(2)核心競爭力分析:技術、生態、場景三維博弈
不同類型的參與者圍繞技術、生態和場景三個維度構建自身的核心競爭力,形成了差異化的競爭格局。
圖表11全球小語言模型競爭格局分布
![]()
信息來源:融中咨詢
(3)國內代表企業分析
面壁智能——專注端側,快速迭代
面壁智能是當前中國SLM賽道中最具代表性的領跑者。公司成立于2022年8月,核心戰略是專注于端側AI和小語言模型的研發。其推出的MiniCPM系列輕量化模型,在輕量化與高性能方面表現突出。其最新模型可在端側設備上實現GPT-3.5級別的性能,而參數量大幅減少。公司堅持開源戰略,模型在HuggingFace等平臺廣受認可,截至2025年5月,全平臺下載量累計已突破1000萬。它通過創新的模型壓縮、量化和蒸餾技術,在保持性能的前提下,將模型規模壓縮到可以在手機、車機等終端設備上流暢運行的程度。
面壁智能的商業化路徑清晰且迅速。2025年4月,其端側模型成功搭載于長安馬自達MAZDAEZ-60量產車型上,完成了車規級場景的重大突破。這是全球首批搭載純端側大模型并實現量產的車型,具有里程碑意義。車規級應用的難度遠高于消費電子。它要求模型不僅性能優異,還要滿足極端溫度、振動、電磁干擾等嚴苛環境下的穩定運行,以及汽車行業對安全性的極高標準。面壁智能的成功,證明了其技術的成熟度和工程化能力。
憑借清晰的技術路線和商業化進展,面壁智能獲得了資本市場的高度認可。在2024年12月至2025年5月的半年內,連續完成兩輪由龍芯創投、北京市人工智能產業投資基金、洪泰基金等參與的數億元融資。這種密集融資節奏反映了投資方對其長期價值的看好,也為公司后續的技術研發和市場拓展提供了充足的資金支持。
地平線——車規芯片,生態賦能
地平線是SLM產業鏈上游的核心企業,是邊緣人工智能芯片的全球領導者,也是國內唯一實現車規級AI芯片大規模量產前裝的企業。地平線是國內首家、也是目前規模最大實現車規級AI芯片前裝量產的企業。征程系列芯片出貨量已達數百萬片,與超過30家國內外主流車企建立了合作關系。截至2024年底,其芯片已搭載于超過200萬輛汽車上,覆蓋比亞迪、長城、上汽、理想等主流車企。
圖表12地平線征程系列芯片算力對比
![]()
信息來源:融中咨詢
公司基于自研的BPU(BrainProcessingUnit)人工智能專用計算架構,打造了征程(Journey)系列芯片。其征程5單芯片算力可達96TOPS,最新的征程6系列性能更強,能夠滿足L2至L4級自動駕駛的算力需求。BPU架構的核心優勢在于,針對AI推理任務進行專門優化,相比通用GPU,在能效比和成本上具有顯著優勢。這使得地平線的芯片能夠在車載這種對功耗、散熱、成本都有嚴格限制的場景下,提供強大的AI算力。
公司與上汽、小米等頭部企業及超過20家機器人廠商建立了深度合作關系。通過提供強大的、開放的芯片平臺,地平線為下游廣大的SLM模型和應用廠商提供了堅實的硬件基礎。這種開放生態策略的價值在于,通過成為產業鏈的"基礎設施提供者",地平線不僅能夠獲得芯片銷售收入,更重要的是在整個產業生態中占據了不可或缺的核心地位,建立了長期的競爭壁壘。
地平線的商業模式正在從單純的芯片銷售,向"芯片+算法+工具鏈"的整體解決方案演進。公司不僅提供硬件,還提供配套的算法開發工具、模型優化服務,幫助客戶快速將AI能力落地到產品中。這種轉型使得地平線能夠獲取更高的產品附加值,同時也加深了與客戶的綁定關系。
阿里巴巴——算力支持,性能領先
阿里巴巴集團控股有限公司是中國領先的互聯網科技企業,創立于1999年,是開源模型領域的積極推動者之一。其通義千問團隊既研發千億級別的超大模型以處理核心難題,也大力推廣其1.8B、7B等“輕量化”模型,以滿足端側部署和低成本快速響應的需求,形成了完整的技術覆蓋。其Qwen1.5系列提供了從0.5B到72B的完整模型矩陣,其中1.8B、4B、7B等輕量化模型在同等規模中性能表現相對領先。
通義千問團隊背靠阿里云遍布全球的數據中心和強大的算力設施(如倚天710等自研芯片),在模型訓練和推理上具備顯著優勢。在落地場景方面,阿里巴巴龐大的電商、支付、物流、文娛等業務生態,為通義千問模型提供了海量的真實世界測試數據和落地場景,這是絕大多數團隊不具備的獨特優勢。
深度求索——技術驅動,垂直領域突出
深度求索(DeepSeek)成立于2023年,總部位于杭州,由幻方量化孵化,專注于人工智能底層模型與技術的研發。DeepSeek-V2及其Lite版本是其重要的模型產品。他們的DeepSeek-Coder系列在代碼模型領域表現優異。
深度求索專注于“高效性能”的核心技術路線。DeepSeek-V2采用了創新的MoE(混合專家)架構,總參數量為236B,但通過路由機制每次推理僅激活約21B參數,實現了以較低的計算成本獲得接近大模型的性能。深度求索公司通過技術驅動,在代碼和數學等垂直領域能力突出,堅持開源策略,具有較高的成本效益比。
全志科技——“算力底座”,芯片賦能
全志科技的芯片產品作為底層算力平臺,對小語言模型在端側設備的普及和高效運行提供了關鍵支持。全志科技成立于2007年,2015年在創業板上市,主營業務涵蓋智能應用處理器SoC、高性能模擬器件及無線互聯芯片的研發與銷售。全志科技2025年上半年營業收入為13.37億元,同比增長25.82%;歸屬于上市公司股東的凈利潤1.61億元,同比增長35.36%。
近年來,全志科技發布的多款新一代SoC(如MR系列、R系列和H系列的部分型號)都原生集成了專用NPU。這意味著芯片在設計階段就為AI計算進行了優化,能夠高效地執行小語言模型的推理任務。此外,全志科技正致力于深化“算力底座”的角色,通過推出算力更強的AIoT芯片,并與模型廠商深度合作,為客戶提供“推薦芯片型號+適配的輕量級模型+優化部署工具”的一站式解決方案,極大降低終端產品實現AI智能化門檻。
![]()
(1)政策環境:從"通用鼓勵"到"精準扶持”
2024至2025年,中國AI產業的政策環境呈現出清晰的結構性傾斜——從對通用大模型的全面鼓勵,轉向對應用落地和算力高效性的精準扶持,為小語言模型(SLM)和端側AI的發展打開了關鍵的政策窗口期。
國家層面通過《關于深入實施“人工智能+”行動的意見》、《國家人工智能產業綜合標準化體系建設指南(2024版)》、《“十四五”數字經濟發展規劃》等頂層設計,明確了智能終端的規模化普及目標,直接為SLM創造了廣闊的市場需求。其政策信號明確,政策指出到2027年,新一代智能終端、智能體等應用普及率要超過70%,這意味著未來三年內,數以億計的智能設備將需要配置高效的端側AI能力。
同時,地方政府政策迅速跟進。北京作為AI產業的政策高地,出臺《北京市推動"人工智能+"行動計劃(2024-2025年)》,為面壁智能等本地端側AI企業提供了從研發補貼到場景開放的全方位支持。深圳也發布了《深圳市加快推動人工智能高質量發展高水平應用行動方案(2023—2024年)》。
圖表13中國小語言模型(SLM)扶持政策
![]()
信息來源:融中咨詢
(2)融資動態:資本聚焦"輕量化"新賽道
近年來對小語言模型的投資呈現出巨額資本集中于頭部項目、于近年全球性爆發、并由戰略性和生態性投資驅動的鮮明趨勢。
小語言模型的巨額融資成為常態,彰顯資本對其的強烈信心。如下圖所示,頭部公司的單輪融資額動輒達到數億美金或歐元量級。例如,MistralAI在短短半年內從種子輪(1.05億歐元)迅速躍升至B輪(3.85億歐元),彰顯了資本對其的強烈信心。中國的01.AI在A輪融資后估值即超過10億美元,迅速躋身獨角獸行列。這表明市場愿意為平臺的潛在價值支付高額溢價。
小語言模型融資近年來全球爆發。2023年是小語言模型融資的爆發年,下圖中大部分核心融資事件(MistralAI兩輪融資、Cohere的C輪、HuggingFace的D輪等)都密集發生在2023年。這表明在ChatGPT帶來生成式AI熱潮后,市場意識到小語言模型是具有商業化潛力的方向,資本在當年集中涌入。融資事件覆蓋了美國(AdeptAI)、歐洲(MistralAI)和中國(01.AI,智譜AI),形成了北美、歐洲、亞洲三足鼎立的競爭格局。
融資階段從早期到成長期并重,戰略投資占據主導地位。小語言模型的融資市場不僅限于早期投資(種子/A輪),B輪、C輪乃至D輪的成熟期項目同樣活躍。這說明一批領先的初創公司已經跑通了技術或初步商業模式,獲得了持續的大額資金支持以加速擴張。此外,小語言模型的投資方名單中出現了阿里云、小米等產業資本,以及a16z、Lightspeed等頂級風投。產業資本的深度參與,意味著小語言模型的發展與各大科技公司的云服務、硬件生態等核心戰略緊密綁定。
圖表14全球重點小語言模型融資情況
![]()
信息來源:融中咨詢
![]()
安全與濫用風險:AIBussiness研究指出,由于SLMs的代碼是開源的,數據盜竊和隱私問題等安全風險會更加嚴重。浙江大學區塊鏈與數據安全全國重點實驗室發現,近50%的SLMs在遭受越獄攻擊時顯示出高脆弱性,開發人員需從開發早期階段優先考慮安全設計原則。
模型泛化能力風險:SLMs雖然在特定任務中表現優秀,但在應對更廣泛、多變的場景時,如復雜推理、跨領域知識整合上,往往難以維持高效表現。相較于LLMs,SLMs可能更容易受到數據偏見的影響,缺乏足夠的適應能力。盡管SLMs在特定場景表現良好,但在復雜推理、代碼生成等任務上仍難以匹敵大規模LLMs。
數據質量風險:如果訓練數據中存在偏差或不平衡,小模型可能會在特定場景下表現出較低的泛化能力,甚至產生不準確的預測或生成內容。因此,要確保訓練數據的質量。一方面,在數據清洗時要進行去噪處理,通過去除重復項、糾正標注錯誤等方式來提高數據質量。另一方面,要結合外部的知識庫,彌補數據中存在的不足,增強模型的泛化能力。
小模型局限性風險:小語言模型通常設計為專門處理特定領域或任務,因此其知識庫相對有限,難以應對跨領域的復雜問題。為了解決小模型使用局限性的問題,一是模塊化設計,將小模型設計為可擴展的模塊系統,可以通過引入專門的插件或外部知識庫,擴充其對不同主題的處理能力。二是多模型集成,通過將多個小模型進行集成,形成一個組合型的系統,充分發揮每個模型在特定領域的優勢。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.