網易首頁 > 網易號 > 正文申請入駐

小模型，也是嵌入式的未來

2025-08-22 08:15:07　來源: EEWorld電子工程世界

北京舉報

分享至

這兩天，英偉達一個最新研究結論讓業界備受關注——小型語言模型（SLM）才是智能體的未來。緊接著，英偉達又拋出了自己的全新小型語言模型：Nemotron-Nano-9B-V2，該模型在部分基準測試中達到了同類產品中的最高性能。

事實上，小型語言模型（SLM）的風，也刮到了MCU和MPU領域。

小模型，就是“壓小”的大模型

小型語言模型（SLM）也許我們早有所接觸。SLM 的參數范圍從幾百萬到幾十億不等，而 LLM 則具有數千億甚至數萬億參數。

SLM是由LLM壓縮而來，壓縮模型需要在縮小模型的同時，盡可能保留模型的準確性。常見方法如下：

知識蒸餾：利用從大型“教師”模型轉移的知識來訓練一個較小的“學生”模型；
剪枝：移除神經網絡架構中冗余或不那么重要的參數；
量化：降低計算中使用的數值精度（例如，將浮點數轉換為整數）。

小型語言模型比大型模型更緊湊、更高效。因此，SLM需要較少的內存和計算能力，非常適合資源受限的邊緣或者嵌入式設備。

許多小而強大的語言模型已經出現，證明大小并非一切。常見的10億到40億的SLM包括Llama3.2-1B（Meta開發的10億參數變體）、Qwen2.5-1.5B（阿里巴巴的15億參數模型）、DeepSeeek-R1-1.5B（DeepSeek的15億參數模型）、SmolLM2-1.7B（HuggingFaceTB，的17億參數模型）、Phi-3.5-Mini-3.8B（微軟的38億參數模型）、Gemma3-4B（Google DeepMind的40億參數模型）。

跑SLM，靠得不光是算力

對MPU來說，跑SLM，似乎不是什么難題。但對開發人員來說，如何知道MCU支持是否支持運行生成式AI？

這個問題沒有單一、直接的答案——不過有一個硬性要求，即MCU的神經處理單元（NPU）必須能夠加速Transformer運行。

除此之外，跑生成式AI，對于MCU的帶寬系統總線以及以及大容量、高速、緊密耦合的內存配置有要求。

其實，現在很多人都去只用GOPS（十億次運算每秒）或TOPS（萬億次運算每秒）來比較微控制器的原始吞吐量，目前性能最佳的MCU能提供高達250GOPS的算力，而用于生成式AI的MCU將至少提供兩倍于此的性能。但原始吞吐量并非衡量實際系統性能的理想指標。

因為成功的生成式AI應用程序需要支持Transformer運算，會在系統內部、內存、神經處理單元、中央處理器以及圖像信號處理器等外圍功能之間傳輸大量數據。因此，一個具有高原始吞吐量的系統理論上或許能快速處理大量數據，但如果系統無法將數據快速傳輸給神經處理單元，實際性能就會十分緩慢，令人失望。

當然，對MPU來說，大帶寬、內存、總線之間的緊密耦合也至關重要。

Aizip與Renesas合作的SLM項目

早在去年8月，Aizip就與Renesas攜手合作，在MPU上展示了用于邊緣系統應用的超高效SLM和緊湊型AI Agents，這些小巧而高效的模型已經集成到基于 Arm Cortex-A55的Renesas RZ/G2L和RZ/G3S主板中。

Aizip創建了一系列超高效的小型語言模型（SLM）和人工智能代理（AI Agents），名為 Gizmo，規模從3億到20億個參數不等。這些型號支持多種平臺，包括適用于廣泛應用的 MPU和應用處理器。

SLM使設備邊緣應用程序上的AI代理能夠提供與大型語言模型（LLM）相同的功能，但在邊緣占用空間上。設備上模型具有增強的隱私保護、彈性作和節省成本等優勢。雖然一些公司已經成功地減小了手機語言模型的大小，但確保在低成本邊緣設備上為自動化應用提供準確的工具調用仍然是這些 SLM 面臨的重大挑戰。

據介紹，在運行頻率為1.2 GHz的單個A55內核的RZ/G2L上，這些SLM可以實現不到3秒的響應時間。

MCU，也在加大對SLM投入

Alif Semiconductor最近發布了最新系列的MCU和融合處理器——Ensemble E4、E6和E8，便主要針對支持SLM在內的生成式AI模型的運行。與此同時，Alif是首家使用 Arm Ethos-U85 NPU（神經處理單元）的芯片供應商，該芯片支持基于Transformer的機器學習網絡。

根據基準測試結果顯示，該系列在不到2毫秒的時間內進行高能效物體檢測、圖像分類時間不到8毫秒、在E4設備上執行的SLM在生成文本以根據用戶提供的提示構建故事時僅消耗36mW的功率。

Ensemble E4（MCU）采用雙Arm Cortex-M55內核，Ensemble E6和E8融合處理器分別基于Arm Cortex-A32內核和雙Cortex-M55內核，值得注意的是E4/E6/E8均搭載雙Ethos-U55+Ethos-U85，算力非常強大。

Alif認為，相比其他制造商，他們布局更早，因為第一代Ensemble MCU系列早在2021年就發布了，從那時起我們就一直在批量出貨E1、E3、E5 和 E7設備。而在其他MCU廠商還停留在第一代AI MCU時，Alif就發布了第二代產品，同時是業界首款支持基于Transformer的網絡的MCU，是LLM和其他生成式AI模型的基礎。

SLM會是嵌入式的未來

SLM在大幅壓縮模型體積的同時，盡可能保留了模型的準確性。這種高效、緊湊的特性，使其完美契合了資源受限的邊緣和嵌入式設備，為這些設備帶來了前所未有的智能能力。

事實上，邊緣AI的未來圖景正在徐徐展開，SLM也會是MCU和MPU廠商會布局的關鍵領域之一。

比如，意法半導體的STM32N6、英飛凌PSoC Edge最新一代MCU、TI的AM62A和TMS320F28P55x、恩智浦的i.MX RT700和i.MX 95、ADI的MAX7800X都開始重視NPU。

嵌入式AI最初主要是在Linux系統上運行的相對昂貴的基于微處理器的產品的一項功能。但很快，市場意識到邊緣和端點設備中也有AI的空間——其中許多設備都是基于MCU。所以，在2025年下半年，先進的MCU廠商都將提供AI功能的產品納入其產品組合中。這些廠商的NPU分為Arm Ethos IP一派和自研一派。目前來看，最新的Ethos-U85開始支持Transformer，并且在半年前展示了搭載SLM的效果，其他廠商也在不斷跟進。在未來，相信SLM也會徹底改變MCU和MPU的格局。

參考文獻

[1]IBM：https://www.ibm.com/cn-zh/think/topics/small-language-models

[2]Hugging-Face：https://hugging-face.cn/blog/jjokah/small-language-model

[3]Alif：https://alifsemi.com/comparing-mcus-for-generative-ai-its-not-just-about-the-gops/

[4]Alif：https://alifsemi.com/who-wins-in-the-race-to-make-ai-mcus/

[5]Arm：https://newsroom.arm.com/blog/small-language-model-generative-ai-edge

歡迎將我們設為“星標”，這樣才能第一時間收到推送消息。

關注EEWorld旗下訂閱號：“機器人開發圈”

回復“DS”領取《DeepSeek:從入門到精通》完整版

掃碼添加小助手回復“機器人”

進群和電子工程師們面對面交流經驗

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.