“TinyML將在未來10年成為MCU市場的最大推動力。未來五年內,公司5億個MCU將運行某種形式的TinyML 或AI工作負載。”意法半導體微控制器和數(shù)字IC事業(yè)部總裁Remi El-Ouazzane曾經這樣說道。
TinyML(Tiny Machine Learning)是一種在資源受限的微控制器和邊緣設備上運行機器學習模型的技術。目標是在低功耗、低內存和低計算資源的設備上實現(xiàn)高效的機器學習算法,以支持實時數(shù)據(jù)處理和決策。它們的功能雖然不如大型語言模型(LLM)那樣通用,但在特定任務上表現(xiàn)出色,例如通過圖像識別植物病害,準確率可達95%~99%。
用人話解釋,就是“小而強”的機器學習,力求能在MCU之類低功耗設備上運行。因為MCU沒有DRAM,沒有操作系統(tǒng)(OS),并且嚴格的內存限制(SRAM小于256kB,F(xiàn)LASH為只讀)。
用一組數(shù)據(jù)也能解釋TinyML的重要性:TinyML每臺設備(包括傳感器)的成本為2美元~60美元,每臺設備的平均功耗≤1~100毫瓦;而LLM每顆AI芯片平均成本20K~70K美元,需要數(shù)萬顆芯片,每顆AI芯片的平均功耗700~1200瓦。
近年來,巨頭們紛紛押注TinyML。隨著AI技術進一步發(fā)展,這一市場正在逐漸爆發(fā)。
巨頭押注TinyML
目前,比較出名的TinyML或者AutoML包括SensiML、Stream Analyze、Qeexo AutoML、NanoEdge AI Studio、Imagimob(英飛凌收購)、Reality AI(瑞薩收購)、Neuton.ai(Nordic收購)、Edge Impulse(高通收購)、eIQ ML(NXP)等,很多MCU廠商都選擇與這些廠商合作,提供完整的邊緣AI解決方案。
當然,為了補全自己的邊緣AI版圖,其中不乏許多收購:2022 年 7 月,瑞薩電子收購嵌入式AI和TinyML解決方案優(yōu)秀供應商Reality Analytics, Inc.(Reality AI),成為了瑞薩電子的間接全資子公司;2023年5月,英飛凌宣布已收購位于斯德哥爾摩的TinyML和AutoML初創(chuàng)企業(yè)Imagimob。
而今年,隨著AI進一步火熱,加上Agentic AI(自主智能體AI)在邊緣端興起,廠商開始加快對于TinyML的投入力度。迄今為止,共有三樁收購案值得關注:
今年3月,高通(Qualcomm)宣布將收購邊緣AI開發(fā)平臺Edge Impulse,希望此舉能擴展其對支持IoT的產品的AI能力。
Edge Impulse在TinyML領域的地位不可小覷。Edge Impulse 的開發(fā)平臺包括用于數(shù)據(jù)收集和準備、模型訓練、部署和監(jiān)控的工具,具有少量代碼或無代碼界面。開發(fā)人員使用 Edge Impulse 的平臺將計算機視覺、時間序列數(shù)據(jù)、音頻事件和語音識別等 AI 功能添加到資產跟蹤和監(jiān)控、制造、異常檢測和預測性維護系統(tǒng)中的嵌入式系統(tǒng)中。
今年4月,意法半導體(ST)收購加拿大AutoML初創(chuàng)公司Deeplite。Deeplite號稱邊緣AI的DeepSeek,該公司在模型優(yōu)化、量化和壓縮方面有獨特技術,可使AI大模型在邊緣設備上運行得更快、更小、更節(jié)能。
6月17日,在收購AI硬件IP初創(chuàng)公司Atlazo兩年后,Nordic Semiconductor收購了 Neuton.ai,這是一家用于微控制器級AI的TinyML工具公司。Neuton的技術為時間序列數(shù)據(jù)應用程序開發(fā)了特定于應用程序的神經網絡算法,該算法比傳統(tǒng)神經網絡方法小10倍之多。通過將 Nordic 的 nRF54 系列超低功耗無線 SoC 與 Neuton 的神經網絡框架相結合,現(xiàn)在可以為資源最受限的設備帶來可擴展的高性能 AI。
Neuton是Edge Impulse的競爭對手,目前已經與北歐競爭對手合作,包括 ST 和Silicon Labs。雖然目前Neuton沒有終止任何客戶合作的計劃,但計劃在未來專注于Nordic硬件。
隨著廠商補全自己的軟件算法層面的方案,市場更加熱鬧了。
TinyML的現(xiàn)在和未來
“TinyML將使AI無處不在。”這是Science一篇文章所說的話。
TinyML是機器學習 (ML) 領域的一個分支,專注于在資源極其有限的設備上運行AI模型,例如物聯(lián)網 (IoT) 設備和微控制器 (MCU)。這些設備通常只有幾百KB內存,沒有操作系統(tǒng),并且處理能力遠低于智能手機或云計算服務器。TinyML 帶來了多項關鍵優(yōu)勢,包括成本效益、低功耗、實時響應、數(shù)據(jù)隱私、無需網絡連接。
目前,TinyML和AI大模型一樣,主要關注推理和訓練兩個方向。
推理方面,近年來,TinyML及其在MCU上的深度學習應用飛速發(fā)展,不過對于TinyML來說,也有挑戰(zhàn),主要在于內存和計算性能的局限性上。例如,一款常見的MCU可能僅有數(shù)百KB的SRAM(用于讀寫數(shù)據(jù))和1MB的閃存(用于存儲模型),同時處理器速度也遠低于普通電腦。為了克服這些限制,研究人員提出了多種解決方案,主要分為算法優(yōu)化和系統(tǒng)優(yōu)化兩大類。
算法解決方案常見的方法包括模型壓縮(通過剪枝、量化和張量分解來減小模型大小)、知識蒸餾(和DeepSeek類似,用教師模型轉移給小型學生模型)、網絡結構設計、神經架構搜索(NAS,例如TinyNAS和MicroNets)、統(tǒng)一設計搜索空間(UDC)。
系統(tǒng)解決方案側重于優(yōu)化部署和運行環(huán)境,以適應MCU硬件限制。主流的深度學習框架(如 PyTorch、TensorFlow)因其龐大的運行時開銷而不適用于 MCU,因此出現(xiàn)了專門針對微控制器的輕量級框架和技術:
優(yōu)化內核庫:如CMSIS-NN和X-Cube-AI,提供針對ARM Cortex-M處理器優(yōu)化的深度學習運算內核,以提高速度、減少內存占用和提高能效;
輕量級運行時系統(tǒng):TensorFlow-Lite Micro (TF-Lite Micro) 是最早支持裸機MCU的深度學習框架之一。TinyEngine(MCUNet的一部分)則將大部分操作從運行時轉移到編譯時,并優(yōu)化整體網絡內存調度;
編譯技術:通過優(yōu)化循環(huán)嵌套、重新排序操作執(zhí)行或臨時交換數(shù)據(jù)來減少內存需求;
混合精度內核庫:如CMix-NN,支持混合精度量化,進一步減少內存占用;
逐塊推理調度:MCUNetV2提出的通用逐塊推理調度,使得高分辨率輸入在MCU上成為可能,通過分塊處理顯著減少峰值內存使用;
內存擴展:TinyOps結合快速內部存儲器和慢速外部存儲器,通過直接存儲器訪問 (DMA) 擴大內存并加速推理;
簡潔的推理內核庫:TinyMaix專注于提供優(yōu)化且易于理解的推理內核庫。
訓練方面,在小型設備上直接進行模型訓練日益受到關注。設備上訓練能提供個性化服務并保護用戶隱私,因為數(shù)據(jù)無需上傳到云端。然而,訓練比推理更具挑戰(zhàn)性,因為它需要存儲中間激活和梯度,對內存和計算操作的要求更高。
研究人員正積極探索減少訓練內存占用的方法,包括輕量級網絡設計與NAS、內存與計算的權衡、分層訓練、激活剪枝、優(yōu)化器與量化。
近期,多項研究致力于在MCU上實現(xiàn)更高效的設備上訓練,包括Tiny-Transfer-Learning、TinyOL、POET (Private Optimal Energy Training)、MiniLearn、MCUNetV3。
![]()
![]()
![]()
TinyML未來大有可為
全球邊緣AI市場預計將實現(xiàn)顯著增長,這預示著TinyML在未來十年將扮演越來越重要的角色。根據(jù)預測,全球邊緣AI市場規(guī)模將從2023年的190億美元增至2033年的約1630 億美元。
![]()
目前來看,推動TinyML發(fā)展的核心要素包括幾個:第一,MCU硬件性能越來越強大,存儲空間越來越大,為TinyML提供更強大的基礎;第二,MCU廠商和第三方廠商在關鍵工具上優(yōu)化越來越多,更容易使用;第三,NPU在MCU中開始興起,加強了TinyML的發(fā)展;第四,如量化、剪枝之類的AI模型壓縮技術不斷在發(fā)展;第五,MLOps(機器學習運維)等工具的進步,使得在云端訓練的模型能夠更快、更高效地部署到TinyML硬件上,從而縮短了價值實現(xiàn)時間,幫助項目突破概念驗證(PoC)階段。
當然,盡管前景廣闊,TinyML市場的發(fā)展也面臨一些障礙,其中之一是IoT設備的生命周期。對于那些生命周期長達五年或更長的現(xiàn)有IoT項目,尤其是在工業(yè)領域,將TinyML整合為一種良好且自然的解決方案可能比想象中更具挑戰(zhàn)性。
由于TinyML應用多元性和高度定制化需求,僅僅依靠原廠完成所有開發(fā)是困難的。對具體應用場域的深刻理解(Know-how),是推動TinyM 落地的關鍵。這些領域知識通常掌握在電子行業(yè)之外的專業(yè)人士手中,且因地域不同而千差萬別。因此,提供開源平臺變得尤為重要。
目前,TinyML的先驅SensiML已經開源了自己的工具。SensiML Analytics Toolkit 提供了一個端到端的開發(fā)平臺,涵蓋數(shù)據(jù)收集、標記、算法和固件自動生成及測試,通過獨特的數(shù)據(jù)收集和標記方法解決了人工智能項目中最常見的失敗問題。SensiML提供了最全面的功能,從簡單的點選式用戶界面模型創(chuàng)建到模型構建和測試工作流的完整流水線控制。
對于MCU來說,有些場景需要實現(xiàn)的功能非常簡單,AI也許并非一個必選項,這或許會是TinyML的瓶頸之一。此外,讓MCU開發(fā)人員掌握各種AI技能,也會是一個挑戰(zhàn),相關人才的建設也需要很久的時間。
不過,市場趨勢就在這里,也許過些年,這些問題會隨著開發(fā)工具和算法不斷迭代,迎刃而解。
參考文獻
[1]Science:https://www.science.org/content/article/what-s-tinyml-global-south-s-alternative-power-hungry-pricey-ai
[2]J. Lin, L. Zhu, W. -M. Chen, W. -C. Wang and S. Han, "Tiny Machine Learning: Progress and Futures [Feature]," in IEEE Circuits and Systems Magazine, vol. 23, no. 3, pp. 8-34, thirdquarter 2023, doi: 10.1109/MCAS.2023.3302182. keywords: {Deep learning;Training;Adaptation models;Microcontrollers;Memory management;Inference algorithms;Tiny machine learning;Microcontrollers;Machine learning;TinyML;efficient deep learning;on-device training;learning on the edge},
歡迎將我們設為“星標”,這樣才能第一時間收到推送消息。
關注EEWorld旗下訂閱號:“機器人開發(fā)圈”
回復“DS”領取《DeepSeek:從入門到精通》完整版
掃碼添加小助手回復“機器人”
進群和電子工程師們面對面交流經驗
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.