網易首頁 > 網易號 > 正文申請入駐

小語言模型 VS 大語言模型

2025-11-06 08:04:54　來源: TechSugar

上海舉報

分享至

（本文編譯自Semiconductor Engineering）

邊緣人工智能的普及需要語言模型和芯片架構做出根本性變革，才能使人工智能數據中心之外的推理和學習成為可行選擇。

小語言模型（SLM）的最初目標是專門用于推理任務，其參數量約為100億或更少，而最大的大語言模型（LLM）的參數量則超過萬億。然而，如今小語言模型也越來越多地具備一定的學習能力。由于這類模型是為特定任務量身定制的，它們生成結果所需的時間遠少于向人工智能數據中心發送查詢、指令或傳感器數據并接收響應所需的時間。

SLM并非新生事物。EDA公司多年來一直在探索優化計算軟件，科學家們也已將小型模型應用于解決數學和科學問題。但2022年11月ChatGPT的推出，徹底改變了世界對人工智能的認知，而涌入該行業的巨額投資也使得商用語言模型能夠在本地運行得更快，同時大幅降低能耗。

在邊緣部署人工智能需要對語言模型進行更精細的優化。但業界期望，這些模型最終能為邊緣設備實現原本屬于物聯網的功能。盡管邊緣人工智能市場總規模（TAM）增長的預測仍帶有推測性，但各方普遍認為其正呈快速增長趨勢。《財富商業洞察》估計，到2032年，該市場規模將達到2670億美元，而2024年僅為270億美元。反過來，這有望為各種芯片、芯粒以及用于優化這些設計的工具，創造全新的市場機遇。

德勤近期的一項調查發現，2024年投資邊緣計算的公司，對邊緣人工智能的投資回報比以往更為樂觀。德勤指出，嵌入某些設備的人工智能技術可能帶來顛覆性變革，因為它無需網絡連接。這將對從工業和汽車到消費電子設備（例如安防攝像頭）等一系列應用領域產生影響。

在汽車領域，SLM將提升車輛功能，并提升車路協同通信質量。在芯片制造領域，它們將提供實時分析服務。在客戶服務領域，它們將減少自動應答服務菜單帶來的用戶困擾。此外，它們還將推動新型芯片架構的發展，從采用定制處理器和更分布式控制器的多芯片組件，到預加載SLM的芯粒。

當前的挑戰在于，如何將這些SLM縮小到可用規模，并開發能夠在低功耗預算內加速算法運行的硬件架構，且要保證其在所用領域具備足夠的精度。大型人工智能公司已報告稱，通過量化技術，通過量化技術已實現數量級的模型壓縮，將高精度32位浮點數（FP32）降至4位浮點（FP4）。這種方法之所以有效，是因為并非每個查詢、指令或分析都需要篩選海量數據集。如果可以將少量高度相關的數據存儲在本地，或者至少存儲在靠近終端設備的位置，那么簡單的4位精度響應可能已足夠。此外，通過使用針對特定數據類型定制的更快處理單元和更具針對性的存儲架構，SLM或許能夠在不顯著降低速度或消耗電池電量的情況下使用16位浮點（FP16）。

ChipAgents首席執行官William Wang表示：“很多人都在關注這些小語言模型。客戶既希望模型能為特定任務提供高性能，又要確保做出合理的權衡。或許你可以選擇性能稍低但響應速度更快的模型。”

這是實現人工智能另一種思路。“大語言模型本質上是一種蠻力式的方法，它收集所有可用數據，通過各類向量化處理，將其壓縮到無數不同的連接中，”Cadence公司人工智能知識產權產品營銷總監Jayson Lawley表示，“但如果能不斷縮小模型規模并進行壓縮，就能更高效地將 AI 功能推向邊緣側。”

英飛凌物聯網、消費電子和工業微控制器高級副總裁Steve Tateosian表示：“我們可以突破喚醒詞的語言模型局限，將自然語言處理融入到問題中，再通過語言模型生成響應。我們稱之為邊緣語言模型（ELM），而它的發展方向是從生成式人工智能到通用人工智能，這樣模型就可以用于不同的用途。你可以運行多個ELM，訓練一個語言模型來詢問上下文，另一個模型訓練用于視覺識別等。然后，在所有這些模型之上，可能還會有一個智能體，利用這些模型的輸入來告知用戶一些感興趣的信息。”

圖1：數據中心LLM與ELM的能耗對比。

（圖源：英飛凌）

聚焦特定工作負載

短期內，通用性更強的SLM更具合理性，因為它們可以利用各種處理單元。語言模型幾乎處于不斷迭代的狀態，而硬件的設計、驗證和制造需要18到24個月的時間。到那時，專為特定SLM設計的芯片可能已經過時了。

ChipAgents公司的Wang表示：“你想從大模型中提煉基礎知識，并將其注入到小模型中。同時還要能修剪權重，如用8位代替16位。所有數據都會被壓縮。目前已有成熟算法可實現權重壓縮，同時保證一定精度水平。但語言模型和人工智能的發展速度太快，硬件協同設計難度極大。”

其他方法包括在芯片中添加一些可編程性，或使用更通用的芯片進行一些定制配置，使其能與一個或多個聚焦特定場景的SLM實現最佳權衡。

Baya Systems首席商務官Nandan Nayampally表示：“越靠近終端設備，可變現的服務就越多。我們看到，許多客戶都對更具體、更定制化的模型提出了需求。LLM實際上是通用知識庫，而許多基于LLM開發的SLM更多地與推理而非訓練相關。訓練需求不會消失，而且從中短期來看還會增長，因為會有更多模型作為SLM的基礎模型。但推理環節正在從云端下移到網絡邊緣，甚至可能下移至終端設備，這種轉變非常有趣。”

英飛凌互聯安全系統事業部總裁Thomas Rosteck表示：“過去，物聯網更像是連接云端的接口，而現在它才真正成為‘萬物互聯’的形態。設備之間可以互相通信。邊緣人工智能通過提供更強大的智能和新的功能集，為物聯網設備增添了新的能力。那么，未來會有什么變革嗎？答案是肯定的，因為邊緣設備的功能正變得越來越強大。邊緣和云端之間的分工也必須進行調整，因為云端服務器集群消耗大量能源，我們至少要讓數據傳輸和任務分配變得更合理。”

這并不意味著云端不再有用。模型仍需要訓練，大規模的上下文搜索和分析對于邊緣設備來說仍然過于復雜。但是，將更多處理任務轉移到邊緣確實可以降低每次人工智能交互的成本，包括數據傳輸、云端處理，以及將數據以邊緣設備可用格式返回所需的能耗都會減少。

Arteris公司董事長兼首席執行官Charlie Janac表示：“提高效率的方法之一是減少所有這些數據傳輸的能耗。另一種方法是改進LLM處理數據的方式。因此，這里存在很多創新空間，而且這些創新是必要的，目前來看，所有為人工智能訓練和推理而建的數據中心，它們的總能耗是世界迄今為止能源產量的三倍。這催生了小型核反應堆的巨大市場，但解決問題的關鍵之一是提升整體效率，我們不能僅僅關注處理能力，而必須關注能源效率和能源利用率。”

這種效率提升不僅源于優化運行LLM的系統性能，還源于利用SLM在邊緣側處理更多數據，同時減少需要發送至云端的數據量。“關鍵在于最大限度地減少數據來回傳輸，”Synaptics無線事業部高級副總裁兼總經理Venkat Kodavati表示，“但當必須進行傳輸時，也希望以高效的方式進行，并節省電量。我們已經看到很多小語言模型，它們擁有數億個參數，我們可以在邊緣設備上支持數據傳輸。但未來模型將能在邊緣設備上更高效地運行。不僅可以在邊緣側完成大量推理任務，還能進行部分訓練；可以在邊緣側開展定制化訓練，再將模型更新至云端。所有這些都將在不久后成為現實。”

圖2：智能邊緣的應用案例。

（圖源：Synaptics）

能本地則本地，需全局則全局

至少在短期內，結合云端與邊緣側的混合模型將成為大多數場景的常態。本地處理速度更快，但設備仍需要與大型數據中心進行通信，以進行維護、軟件更新以及查詢無法本地存儲的大型數據集（例如半導體制造中的數據集）。事實上，SLM會增加多次測試插入過程中需要處理的數據量。

“我們還會繼續使用大語言模型一段時間，”愛德萬測試應用研究與技術副總裁Ira Leventhal表示，“小語言模型將專注于一些真正適用的特定應用場景。但從測試的角度來看，如果采用小語言模型，優勢在于它們目標明確。但這樣一來，測試用例的數量就會減少，從而降低測試過程中的變數，這將簡化測試流程。但如果使用大量的小語言模型，就必須同時對所有這些模型進行測試，而且必須并行測試。”

這需要跟蹤涉及多個小語言模型的所有交互和依賴關系。小語言模型需要謹慎地集成到復雜的流程中，如半導體測試或檢驗，否則可能引發問題。

PDF Solutions首席執行官John Kibarian表示：“我們正利用大語言模型的技術能力，但客戶希望它能與我們的系統高度適配，進而與他們自身的數據精準匹配并實現本地化部署。他們需要的是完全定制化的解決方案，能夠更好地了解他們的環境，并根據現有功能不斷更新。他們還希望人工智能能夠增強現有知識，以便將知識捕獲并傳承給下一代工程師。這將引領我們的行業邁向前所未有的高度，同時也不會遺忘過去積累的經驗。他們正在尋找這種小型化、本地訓練的能力，通過學習他們過去所有的生產、分析、測試程序以及數據處理方式，有效地將經驗知識在一定程度上整合起來，從而更快地在整個組織內推廣這種能力。”

更多功能，新的挑戰

SLM是一個寬泛的統稱，最終將細分為多個子集。例如，目前已有多模態模型、視頻SLM，隨著邊緣設備功能的增加，未來還會出現其他類型的SLM。但目前尚不清楚的是，這些SLM將如何交互，如何以有效的方式構建這些交互，以及在無法構建交互時如何最大限度地減少交互。此外，如果允許這些設備自主學習，則需要某種形式的監管來確保其可靠性。

結語

在不久的將來，精度與性能之間的權衡仍將是邊緣側及面向邊緣側開發的SLM的核心議題。但提供邊緣AI服務的公司可以利用其在云端LLM方面積累的經驗，加速SLM的部署。數據傳輸距離越短，需要發送到云端的數據量越少，響應速度就越快。而SLM的功能定義越精準，其整體優化速度也會越快。

SLM正快速興起，并在各個方向突破邊界。有些SLM將支持多模態，而有些則專注于特定模態，如視覺或自然語言音頻。無論如何，它們都將定義并重新定義人類與機器，以及機器之間的交互方式。所有這些都將發生在數據源頭附近，而這一切都將在更靠近數據源、更貼近人們工作與日常生活所用工具和設備的場景中發生。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.