通信世界網消息(CWW)近年來,隨著家庭智能設備的普及,像智慧中屏這類具備算力的新型終端,逐漸變成家庭服務“中樞”。過去很多依賴云端的功能,包括語音識別、圖像解析等,隨著終端本身算力的提高,逐漸由云端處理向終端本地服務遷移。同時隨著安全意識的普及,用戶越來越希望對話、影像等敏感數據能在本地設備上處理,而不是上傳至云端,此類需求推動“端側AI”成為家庭智能終端升級的核心方向。但市面上家庭終端的芯片算力、內存、操作系統五花八門,若在這些異構邊緣終端部署多類AI模型,會遇到硬件接口五花八門、模型更新煩瑣、終端資源分配無序、接入網絡復雜等各類問題。針對上述實際痛點,結合運營商大規模研發與部署智慧中屏等家庭智能設備的實踐經驗,本文設計并搭建了一套用于異構終端部署的端側AI統一架構,在此基礎上設計了一套云邊端三層協同推理流程,覆蓋管理模型從上線、更新到下線的全生命周期,讓AI能力能夠更穩定、可控地集成到邊緣終端上。
1 集中式云端AI方案技術現狀
智能家居業務在早期發展階段,一般采用在云端集中化部署AI能力的方式。該方式實現簡單,屬于典型的集中式部署模式,具備語音識別、圖像處理及內容推薦等多方面能力,但在實際家庭使用場景中存在不少技術缺陷。
由網絡依賴引起時延的問題:云端AI服務是通過互聯網傳輸相關數據的,而家庭Wi-Fi信號存在時強時弱的情況,在網絡帶寬不足、網絡時延較高的情況下,無論是語音交互還是視頻分析類的應用都存在較明顯的時延,導致用戶體驗波動較大。
攝像頭、麥克風等傳感設備廣泛部署于家庭場景,用于持續采集環境數據,而如果將所有的原始數據都上傳至云端進行處理,則會給用戶的隱私帶來極大的安全隱患。
因此,業界認識到應進行AI端云結合,將一部分AI能力放到終端,這才是合理的方向。
2 端側AI統一架構的基礎概念與設計
2.1 端側AI基礎概念
“端側AI”通過邊緣終端所具備的算力實現部分感知、推理、決策等功能。相比于“云端AI”,端側推理由于其具備低時延、本地算力和隱私保護等優點,在智慧家庭等智能場景具有明顯優勢[7]。例如,對于家庭智能而言,如果語音或者圖像識別在智慧中屏本地執行,其語音或圖像交互效果會明顯優于云端AI計算方案。此外,相關研究顯示,推理下沉至端側能大幅降低語音、圖像上傳頻率,減少帶寬占用,防范隱私泄露的風險。
2.2 云邊端協同理念
近幾年,對于云計算本身以及智能計算而言,以云邊端協同為核心的技術架構已成為行業共識:一方面盡可能保護好數據的隱私;另一方面,可以利用終端側的低時延優勢與云端的強算力、大容量優勢,充分發揮三者的協同增益效應。
通常情況下,在這種結構中,云端負責比較復雜的模型訓練和管理,并將模型能力下發至終端;終端側負責輕量化、時間敏感的推理任務,并將必要的結果反饋至云端,從而形成持續優化的閉環。
行業實踐也明確了類似的思路,在中興通訊的6G內生AI網絡方案中,采取了分層設計模式,并通過模型和資源管理模塊實現云邊端統一調度。NextG聯盟、歐盟6G-IA等產業聯盟亦強調要從6G設計伊始,就重點考慮終端算力、跨層協同等問題。
從現有研究結果及產業發展相關情況看,云邊端的融合能夠充分利用三者各自的計算能力,根據應用的不同需求靈活調動云邊端三級資源,對于提升整個系統的性能與穩定性具有很大的增益作用。
2.3 模型生命周期管理
在端側AI協同體系的構建過程中,模型生命周期的管理是不可回避的問題。例如IBM提出的AI Gateway架構,通過統一對接接口、統一抽象封裝等方式實現模型版本管控,并支持更新、回滾等全生命周期管理,其核心思路是降低高層應用與底層模型的耦合。
類似的思路也可應用于端側AI環境,為終端搭建一套統一的模型接口與模型集中管理體系,在不影響業務的前提下可實現模型升級替換;在邊緣終端設備中通過容器化或分批更新的方式,待模型下發、升級及安裝完成后,再啟動設備上線服務;除了模型的更新之外,還應注意端側AI落地在工程方面的問題,如多層級日志采集、模型運行狀態檢測等。
基于上述端側AI平臺設計思路,本文根據家庭智能終端場景的實際使用條件及限制因素,提出了更加適合工程落地的整體架構以及相應的具體方案。
2.4 系統架構設計
針對家庭智慧中屏多模型并行運行、任務類型復雜以及終端資源受限等特點,本文設計了一套分層、模塊化的端側AI中間件體系。整體架構分為調用層、調度層和模型層,各層職責相對清晰,并通過統一接口和協議進行協同。系統主要包括統一接口、模型更新、日志上報、生命周期管理以及協同調度等核心模塊,下面對其關鍵設計進行說明。端側AI統一分層架構如圖1所示。
![]()
圖1 端側AI統一分層架構
底層推理框架以及硬件平臺的不同會對上層業務造成一定影響,在此情況下,由中間件統一對外提供通用應用程序接口(API),無論使用哪種模型格式,均可使用同一種API進行訪問;并且可以通過適配層屏蔽掉底層不同的框架或硬件之間的差異性,為上層提供統一操作體驗。通過分層設計,還可以將配置加載、任務分發、推理執行以及結果輸出等操作分離成不同的功能模塊,進而方便之后的進一步開發與替換。
在模型更新方面,系統將更新邏輯獨立封裝為庫文件,與主業務解耦,執行模型下載、校驗、版本切換以及舊模型清理等任務,采用A/B分區的后臺切換方案,在對用戶體驗沒有很大影響的情況下完成對用戶模型的升級。通過算力、模型大小來確定使用哪個版本的模型,讓灰度發布更加靈活,降低升級對服務質量的沖擊。
為了便于日常運維和問題分析,在端側全鏈路運行日志中保存所有過程的耗時數據、系統資源占用、模型推理狀態、任務調度情況以及異常記錄等信息,并采用分層存儲的方式,當網絡不通時先將日志本地緩存,預留一段時間后再上傳到云端,通過這種方式延長日志搜集時間,為現場人工檢測預留充足時間。根據現場測試情況,通過實施該機制,異常檢測效率平均提升約60%。
在生命周期管理方面,中間件可為模型提供完善的生命周期狀態管理,涵蓋加載、推理執行、內存分配與釋放、動態更新、異常處理等方面;中間件采用內存池按需分配的方式,避免多模型并行運行時發生資源搶占沖突,提高整個應用系統的運行穩定性;應用端的開發者,只需對接口發送指令就能輕松完成模型部署及監控工作,無需關心底層的內存分配與線程調度等問題。
各個算法任務對于實時性有不同需求,對此系統將采用基于云邊端協同的調度方式。當任務下達至終端后,由調度模塊綜合當前設備算力、網絡情況和任務特性等因素判斷最優執行方案。若任務對實時性要求高,則優先在端側執行;若任務需要較大的計算量或依賴大模型,則上交給邊緣或云端處理。此外,系統還提供了一系列端側推理接口、邊緣預處理接口以及云端協同推理接口等供業務方使用。
![]()
![]()
4 應用場景與實踐效果
本文在端側AI統一架構設計與實現過程中堅持工程可落地的目標,兼顧后續長期穩定地支撐實際產品和業務使用的需求。基于以上標準,本文選擇已經量產的智慧中屏產品以及移動平臺(如四足機器人等),分別從多模態業務支撐能力、運行效率及模型等維度,評估端側AI統一架構的效果。
4.1 智慧中屏上的多模態AI業務實踐
智慧中屏是家庭場景的中樞,要支持多種AI能力,包括語音交互、圖像識別、人臉識別、畫質增強等。在此之前,無論是通過拆分各個模態的獨立模塊實現,還是直接調用底層的接口進行認知任務處理,在處理上均會受到不同的影響和制約,無法很好地保障系統的整體性。在統一架構引入后,上層業務通過標準API調用AI能力,不再直接依賴具體硬件平臺或推理實現,從而避免了同類模型在不同業務中重復接入的問題,整體資源調度更加集中可控。
在語音交互場景中,我們將端側語音活動檢測(VAD)、輕量級自動語音識別(ASR)以及本地意圖識別模型統一納入調度管理。實際測試結果顯示,端側指令的全鏈路平均時延由原有的310ms降至245ms。在復雜家庭環境下(如客廳嘈雜場景),系統穩定性也得到改善。平均每小時的連續誤喚醒次數由4.3下降至1.1,語音鏈路整體響應時間的波動范圍由原先的±90ms收斂至±35ms。
類似的優化同樣體現在視覺相關功能中。對于需要長期運行的人臉檢測與特征提取模型,在采用統一內存池和按需加載機制后,多模型并行情況下的峰值內存占用由612MB降至512MB。從用戶感知效果來看,人臉識別應用在常規使用條件下的檢測幀率由21FPS提升至27FPS;在用戶頭部存在連續輕微晃動的情況下,識別過程中每分鐘的目標丟失次數由約3減少至不足1。這些改進使刷臉解鎖、家庭成員識別等日常應用更加流暢穩定。
4.2 視頻防抖算法在可移動終端設備中的應用
智慧中屏作為固定安裝設備,其測試結果驗證了架構在靜態場景的穩定性。為進一步檢驗通用性,本文在可移動的四足機器人上進行了動態環境測試。在機器人運動過程中,支撐結構搭載的攝像頭會產生明顯晃動,在視頻中存在較多不穩定運動噪聲,影響后期視覺模型對運動物體的識別效果。
針對這一問題,我們將自研的“光流估計+Kalman濾波”視頻防抖算法集成至統一架構,使輸入視頻得到穩定處理,實驗設定機器人運動速度為0.8m/s,且機身繞中心軸的最大擺動幅度約為15°。未做處理前,視頻相鄰幀平均特征點偏移量為7.1像素,偏移量最大值大于18像素;利用防抖算法進行穩定后,平均偏移量降至2.8像素,偏移量最大值小于5.6像素。四足機器人視頻防抖對比效果如圖2所示。
![]()
圖2 四足機器人視頻防抖對比效果
畫面穩定性的提升對下游視覺任務產生了直接影響。在相同運動條件下,端側目標檢測模型連續識別失敗次數由每分鐘約14降至3;姿態估計模型的關鍵點抖動幅度也由±11像素降低至±4像素。防抖模塊本身具備較好的實時性,在僅使用CPU的情況下,單幀處理時延控制在5~8ms,相比整條視覺推理鏈路約67ms的總體耗時,其額外開銷可以忽略。
在量產階段,端側AI軟件平臺結合A/B分區機制實現了模型的平滑升級。后臺統計顯示,單次模型升級周期(包括下載、校驗、版本切換與清理)的平均耗時穩定在2.4~2.9s之間,升級失敗率由每萬次37次降至9次以下。系統每日匯聚約10萬條結構化日志,總體規模波動控制在±8%以內。
5 結論
本文針對家庭智能終端場景,提出了有助于端側穩定可靠運行的AI統一架構。該架構通過統一接口層,將模型加載、推理調用、資源管理等核心能力封裝為模塊化中間件,實現多模型并行運行支撐,并采用基于A/B分區的模型熱更新、版本全量對比和保留舊版本用于回退等一系列完整流程,保障了模型替換對業務的影響可控。
除此之外,還建立了完整的推理全鏈路日志和生命周期管理機制,可以對端側模型進行持續的運行狀態追蹤,一旦發生異常情況可迅速找到對應的異常問題點;通過結合云邊端的協同調度方式,在維持關鍵交互過程實時性的前提下,提升了整體算力資源的利用率。與之前的方案相比,任務響應時間得到了有效縮短,模型更新效率得到了極大提高,系統的穩定性和安全性都得到了改善,其中最直觀的體現是:在語音交互和視覺識別這兩類對時效性要求較高的家庭場景中,用戶體驗得到了顯著提升。
通過工程實踐可以看出,端側AI已經在智能終端體系中起到關鍵作用。后續研究將進一步開展該統一架構在可穿戴設備、車載終端等異構終端的適用性驗證,重點研究算力受限場景下模型的高效部署與穩定運行技術。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.