![]()
大語言模型(LLM)與多模態推理系統正迅速突破數據中心的局限。越來越多的汽車與機器人領域的開發者希望將對話式 AI 智能體、多模態感知系統和高級規劃功能直接部署在端側,因為在這些場景中,低延遲、高可靠性以及離線運行能力至關重要。
本文介紹了 NVIDIA TensorRT Edge-LLM——一個用于 LLM 和視覺語言模型(VLM)推理的新型開源 C++ 框架,旨在滿足日益增長的高性能邊緣端推理需求。該框架專為嵌入式汽車平臺 NVIDIA DRIVE AGX Thor 及機器人平臺 NVIDIA Jetson Thor 上的實時應用而打造。該框架已在 GitHub 上隨 NVIDIA JetPack 7.1 版本發布并開源。
TensorRT Edge-LLM 依賴項很少,專為實現量產級邊緣端應用部署而設計。其精簡輕量化的設計專注于嵌入式場景的特定功能,能夠顯著降低框架的資源占用。
此外,TensorRT Edge-LLM 所具備的先進功能——如 EAGLE-3 投機采樣、NVFP4 量化支持以及分塊預填充技術,能夠滿足高要求的實時應用場景所需的前沿的性能需求。
![]()
圖 1. 與主流 LLM 和 VLM 推理框架 vLLM 相比,TensorRT Edge-LLM 性能表現卓越
面向實時邊緣端應用的 LLM 與 VLM 推理:TensorRT Edge-LLM 旨在滿足并優先處理嵌入式場景的特定需求,為嵌入式 LLM 和 VLM 的推理提供堅實基礎。
TensorRT Edge-LLM 在汽車行業的落地應用:合作伙伴已開始將 TensorRT Edge-LLM 作為其車用 AI 產品的基礎,其中博世、中科創達和 MediaTek 等企業在 CES 2026 上展示了其相關技術。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.