網易首頁 > 網易號 > 正文申請入駐

效率提升9倍！英偉達新模型Nemotron 3 Nano Omni瞄準智能體落地，整合語音、視覺與推理能力

2026-04-29 01:12:04　來源: 華爾街見聞官方

上海舉報

分享至

在人工智能智能體（AI Agent）競賽持續升溫之際，英偉達正加速從“算力霸主”向“模型平臺商”延伸。

美東時間28日周二，英偉達在公司博客宣布，推出名為Nemotron 3 Nano Omni的全新開源模型，主打“原生全模態理解+高效推理”，試圖為企業級AI Agent提供一體化基礎模型底座。英偉達介紹，這款業內領先的開源全模態推理模型融合了視覺、音頻與語言能力，將幫助AI智能體實現高達9倍的效率提升。

英偉達介紹，已有一批AI與軟件領域的公司率先采用了Nemotron 3 Nano Omni，包括Aible、Applied Scientific Intelligence (ASI)、Eka Care、富士康、H Company、Palantir 和 Pyler。此外，戴爾、DocuSign、Infosys、K-Dense、Lila、甲骨文和 Zefr 正在對該模型進行評估。

主打Omni：一個模型打通語音、視覺與語言

不同于傳統多模態模型通常通過拼接多個子模型實現能力融合，Nemotron 3 Nano Omni強調“原生全模態（omni-understanding）”。其可同時處理文本、圖像、音頻甚至視頻輸入，并在統一架構內完成理解與推理任務。

英偉達在技術博客中指出，該模型具備從視頻和文檔中提取信息的能力，支持復雜場景下的跨模態推理，例如通過語音轉錄增強視頻理解，或結合OCR解析視覺文本內容。

從架構上看，Nemotron 3 Nano Omni延續了Nemotron 3系列的混合架構路線：融合Transformer與Mamba機制，并引入混合專家（MoE）以在保持性能的同時大幅降低推理成本。

瞄準AI智能體從理解走向執行

此次發布的核心關鍵詞并非多模態，而是智能體。英偉達明確將Nemotron 3系列定位為代理式（agentic）AI的基礎模型，即不僅用于生成內容，更用于驅動具備決策與執行能力的智能體系統。

官方資料顯示，Nano Omni是首個“生產級開放模型”，專為構建可擴展AI Agent設計，支持長上下文、多步驟推理以及工具調用等能力。

同時，該模型還引入GUI訓練數據，使AI可以理解和操作界面元素，進一步貼近真實應用場景，例如自動化辦公流程、軟件操作甚至復雜工作流執行。

媒體解讀認為，這種“全模態+Agent”組合意味著AI系統可以直接處理現實世界中的非結構化數據（視頻、語音、文檔），并據此做出決策，從而拓展AI在企業中的落地邊界。

效率仍是核心賣點：小模型撬動大能力

盡管能力擴展至多模態與智能體場景，Nemotron 3 Nano Omni仍延續“Nano”定位，即強調高性價比與推理效率。

Nemotron 3 Nano基礎模型采用約300億參數規模，但通過MoE機制每次僅激活參數30億，在性能與成本之間取得平衡。同時，該系列模型支持超長上下文（最高達百萬token級別），適合處理復雜文檔與長流程任務。

在英偉達整體產品體系中，Nano、Super與Ultra形成梯度：Nano強調效率，Super面向高吞吐企業場景，Ultra則瞄準前沿推理能力。

開源生態對抗閉源陣營

值得注意的是，英偉達再次強調“開放”。Nemotron 3 Nano Omni不僅開放模型權重，還配套提供訓練數據、工具鏈（如NeMo）以及優化方案，試圖打造完整開發生態。

這一策略正值AI行業分化加劇之際：一方面，部分頭部廠商逐步轉向閉源；另一方面，中國及開源社區持續推進開放模型。英偉達試圖以“開放+高性能”切入中間地帶，吸引開發者與企業客戶。

從更宏觀角度看，隨著AI應用從“聊天機器人”邁向“智能代理”，模型能力的競爭也從單一語言理解升級為多模態融合+任務執行能力的系統競爭。

Nemotron 3 Nano Omni的推出，標志著英偉達不僅要賣“鏟子”（GPU），也要提供“施工方案”（模型與工具鏈），進一步加深其在AI產業鏈中的縱深布局。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.