在人工智能智能體(AI Agent)競賽持續升溫之際,英偉達正加速從“算力霸主”向“模型平臺商”延伸。
美東時間28日周二,英偉達在公司博客宣布,推出名為Nemotron 3 Nano Omni的全新開源模型,主打“原生全模態理解+高效推理”,試圖為企業級AI Agent提供一體化基礎模型底座。英偉達介紹,這款業內領先的開源全模態推理模型融合了視覺、音頻與語言能力,將幫助AI智能體實現高達9倍的效率提升。
英偉達介紹,已有一批AI與軟件領域的公司率先采用了Nemotron 3 Nano Omni,包括Aible、Applied Scientific Intelligence (ASI)、Eka Care、富士康、H Company、Palantir 和 Pyler。此外,戴爾、DocuSign、Infosys、K-Dense、Lila、甲骨文和 Zefr 正在對該模型進行評估。
主打Omni:一個模型打通語音、視覺與語言
不同于傳統多模態模型通常通過拼接多個子模型實現能力融合,Nemotron 3 Nano Omni強調“原生全模態(omni-understanding)”。其可同時處理文本、圖像、音頻甚至視頻輸入,并在統一架構內完成理解與推理任務。
英偉達在技術博客中指出,該模型具備從視頻和文檔中提取信息的能力,支持復雜場景下的跨模態推理,例如通過語音轉錄增強視頻理解,或結合OCR解析視覺文本內容。
從架構上看,Nemotron 3 Nano Omni延續了Nemotron 3系列的混合架構路線:融合Transformer與Mamba機制,并引入混合專家(MoE)以在保持性能的同時大幅降低推理成本。
瞄準AI智能體 從理解走向執行
此次發布的核心關鍵詞并非多模態,而是智能體。英偉達明確將Nemotron 3系列定位為代理式(agentic)AI的基礎模型,即不僅用于生成內容,更用于驅動具備決策與執行能力的智能體系統。
官方資料顯示,Nano Omni是首個“生產級開放模型”,專為構建可擴展AI Agent設計,支持長上下文、多步驟推理以及工具調用等能力。
同時,該模型還引入GUI訓練數據,使AI可以理解和操作界面元素,進一步貼近真實應用場景,例如自動化辦公流程、軟件操作甚至復雜工作流執行。
媒體解讀認為,這種“全模態+Agent”組合意味著AI系統可以直接處理現實世界中的非結構化數據(視頻、語音、文檔),并據此做出決策,從而拓展AI在企業中的落地邊界。
效率仍是核心賣點:小模型撬動大能力
盡管能力擴展至多模態與智能體場景,Nemotron 3 Nano Omni仍延續“Nano”定位,即強調高性價比與推理效率。
Nemotron 3 Nano基礎模型采用約300億參數規模,但通過MoE機制每次僅激活參數30億,在性能與成本之間取得平衡。同時,該系列模型支持超長上下文(最高達百萬token級別),適合處理復雜文檔與長流程任務。
在英偉達整體產品體系中,Nano、Super與Ultra形成梯度:Nano強調效率,Super面向高吞吐企業場景,Ultra則瞄準前沿推理能力。
開源生態對抗閉源陣營
值得注意的是,英偉達再次強調“開放”。Nemotron 3 Nano Omni不僅開放模型權重,還配套提供訓練數據、工具鏈(如NeMo)以及優化方案,試圖打造完整開發生態。
這一策略正值AI行業分化加劇之際:一方面,部分頭部廠商逐步轉向閉源;另一方面,中國及開源社區持續推進開放模型。英偉達試圖以“開放+高性能”切入中間地帶,吸引開發者與企業客戶。
從更宏觀角度看,隨著AI應用從“聊天機器人”邁向“智能代理”,模型能力的競爭也從單一語言理解升級為多模態融合+任務執行能力的系統競爭。
Nemotron 3 Nano Omni的推出,標志著英偉達不僅要賣“鏟子”(GPU),也要提供“施工方案”(模型與工具鏈),進一步加深其在AI產業鏈中的縱深布局。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.