網易首頁 > 網易號 > 正文申請入駐

低成本叫板GPT-5.1！馬斯克殺入智能體

2025-11-20 22:25:41　來源: 智東西

北京舉報

分享至

智東西
作者李水青
編輯心緣

智東西11月20日報道，今日，馬斯克的xAI公司推出xAI API的兩大更新：快速、低成本、以智能體為中心的新模型Grok 4.1 Fast和智能體工具xAI Agent Tools API。

Grok 4.1 Fast是其迄今為止性能最佳的工具調用模型，擁有支持200萬token上下文的窗口，它能夠準確快速地進行推理并完成智能體任務，尤其擅長處理客戶支持和財務等復雜的實際應用場景。

▲基于Grok 4.1 Fast搭建支持用戶改預定的應用（圖源：xAI）

該模型在人工智能分析智能指數（AII）中躍升4位，達到第六位，僅次于第五位的Grok 4。其中，其在智能體調用測評2-Bench Telecom排行榜上以93.3%的得分位居榜首，以更低成本超越了GPT-5.1（high）、Gemini 3 Pro等模型的性能表現，比Grok 4 Fast提高了27分。xAI還提到，Grok 4.1 Fast在事實性方面更準確，幻覺率比Grok 4 Fast降低了一半。

▲AII指數情況（圖源：Artificial Analysis）

Agent Tools API使智能體能夠訪問實時X數據、網絡搜索、遠程代碼執行等功能。

Grok 4.1 Fast和Agent Tools API結合使用，使開發人員能夠構建專門用于工具調用和智能體搜索的生產級智能體。

智東西第一時間對Grok 4.1 Fast進行了體驗，發現正如xAI所說，其在實時信息檢索效果上要比Grok 4 Fast明顯提升，但在經典編程案例表現上相比Grok 4 Fast出現了“翻車”。這或許是其在追求更高智能體工具調用能力和速度時，損失了特定維度的模型性能。

定價方面，Grok 4.1 Fast輸入價格為0.2美元/百萬tokens，緩存輸入價格為0.05美元/百萬tokens；輸出價格0.5美元/百萬tokens，Agent Tools API調用價格5美元起/1000次成功調用。

在12月3日之前，用戶兩周內可以免費體驗以上服務。

▲Grok 4.1 Fast及Agent Tools API定價（圖源：xAI）

API地址：

https://console.x.ai/team/default/api-keys

OpenRouter體驗地址：

https://openrouter.ai/x-ai/grok-4.1-fast

一、登頂智能體調用榜單，實測編程“翻車”？

Grok 4.1 Fast專門針對實際企業用例而訓練，尤其在智能體調用方面提升較大。

通過在模擬環境中進行強化學習訓練，Grok 4.1 Fast接觸到了涵蓋數十個領域的各種工具。這種多樣化的訓練使Grok 4.1 Fast在τ2-bench Telecom測試中表現出色，以更低成本超過了GPT-5.1（high）、Gemini 3 Pro、Claude 4.5 Sonnet的性能。τ2-bench Telecom是一個極具挑戰性的基準測試，用于評估智能體工具在真實客戶支持場景中的使用情況。

▲Grok 4.1 Fast測評表現（圖源：xAI）

Grok 4.1 Fast尤其擅長工具調用。隨著開發者構建出功能越來越強大的自主智能體，這些智能體能夠進行長期規劃并獨立運行，模型必須在不犧牲速度和成本的前提下提供智能體服務。

Grok 4.1 Fast是xAI的答案：它是一款兼具前沿工具調用性能、極快推理速度和成本效益的模型。

▲Grok 4.1 Fast測評表現（圖源：xAI）

智能體模型面臨的一個常見挑戰是，隨著上下文長度的增加，其性能會下降。xAI使用長時域強化學習訓練了Grok 4.1 Fast，并著重強調多回合場景，從而確保其在長達200 萬個token的上下文窗口中保持穩定的性能。

▲Grok 4.1 Fast測評表現（圖源：xAI）

智東西第一時間對Grok 4.1 Fast和Grok 4 Fast進行了對比測試，發現Grok 4.1 Fast在實時信息檢索方面表現明顯優于Grok 4 Fast，但在經典編程問題上卻發揮失常，不如Grok 4 Fast。

當我輸入經典試題：“模擬一個旋轉六邊形內彈跳球”，如下圖所示，Grok 4 Fast在幾秒內生成了正確的模擬。

▲Grok 4 Fast實測表現（圖源：智東西）

新版的Grok 4.1 Fast也是在幾秒內完成，卻出現了錯誤，與提示詞要求不符，六角形框效果酷炫，但沒出現關鍵的小球。

▲Grok 4.1 Fast實測表現（圖源：智東西）

當我將測試升級為：“模擬一個旋轉六邊形內彈跳球，有兩個球體積相同，球a的質量是球b的2倍”，Grok 4 Fast依然能在幾秒之內生成基本正確的模擬。

▲Grok 4 Fast實測表現（圖源：智東西）

但新模型Grok 4.1 Fast直接出現了黑屏情況，沒有一次模擬出要求的實驗，并且無法修復成功。這可能是由于兼顧智能體調用、速度和性能仍是一件有挑戰的事，但Grok 4.1 Fast是否在智能體和速度優化中損失了部分維度性能，仍需更多案例來驗證。

▲Grok 4.1 Fast實測表現（圖源：智東西）

不過，在需要依賴工具的實時檢索信息上，Grok 4.1 Fast比Grok 4 Fast表現更佳。

當我輸入“關于本周xAI的重要新聞”，如下圖所示，Grok 4.1 Fast和Grok 4 Fast的輸出耗時都在幾秒之內，但Grok 4.1 Fast輸出的信息時效性更強、更全，覆蓋了“今天Grok 4.1 Fast發布”這條新聞；Grok 4 Fast未覆蓋到今天的最新動態。

▲Grok 4.1 Fast實測表現（圖源：智東西）

▲Grok 4 Fast實測表現（圖源：智東西）

二、聯動智能體工具API，幾行代碼瀏覽網頁

xAI同時推出了服務器端工具Agent Tools API，使Grok 4.1 Fast能夠作為完全自主的智能體運行。

只需幾行代碼，開發者就可以讓Grok瀏覽網頁、搜索X帖子、執行代碼、檢索上傳的文檔等。

▲僅需幾行代碼讓Grok調用工具（圖源：xAI）

這些工具完全運行在xAI的基礎架構上，因此開發者無需再管理API密鑰、速率限制、沙箱或檢索管道。Grok會決定何時以及如何使用這些工具，通常會在多個回合中并行調用多個工具，直到獲得提供最終答案所需的所有信息。

▲Agent Tools API應用案例（圖源：xAI）

Agent Tools API可顯著擴展xAI基礎Grok模型的功能，主要功能包括：

搜索工具：利用實時X和互聯網搜索，快速、全面地了解時事和趨勢。

文件搜索：智能搜索并檢索用戶上傳文件中的相關文檔，并附上引用信息。

代碼執行：在安全沙箱中執行Python代碼，以分析數據并運行模擬。

MCP工具：無縫連接到外部MCP服務器，從而可以訪問強大的自定義第三方工具。

三、擅長實時檢索和深度研究，幻覺率降低一半

與Agent Tools API聯合使用，實時信息檢索和深度研究是Grok 4.1 Fast的一大核心優勢。憑借與X生態系統的集成和網頁瀏覽功能，由xAI API驅動的搜索智能體在基準測試中拿下高分。

X Browse是一個內部基準測試，用于評估智能體在X上的多跳搜索和瀏覽能力。

Grok 4.1 Fast在事實性方面樹立了新的標準，與Grok 4 Fast相比，幻覺率降低了一半，同時在FActScore評估中仍能達到與Grok 4相當的性能。

▲Grok 4.1 Fast測評表現（圖源：xAI）

xAI將在API上發布Grok 4.1 Fast的兩個變體：

grok-4-1-fast-reasoning，可達到最大智能。

grok-4-1-fast-non-reasoning，擅長即時回復。

接下來的兩周，xAI的模型和工具將在部分平臺上免費提供：

xAI與OpenRouter合作，免費提供Grok 4.1 Fast。

xAI通過xAI Agent Tools API完全免費提供所有智能體工具。

結語：聚焦智能體，大模型競賽升級

當下，AI圈的模型和產品迭代陸續都開始聚焦智能體。這是市場需求倒逼技術升級的體現，當開發者構建出功能越來越強大的自主智能體，模型就需要提供更好的智能體服務，但又要注意不犧牲速度和成本。

馬斯克本次推出Grok 4.1 Fast，并配套提供易于集成的Agent Tools API，在一眾方案中顯得更強調與實際應用場景結合。圍繞AI智能體商業化落地的軍備競賽悄然升級，以xAI這種具備更強應用生態的企業具備優勢。但話說回來，模型性能的穩定依然關鍵，Grok 4.1 Fast的性能表現如何，還需要更多實測驗證。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.