<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      低成本叫板GPT-5.1!馬斯克殺入智能體

      0
      分享至


      智東西
      作者 李水青
      編輯 心緣

      智東西11月20日報道,今日,馬斯克的xAI公司推出xAI API的兩大更新:快速、低成本、以智能體為中心的新模型Grok 4.1 Fast智能體工具xAI Agent Tools API

      Grok 4.1 Fast是其迄今為止性能最佳的工具調用模型,擁有支持200萬token上下文的窗口,它能夠準確快速地進行推理并完成智能體任務,尤其擅長處理客戶支持和財務等復雜的實際應用場景


      ▲基于Grok 4.1 Fast搭建支持用戶改預定的應用(圖源:xAI)

      該模型在人工智能分析智能指數(AII)中躍升4位,達到第六位,僅次于第五位的Grok 4。其中,其在智能體調用測評2-Bench Telecom排行榜上93.3%的得分位居榜首,以更低成本超越了GPT-5.1(high)、Gemini 3 Pro等模型的性能表現,比Grok 4 Fast提高了27分。xAI還提到,Grok 4.1 Fast在事實性方面更準確,幻覺率比Grok 4 Fast降低了一半


      ▲AII指數情況(圖源:Artificial Analysis)

      Agent Tools API使智能體能夠訪問實時X數據、網絡搜索、遠程代碼執行等功能。

      Grok 4.1 Fast和Agent Tools API結合使用,使開發人員能夠構建專門用于工具調用和智能體搜索的生產級智能體。

      智東西第一時間對Grok 4.1 Fast進行了體驗,發現正如xAI所說,其在實時信息檢索效果上要比Grok 4 Fast明顯提升,但在經典編程案例表現上相比Grok 4 Fast出現了“翻車”。這或許是其在追求更高智能體工具調用能力和速度時,損失了特定維度的模型性能。

      定價方面,Grok 4.1 Fast輸入價格為0.2美元/百萬tokens,緩存輸入價格為0.05美元/百萬tokens;輸出價格0.5美元/百萬tokens,Agent Tools API調用價格5美元起/1000次成功調用。

      在12月3日之前,用戶兩周內可以免費體驗以上服務。


      ▲Grok 4.1 Fast及Agent Tools API定價(圖源:xAI)

      API地址:

      https://console.x.ai/team/default/api-keys

      OpenRouter體驗地址:

      https://openrouter.ai/x-ai/grok-4.1-fast

      一、登頂智能體調用榜單,實測編程“翻車”?

      Grok 4.1 Fast專門針對實際企業用例而訓練,尤其在智能體調用方面提升較大。

      通過在模擬環境中進行強化學習訓練,Grok 4.1 Fast接觸到了涵蓋數十個領域的各種工具。這種多樣化的訓練使Grok 4.1 Fast在τ2-bench Telecom測試中表現出色,以更低成本超過了GPT-5.1(high)、Gemini 3 Pro、Claude 4.5 Sonnet的性能。τ2-bench Telecom是一個極具挑戰性的基準測試,用于評估智能體工具在真實客戶支持場景中的使用情況。


      ▲Grok 4.1 Fast測評表現(圖源:xAI)

      Grok 4.1 Fast尤其擅長工具調用。隨著開發者構建出功能越來越強大的自主智能體,這些智能體能夠進行長期規劃并獨立運行,模型必須在不犧牲速度和成本的前提下提供智能體服務。

      Grok 4.1 Fast是xAI的答案:它是一款兼具前沿工具調用性能、極快推理速度和成本效益的模型。


      ▲Grok 4.1 Fast測評表現(圖源:xAI)

      智能體模型面臨的一個常見挑戰是,隨著上下文長度的增加,其性能會下降。xAI使用長時域強化學習訓練了Grok 4.1 Fast,并著重強調多回合場景,從而確保其在長達200 萬個token的上下文窗口中保持穩定的性能


      ▲Grok 4.1 Fast測評表現(圖源:xAI)

      智東西第一時間對Grok 4.1 Fast和Grok 4 Fast進行了對比測試,發現Grok 4.1 Fast在實時信息檢索方面表現明顯優于Grok 4 Fast,但在經典編程問題上卻發揮失常,不如Grok 4 Fast。

      當我輸入經典試題:“模擬一個旋轉六邊形內彈跳球”,如下圖所示,Grok 4 Fast在幾秒內生成了正確的模擬。


      ▲Grok 4 Fast實測表現(圖源:智東西)

      新版的Grok 4.1 Fast也是在幾秒內完成,卻出現了錯誤,與提示詞要求不符,六角形框效果酷炫,但沒出現關鍵的小球。


      ▲Grok 4.1 Fast實測表現(圖源:智東西)

      當我將測試升級為:“模擬一個旋轉六邊形內彈跳球,有兩個球體積相同,球a的質量是球b的2倍”,Grok 4 Fast依然能在幾秒之內生成基本正確的模擬。


      ▲Grok 4 Fast實測表現(圖源:智東西)

      但新模型Grok 4.1 Fast直接出現了黑屏情況,沒有一次模擬出要求的實驗,并且無法修復成功。這可能是由于兼顧智能體調用、速度和性能仍是一件有挑戰的事,但Grok 4.1 Fast是否在智能體和速度優化中損失了部分維度性能,仍需更多案例來驗證。


      ▲Grok 4.1 Fast實測表現(圖源:智東西)

      不過,在需要依賴工具的實時檢索信息上,Grok 4.1 Fast比Grok 4 Fast表現更佳。

      當我輸入“關于本周xAI的重要新聞”,如下圖所示,Grok 4.1 Fast和Grok 4 Fast的輸出耗時都在幾秒之內,但Grok 4.1 Fast輸出的信息時效性更強、更全,覆蓋了“今天Grok 4.1 Fast發布”這條新聞;Grok 4 Fast未覆蓋到今天的最新動態。


      ▲Grok 4.1 Fast實測表現(圖源:智東西)


      ▲Grok 4 Fast實測表現(圖源:智東西)

      二、聯動智能體工具API,幾行代碼瀏覽網頁

      xAI同時推出了服務器端工具Agent Tools API,使Grok 4.1 Fast能夠作為完全自主的智能體運行

      只需幾行代碼,開發者就可以讓Grok瀏覽網頁、搜索X帖子、執行代碼、檢索上傳的文檔等。


      ▲僅需幾行代碼讓Grok調用工具(圖源:xAI)

      這些工具完全運行在xAI的基礎架構上,因此開發者無需再管理API密鑰、速率限制、沙箱或檢索管道。Grok會決定何時以及如何使用這些工具,通常會在多個回合中并行調用多個工具,直到獲得提供最終答案所需的所有信息。


      ▲Agent Tools API應用案例(圖源:xAI)

      Agent Tools API可顯著擴展xAI基礎Grok模型的功能,主要功能包括:

      搜索工具:利用實時X和互聯網搜索,快速、全面地了解時事和趨勢。

      文件搜索:智能搜索并檢索用戶上傳文件中的相關文檔,并附上引用信息。

      代碼執行:在安全沙箱中執行Python代碼,以分析數據并運行模擬。

      MCP工具:無縫連接到外部MCP服務器,從而可以訪問強大的自定義第三方工具。

      三、擅長實時檢索和深度研究,幻覺率降低一半

      與Agent Tools API聯合使用,實時信息檢索和深度研究是Grok 4.1 Fast的一大核心優勢。憑借與X生態系統的集成和網頁瀏覽功能,由xAI API驅動的搜索智能體在基準測試中拿下高分。

      X Browse是一個內部基準測試,用于評估智能體在X上的多跳搜索和瀏覽能力。

      Grok 4.1 Fast在事實性方面樹立了新的標準,與Grok 4 Fast相比,幻覺率降低了一半,同時在FActScore評估中仍能達到與Grok 4相當的性能。


      ▲Grok 4.1 Fast測評表現(圖源:xAI)

      xAI將在API上發布Grok 4.1 Fast的兩個變體:

      grok-4-1-fast-reasoning,可達到最大智能。

      grok-4-1-fast-non-reasoning,擅長即時回復。

      接下來的兩周,xAI的模型和工具將在部分平臺上免費提供:

      xAI與OpenRouter合作,免費提供Grok 4.1 Fast。

      xAI通過xAI Agent Tools API完全免費提供所有智能體工具。

      結語:聚焦智能體,大模型競賽升級

      當下,AI圈的模型和產品迭代陸續都開始聚焦智能體。這是市場需求倒逼技術升級的體現,當開發者構建出功能越來越強大的自主智能體,模型就需要提供更好的智能體服務,但又要注意不犧牲速度和成本。

      馬斯克本次推出Grok 4.1 Fast,并配套提供易于集成的Agent Tools API,在一眾方案中顯得更強調與實際應用場景結合。圍繞AI智能體商業化落地的軍備競賽悄然升級,以xAI這種具備更強應用生態的企業具備優勢。但話說回來,模型性能的穩定依然關鍵,Grok 4.1 Fast的性能表現如何,還需要更多實測驗證。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      人民日報怒轉!杭州師大通報出爐:名單造假實錘,但是沒貪污!

      人民日報怒轉!杭州師大通報出爐:名單造假實錘,但是沒貪污!

      金哥說新能源車
      2025-12-08 09:57:15
      從88.16億到40萬,我感慨:周星馳這塊金字招牌算是砸了

      從88.16億到40萬,我感慨:周星馳這塊金字招牌算是砸了

      電影票房預告片
      2025-12-05 22:04:14
      最適合中老年夫妻旅游的6座城市,帶上另一半出去走走吧

      最適合中老年夫妻旅游的6座城市,帶上另一半出去走走吧

      旅游周刊
      2025-12-06 21:41:49
      取名從來都是很難很難的事,直到上級指導你造假

      取名從來都是很難很難的事,直到上級指導你造假

      基本常識
      2025-12-06 23:44:51
      太突然!日上免稅行,可能告別上海機場?突然召開董事會!原因披露

      太突然!日上免稅行,可能告別上海機場?突然召開董事會!原因披露

      上觀新聞
      2025-12-07 19:17:08
      姓名及排序完全吻合,六安一份《為民服務辦理事項清冊》疑照搬百度人名庫

      姓名及排序完全吻合,六安一份《為民服務辦理事項清冊》疑照搬百度人名庫

      澎湃新聞
      2025-12-08 08:46:12
      辣眼睛!"搶鏡伴娘"刷爆網絡,深V禮服幾乎掉落,新郎眼神失控

      辣眼睛!"搶鏡伴娘"刷爆網絡,深V禮服幾乎掉落,新郎眼神失控

      派大星紀錄片
      2025-12-06 14:32:19
      奚美娟兒子生父曝光:隱藏30年,圈內幕后大佬非前夫

      奚美娟兒子生父曝光:隱藏30年,圈內幕后大佬非前夫

      探索新高度
      2025-12-07 19:05:37
      深圳16人徒步失聯!最小娃僅幾歲,網紅親子路線竟藏致命陷阱

      深圳16人徒步失聯!最小娃僅幾歲,網紅親子路線竟藏致命陷阱

      生活魔術專家
      2025-12-08 00:38:10
      奎因大贊廣東隊1人:不管是傳球,還是進攻都非常出色

      奎因大贊廣東隊1人:不管是傳球,還是進攻都非常出色

      體育哲人
      2025-12-08 11:12:45
      小酒窩曬17張與明星合影,成尖叫之夜團寵,被贊內娛追星天花板

      小酒窩曬17張與明星合影,成尖叫之夜團寵,被贊內娛追星天花板

      露珠聊影視
      2025-12-07 19:16:22
      仍不服 張本智和:明年日本隊能贏中國隊 我要在香港拿總決賽冠軍

      仍不服 張本智和:明年日本隊能贏中國隊 我要在香港拿總決賽冠軍

      風過鄉
      2025-12-08 08:05:05
      中國第一省會,到底“養活”了多少人?

      中國第一省會,到底“養活”了多少人?

      孫不熟讀城市
      2025-12-07 23:33:17
      慘!重慶男子下高山,一直在看手機,不幸墜崖,女驢友驚呼“啊”

      慘!重慶男子下高山,一直在看手機,不幸墜崖,女驢友驚呼“啊”

      社會日日鮮
      2025-12-08 02:14:29
      維修未斷電!37歲男子掉入粉碎機身亡后續,家屬目睹經過:太殘忍

      維修未斷電!37歲男子掉入粉碎機身亡后續,家屬目睹經過:太殘忍

      社會日日鮮
      2025-12-06 16:48:59
      生前一代梟雄,死后徹底封神

      生前一代梟雄,死后徹底封神

      我是歷史其實挺有趣
      2025-12-06 08:58:18
      新華社火力全開,痛批雷軍玩文字游戲

      新華社火力全開,痛批雷軍玩文字游戲

      熱點菌本君
      2025-12-07 16:10:29
      教授:不要忙著打日本,應該去全國各地武器倉庫突擊大檢查!

      教授:不要忙著打日本,應該去全國各地武器倉庫突擊大檢查!

      荊楚寰宇文樞
      2025-12-07 17:10:13
      楊瀚森工作室回應生涯首次首發

      楊瀚森工作室回應生涯首次首發

      極目新聞
      2025-12-08 09:56:16
      歐盟分裂!德國議會壓倒性否決沒收俄資產提案,馮德萊恩遭重挫

      歐盟分裂!德國議會壓倒性否決沒收俄資產提案,馮德萊恩遭重挫

      明天后天大后天
      2025-12-07 17:25:46
      2025-12-08 13:19:00
      智東西 incentive-icons
      智東西
      聚焦智能變革,服務產業升級。
      10859文章數 116921關注度
      往期回顧 全部

      科技要聞

      外面有人挖,家里有人跑:蘋果亂成了一鍋粥

      頭條要聞

      媒體:臺日竟然還想夾擊解放軍 笑話

      頭條要聞

      媒體:臺日竟然還想夾擊解放軍 笑話

      體育要聞

      厲害的后衛何其多 想想還少了哪一個

      娛樂要聞

      郭麒麟也救不了的德云社了?

      財經要聞

      養牛場未見一頭牛 每天開采礦石倒賣

      汽車要聞

      挑戰深圳地獄級路況 魏牌藍山VLA上車會思考聽得懂人話

      態度原創

      房產
      手機
      數碼
      公開課
      軍事航空

      房產要聞

      碧桂園,開始甩賣海口家底!

      手機要聞

      iPhone 18系列確認測試屏下Face ID:首發小號靈動島

      數碼要聞

      英特爾將為蘋果代工芯片 初期僅用于標準版

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      日本稱中方雷達照射日戰機 國防部回應

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: AV伦成人短剧| 安远县| 亚洲成A人片在线观看无码不卡| 成人免费区一区二区三区| 亚洲人成网站在线观看播放不卡| 日韩人妻熟女中文字幕a美景之屋| 那曲县| 五月香蕉网| 秋霞无码久久久精品| 国产全是老熟女太爽了| 成人麻豆日韩在无码视频| 亚洲成人九九| 九色视频丨PORNY丨丝袜| 欧美精品久久久| 夜夜添狠狠添高潮出水| 亚洲综合av一区二区三区| 久久99精品久久久久久| 亚洲综合第一色| 另类小说av| 尹人成人| 欧美亚洲一区二区三区在线| 亚洲欧美日本韩国| 亚洲成人资源在线| 肉大榛一出一进免费观看| 国产精品XXXX国产喷水| 少妇被粗大的猛烈进出视频 | 202丰满熟女妇大| 太原市| 67194欧洲| 成人国产精品中文字幕| 最新亚洲人成无码网站欣赏网 | 亚州综合成人网| 都江堰市| 午夜亚洲| 国产精品偷伦费观看一次| 色资源av中文无码先锋| 中国一区二区视频| 贞丰县| 欧美音影成人在线一级片| 不卡的av在线| 亚洲伊人久久综合成人|