網易首頁 > 網易號 > 正文申請入駐

豆包-Seed-1.8，每天50萬億token，字節跳動真實的世界野心

2025-12-19 00:28:44　來源: 未盡研究

上海舉報

分享至

在月初小試了一把“豆包手機”，在真實場景展示智能體潛力后，字節跳動真正的底牌才剛剛亮出。今日，其旗艦豆包大模型升級至Seed-1.8，直指“通用現實世界智能體”。這個專為多模態智能體場景定向優化的模型，將字節跳動日均token消耗提升到50萬億量級，加入與谷歌、OpenAI爭奪全球token經濟頭部位置的競爭。

所謂豆包手機，是Seed-1.8在現實世界的典型應用。它以系統級智能體的形式封裝在中興努比亞M153的底層，能夠理解復雜的手機界面，并跨應用完成連續操作。但當智能體行為被壓縮進短短數秒時，人們往往只看到結果，卻難以判斷其背后究竟調用了哪些能力，又經歷了多少步推理與決策。Seed-1.8 的模型卡，正是理解這一切的起點。

在字節跳動的模型體系中，Seed-1.8承擔的是旗艦角色，是一款多模態深度思考模型。在今天的FORCE原動力大會上，與其一同亮相的，還有最新的視頻生成模型 Seedance 1.5 Pro。此外，該模型家族還包括語音語義模型與圖像生成模型等，與阿里巴巴的通義家族一樣，覆蓋全模態與全尺寸。

但這一次，Seed-1.8明確錨定的對手，是同為旗艦模型的谷歌 Gemini-3-Pro，野心不言自明。后者發布僅一個月，是行業頂流，擁有最先進的推理能力，領先的多模態理解能力，帶來了全新的智能體編碼體驗；一經發布，炸裂了籠罩硅谷的陰霾。事實上，字節跳動與谷歌的正面競爭早已開始。年中，字節跳動的Seedance 1.0就對標了谷歌的Veo 3，開啟了AI短視頻大戰。這次算是進一步將戰火燒到了旗艦模型的最前沿。而且，在多項基準測試中，Seed-1.8并不落下風，甚至在視頻理解領域全面壓制了Gemini-3-Pro。

（2025/6/20）閱讀全文>

與其證明模型有多強，不如檢驗它是否真正有用。字節跳動的模型創新路徑相當務實，主打在現實世界的高性價比地落地。除了基礎推理能力之外，該模型更被設計為能夠支撐統一的智能體交互、多步驟執行，以及對延遲與成本具備感知能力的推理系統，并據此接受更貼近應用場景的評估。在字節跳動看來，隨著行業步入“AI的下半場”，基準測試的三大原則，應為優先考慮用戶體驗、向實際場景過渡、以及推動智能前沿的發展。

若以編程、數學、STEM等基礎知識作為衡量標準，Seed-1.8相較 Gemini-3-Pro仍處于次優水平；但當評價重心轉向真實世界中的高經濟價值任務時，兩者已難分高下。需要強調的是，這類任務并非來自通用公共基準，而是字節跳動圍繞實際應用場景所構建的內部評估體系。

在多模態的視覺語言相關基準測試上，尤其是針對更細分的視頻理解能力，字節跳動的旗艦模型受益于它在抖音/TikTok上的積累。Seed-1.8幾乎全面壓倒了谷歌的Gemini-3-Pro，在23項基準測試中取得了12項領先。

Seed-1.8非常擅長視頻的思維鏈推理（VCR-Bench），它還是視頻推理界的“福爾摩斯”，能出色地根據視頻線索推斷隱藏事實（VideoHolmes）。此外，它在運動與感知理解方面也非常突出，尤其擅長運動模式建模（TOMATO）、第一人稱視角理解（EgoTempo）、細粒度動作識別（MotionBench）以及動態計數（Countix）等任務。

雖然谷歌在長視頻理解上仍占據優勢，但字節跳動在流媒體視頻理解方面實現了超越，尤其在逐幀實時主動響應與交互能力上表現優異（StreamingBench / OmniMMI）。

字節跳動團隊讓 Seed-1.8 從一場足球比賽中提取高光片段，模型成功捕捉到 5 個進球的精彩瞬間，并輸出每個片段的起止時間及選取理由。借助視頻工具（VideoCut），模型還能提升相關片段的幀率并進行回放，最終生成精準的技巧總結。或許在明年的世界杯期間，抖音上將充斥由 AI 自動剪輯與解說的足球精彩片段。

此外，Seed-1.8還提升了智能體能力，包括通用智能體搜索與視覺搜索，智能體編程、寫作與工具使用等。這些都與在實際工作流中完成任務息息相關。豆包手機要幫助用戶在多個平臺間搜尋分散的信息，同時兼顧時間、預算和個人偏好等高度耦合的約束條件。

該模型的另一項突出能力則是用戶圖形界面操作，它在OSWorld、Realbench、Online-Mind2web和 AndroidWorld這四個關鍵的公共基準測試中，均達到了峰值性能，三項第一，一項第二。

多模態+智能體，是塑造“豆包手機”AI體驗的關鍵能力。字節跳動的模型團隊輸入任務指令：“我有一個40×40厘米的裸缸，想養一條烏鱧魚，請幫我從各大購物App中挑選最具性價比的過濾器、防跳網和加熱棒。”Seed-1.8就用到了Mobile Use等功能，先后打開了三個不同的電子商務平臺（淘寶、京東、拼多多），查找并比較特定商品的價格。從接受指令到輸出結果，智能體一共執行了122個連續步驟。

這一過程充分考驗了模型在長期任務分解、多站點導航以及整合來自不同來源信息的準確性和穩定性，也凸顯了當前智能體向現實世界任務落地所必需的能力。

多模態與智能體能力在現實世界的落地，無疑將帶來更大規模的token消耗。單位時間內的token消耗數量，是算力相對標準化的計量方式，也是更靠近應用側的token經濟的統計指標。

目前，全球只有字節跳動與谷歌，有絕對的信心不定期披露自己的token消耗數據。此外，OpenAI也曾披露過一次API分鐘調用token消耗。正是在這一指標上，字節跳動自稱在全球競爭中位列“中國第一、全球第三”。

這三家AI巨頭的月均token消耗都已突破千萬億(Quadrillion)的量級。截至10月，谷歌每月消耗1300萬億tokens。同月，OpenAI每分鐘API調用了60億tokens，按企業業務占公司收入25%折算，整個公司也達到了每月消耗1080萬億tokens水平。這次，字節跳動披露截至今年12月，豆包大模型日均token使用量已突破50萬億(相當于1500萬億每月)。

與此同時，在相近的時間段內，谷歌、字節跳動與OpenAI，各自擁有超過150家、100家與30家客戶，累計消耗了萬億tokens。

當然，字節跳動也在盡可能降低不必要的算力開銷。當任務輪次過長時，模型會根據策略智能清除低價值的歷史工具調用信息，以確保多步驟任務的穩定完成；同時，其視頻生成模型支持先輸出“預覽即所得”的低分辨率版本，從而減少約60% 的無效創作成本。

旗艦模型Seed-1.8的發布，標志著字節跳動正持續逼近前沿封閉模型的能力邊界。伴隨海外業務擴張、AI 體驗加速滲透，以及“推理代工服務”推動智能體在千行百業落地，字節跳動正在成為中國開源模型體系之外，少數具備全球 token經濟競爭資格的關鍵玩家之一。

模型卡：

https://lf3-static.bytednsdoc.com/obj/eden-cn/lapzild-tss/ljhwZthlaukjlkulzlp/research/Seed-1.8-Modelcard.pdf

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.