在月初小試了一把“豆包手機”,在真實場景展示智能體潛力后,字節跳動真正的底牌才剛剛亮出。今日,其旗艦豆包大模型升級至Seed-1.8,直指“通用現實世界智能體”。這個專為多模態智能體場景定向優化的模型,將字節跳動日均token消耗提升到50萬億量級,加入與谷歌、OpenAI爭奪全球token經濟頭部位置的競爭。
所謂豆包手機,是Seed-1.8在現實世界的典型應用。它以系統級智能體的形式封裝在中興努比亞M153的底層,能夠理解復雜的手機界面,并跨應用完成連續操作。但當智能體行為被壓縮進短短數秒時,人們往往只看到結果,卻難以判斷其背后究竟調用了哪些能力,又經歷了多少步推理與決策。Seed-1.8 的模型卡,正是理解這一切的起點。
在字節跳動的模型體系中,Seed-1.8承擔的是旗艦角色,是一款多模態深度思考模型。在今天的FORCE原動力大會上,與其一同亮相的,還有最新的視頻生成模型 Seedance 1.5 Pro。此外,該模型家族還包括語音語義模型與圖像生成模型等,與阿里巴巴的通義家族一樣,覆蓋全模態與全尺寸。
但這一次,Seed-1.8明確錨定的對手,是同為旗艦模型的谷歌 Gemini-3-Pro,野心不言自明。后者發布僅一個月,是行業頂流,擁有最先進的推理能力,領先的多模態理解能力,帶來了全新的智能體編碼體驗;一經發布,炸裂了籠罩硅谷的陰霾。事實上,字節跳動與谷歌的正面競爭早已開始。年中,字節跳動的Seedance 1.0就對標了谷歌的Veo 3,開啟了AI短視頻大戰。這次算是進一步將戰火燒到了旗艦模型的最前沿。而且,在多項基準測試中,Seed-1.8并不落下風,甚至在視頻理解領域全面壓制了Gemini-3-Pro。
(2025/6/20) 閱讀全文>
與其證明模型有多強,不如檢驗它是否真正有用。字節跳動的模型創新路徑相當務實,主打在現實世界的高性價比地落地。除了基礎推理能力之外,該模型更被設計為能夠支撐統一的智能體交互、多步驟執行,以及對延遲與成本具備感知能力的推理系統,并據此接受更貼近應用場景的評估。在字節跳動看來,隨著行業步入“AI的下半場”,基準測試的三大原則,應為優先考慮用戶體驗、向實際場景過渡、以及推動智能前沿的發展。
若以編程、數學、STEM等基礎知識作為衡量標準,Seed-1.8相較 Gemini-3-Pro仍處于次優水平;但當評價重心轉向真實世界中的高經濟價值任務時,兩者已難分高下。需要強調的是,這類任務并非來自通用公共基準,而是字節跳動圍繞實際應用場景所構建的內部評估體系。
![]()
在多模態的視覺語言相關基準測試上,尤其是針對更細分的視頻理解能力,字節跳動的旗艦模型受益于它在抖音/TikTok上的積累。Seed-1.8幾乎全面壓倒了谷歌的Gemini-3-Pro,在23項基準測試中取得了12項領先。
Seed-1.8非常擅長視頻的思維鏈推理(VCR-Bench),它還是視頻推理界的“福爾摩斯”,能出色地根據視頻線索推斷隱藏事實(VideoHolmes)。此外,它在運動與感知理解方面也非常突出,尤其擅長運動模式建模(TOMATO)、第一人稱視角理解(EgoTempo)、細粒度動作識別(MotionBench)以及動態計數(Countix)等任務。
雖然谷歌在長視頻理解上仍占據優勢,但字節跳動在流媒體視頻理解方面實現了超越,尤其在逐幀實時主動響應與交互能力上表現優異(StreamingBench / OmniMMI)。
![]()
字節跳動團隊讓 Seed-1.8 從一場足球比賽中提取高光片段,模型成功捕捉到 5 個進球的精彩瞬間,并輸出每個片段的起止時間及選取理由。借助視頻工具(VideoCut),模型還能提升相關片段的幀率并進行回放,最終生成精準的技巧總結。或許在明年的世界杯期間,抖音上將充斥由 AI 自動剪輯與解說的足球精彩片段。
此外,Seed-1.8還提升了智能體能力,包括通用智能體搜索與視覺搜索,智能體編程、寫作與工具使用等。這些都與在實際工作流中完成任務息息相關。豆包手機要幫助用戶在多個平臺間搜尋分散的信息,同時兼顧時間、預算和個人偏好等高度耦合的約束條件。
該模型的另一項突出能力則是用戶圖形界面操作,它在OSWorld、Realbench、Online-Mind2web和 AndroidWorld這四個關鍵的公共基準測試中,均達到了峰值性能,三項第一,一項第二。
![]()
多模態+智能體,是塑造“豆包手機”AI體驗的關鍵能力。字節跳動的模型團隊輸入任務指令:“我有一個40×40厘米的裸缸,想養一條烏鱧魚,請幫我從各大購物App中挑選最具性價比的過濾器、防跳網和加熱棒。”Seed-1.8就用到了Mobile Use等功能,先后打開了三個不同的電子商務平臺(淘寶、京東、拼多多),查找并比較特定商品的價格。從接受指令到輸出結果,智能體一共執行了122個連續步驟。
這一過程充分考驗了模型在長期任務分解、多站點導航以及整合來自不同來源信息的準確性和穩定性,也凸顯了當前智能體向現實世界任務落地所必需的能力。
![]()
多模態與智能體能力在現實世界的落地,無疑將帶來更大規模的token消耗。單位時間內的token消耗數量,是算力相對標準化的計量方式,也是更靠近應用側的token經濟的統計指標。
目前,全球只有字節跳動與谷歌,有絕對的信心不定期披露自己的token消耗數據。此外,OpenAI也曾披露過一次API分鐘調用token消耗。正是在這一指標上,字節跳動自稱在全球競爭中位列“中國第一、全球第三”。
![]()
這三家AI巨頭的月均token消耗都已突破千萬億(Quadrillion)的量級。截至10月,谷歌每月消耗1300萬億tokens。同月,OpenAI每分鐘API調用了60億tokens,按企業業務占公司收入25%折算,整個公司也達到了每月消耗1080萬億tokens水平。這次,字節跳動披露截至今年12月,豆包大模型日均token使用量已突破50萬億(相當于1500萬億每月)。
與此同時,在相近的時間段內,谷歌、字節跳動與OpenAI,各自擁有超過150家、100家與30家客戶,累計消耗了萬億tokens。
當然,字節跳動也在盡可能降低不必要的算力開銷。當任務輪次過長時,模型會根據策略智能清除低價值的歷史工具調用信息,以確保多步驟任務的穩定完成;同時,其視頻生成模型支持先輸出“預覽即所得”的低分辨率版本,從而減少約60% 的無效創作成本。
旗艦模型Seed-1.8的發布,標志著字節跳動正持續逼近前沿封閉模型的能力邊界。伴隨海外業務擴張、AI 體驗加速滲透,以及“推理代工服務”推動智能體在千行百業落地,字節跳動正在成為中國開源模型體系之外,少數具備全球 token經濟競爭資格的關鍵玩家之一。
模型卡:
https://lf3-static.bytednsdoc.com/obj/eden-cn/lapzild-tss/ljhwZthlaukjlkulzlp/research/Seed-1.8-Modelcard.pdf
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.