![]()
豆包手機(jī)才發(fā)布半個多月,字節(jié)就發(fā)布了通用agent模型豆包 1.8。這是一個能在真實(shí)世界中“做事”的多模態(tài)大模型。
豆包 1.8可以直接操作你的手機(jī)、電腦和瀏覽器。它能看懂屏幕上的按鈕和界面,然后像人一樣點(diǎn)擊、滑動,幫你完成各種任務(wù)。
這是字節(jié)一次非常大膽的嘗試。要知道,在12月1號的時候,字節(jié)才發(fā)布了豆包手機(jī)。通用agent大模型的推出,讓豆包的領(lǐng)地從手機(jī)一下就擴(kuò)張到了PC端,再加上智能硬件以及未來可以預(yù)期的智能座艙,豆包算是把互聯(lián)網(wǎng)從入口層面“一網(wǎng)打盡”了。
此前,曾因?yàn)槎拱謾C(jī),字節(jié)已然成為了移動互聯(lián)網(wǎng)的敵人,微信、淘寶等超級流量APP明確表示拒絕豆包調(diào)用。
而現(xiàn)在,隨著豆包 1.8的發(fā)布,字節(jié)的敵人只增不減。
A
先來說說豆包 1.8的評分,更直觀的感受它作為agent是否合格。
![]()
在多模態(tài)理解方面,豆包 1.8的表現(xiàn)具有競爭力。模型能夠處理圖像和視頻內(nèi)容,單次視頻理解的幀數(shù)從前代的640幀提升至1280幀。該項(xiàng)提升并非僅體現(xiàn)在數(shù)值層面,在實(shí)際應(yīng)用場景中,模型能夠以低幀率理解長視頻的整體內(nèi)容,在遇到關(guān)鍵片段時調(diào)用工具進(jìn)行高幀率分析。
比如官方演示中,豆包 1.8就對籃球視頻進(jìn)行分析,最終濃縮出正常比賽的內(nèi)容。
![]()
在公開評測中,豆包 1.8在ZeroBench主集上獲得了11.0分,超越Gemini-3-Pro的10.0分,位居業(yè)界首位。ZeroBench是極限視覺推理基準(zhǔn)測試中的核心部分,評分越高,代表模型越能理解復(fù)雜的視頻。
在視覺推理任務(wù)上,模型在MathVista得分87.7,MathVision得分81.3,LogicVista得分78.3,雖然整體略遜于Gemini-3-Pro,但是仍處于第一梯隊(duì)。
視頻理解方面,模型在VideoHolmes測試中得分65.5,EgoTempo得分67.0,MotionBench得分70.6,在長視頻和流式視頻處理上同樣保持了競爭力。
![]()
更為關(guān)鍵的是模型的agent能力。
豆包 1.8能夠執(zhí)行代碼、操作圖形界面、使用各類工具,這些能力使其能夠完成多步驟的復(fù)雜任務(wù)。在BrowserComp-en搜索任務(wù)基準(zhǔn)測試中,模型得分為67.6,在智能編程和經(jīng)濟(jì)價值領(lǐng)域的相關(guān)測試中也表現(xiàn)穩(wěn)定。
字節(jié)在技術(shù)報(bào)告中提及,模型支持search、code execution、GUI interaction三種核心交互方式,這些能力通過統(tǒng)一的agentic接口實(shí)現(xiàn)。
在基礎(chǔ)能力方面,豆包 1.8在數(shù)學(xué)推理、代碼能力、復(fù)雜指令遵循、知識覆蓋等維度均保持了主流水平。在AIME-25測試中得分94.3,BeyondAIME得分77.0,AMO-Bench得分60.0,LiveCodeBench得分79.5。
這些數(shù)據(jù)表明豆包 1.8的底層能力扎實(shí),字節(jié)并未因agent能力而忽視基礎(chǔ)建設(shè)。
![]()
字節(jié)專門構(gòu)建了一些內(nèi)部評測基準(zhǔn),覆蓋教育、客服問答、復(fù)雜工作流等高價值場景。
在教育場景的測試中,豆包 1.8得分60.8,在客服問答中得分69.0,均為參與測試模型中的最高分。該結(jié)果驗(yàn)證了模型在實(shí)際業(yè)務(wù)場景中的表現(xiàn)。
豆包 1.8提供了四種thinking模式:no_think、think-low、think-medium、think-high。
該設(shè)計(jì)旨在平衡延遲、計(jì)算成本和解決方案質(zhì)量之間的關(guān)系。用戶可根據(jù)任務(wù)的復(fù)雜程度選擇不同的模式,在需要快速響應(yīng)的場景使用低算力模式,處理復(fù)雜任務(wù)時切換至高算力模式。
而且豆包 1.8在視覺編碼上進(jìn)行了優(yōu)化,減少了圖像和視頻輸入的token消耗。在長上下文處理方面,模型支持256K的上下文長度,并提供了原生API級別的上下文管理。
直白來說,字節(jié)已經(jīng)提前規(guī)劃好了豆包 1.8有哪些實(shí)際用途,以及部署上該如何優(yōu)化。
B
有意思的是,豆包 1.8的能力范圍不限于手機(jī)助手,瀏覽器以及PC端都可以使用。也就是說,字節(jié)正在用AI包圓整個互聯(lián)網(wǎng)。
其實(shí)這兩年瀏覽器市場的變化是非常顯著的。傳統(tǒng)瀏覽器,比如谷歌的Chrome和微軟的Edge,都在加入AI能力。也誕生了許多基于大模型的AI瀏覽器。
Atlas是OpenAI在2025年10月推出的產(chǎn)品,本質(zhì)上是Chrome與ChatGPT的結(jié)合,將對話助手嵌入傳統(tǒng)瀏覽器。Disco是Google Labs的實(shí)驗(yàn)項(xiàng)目,擁有名為GenTabs的機(jī)制,能夠?qū)⒂脩魹g覽的標(biāo)簽頁直接生成可交互的Web應(yīng)用。
AI瀏覽器是一個非常大的市場。Market.us數(shù)據(jù)顯示,2024年全球AI瀏覽器市場規(guī)模約45億美元,預(yù)計(jì)2034年將達(dá)到768億美元,年復(fù)合增長率達(dá)32.8%。
![]()
然而豆包 1.8其實(shí)可以讓設(shè)備擁有更神奇的玩法。
該模型的云端架構(gòu)使其能夠?qū)崿F(xiàn)跨設(shè)備協(xié)同,也就是說,理論上用戶可在手機(jī)上向豆包 1.8下達(dá)命令,由電腦上的瀏覽器執(zhí)行。
比如在手機(jī)上瀏覽抖音時發(fā)現(xiàn)感興趣的內(nèi)容,想要切換至大屏觀看。那么就可以向豆包 1.8發(fā)出“在網(wǎng)頁上打開該頁面”的指令,電腦瀏覽器便能打開手機(jī)上的視頻。
這種跨平臺能力是傳統(tǒng)瀏覽器AI化難以實(shí)現(xiàn)的,也是Atlas、Disco等獨(dú)立瀏覽器產(chǎn)品目前尚未擁有類似的能力。
實(shí)際上,字節(jié)也在效仿微軟。微軟曾在Ignite 2025大會上宣布Windows正在成為“AI agent操作系統(tǒng)”。
然而字節(jié)的想法和微軟是不相同的。
微軟需要從底層改造Windows系統(tǒng)架構(gòu),將agent能力深度集成到內(nèi)核和API層面。而豆包 1.8的做法更輕量,它是一個系統(tǒng)外部的代行者,就像是外骨骼一樣簡化用戶的操作。
為了實(shí)現(xiàn)這個目標(biāo),首先就是要理解文字和圖表。豆包1.8在這個領(lǐng)域有專門優(yōu)化。
它不僅能閱讀文字,還能理解復(fù)雜的學(xué)術(shù)圖表、數(shù)據(jù)可視化、技術(shù)文檔中的示意圖。在處理包含大量公式、圖表和專業(yè)符號的學(xué)術(shù)論文時,模型能夠提取關(guān)鍵信息、理解圖表含義、建立文字與圖示之間的對應(yīng)關(guān)系。
而且PC端的任務(wù)往往比移動端要復(fù)雜。于是豆包1.8在復(fù)雜推理任務(wù)中,加入了并行思考機(jī)制。通過分配額外的計(jì)算資源,它可以同時探索多個解決方案路徑,評估不同方案的可行性,最終選擇最優(yōu)解。
實(shí)際應(yīng)用測試顯示,豆包能夠處理綜合性的規(guī)劃任務(wù)。在旅行規(guī)劃場景中,它可以同時處理多模態(tài)信息,從地圖、圖片、文字描述中收集信息,綜合考慮預(yù)算、時間、偏好等約束條件,生成詳細(xì)可行的行程安排。
C
字節(jié)想要把AI的蛋糕做大,但是豆包手機(jī)已然讓字節(jié)成為眾矢之的,繼續(xù)升級agent,只會為自己引來更多的敵人。
互聯(lián)網(wǎng)行業(yè)當(dāng)前的商業(yè)邏輯是,用戶在應(yīng)用中停留的時間越長,觀看的廣告越多,平臺獲得的收益越高。應(yīng)用開發(fā)商投入大量精力優(yōu)化界面、設(shè)計(jì)轉(zhuǎn)化路徑、增加用戶黏性,目的是讓用戶盡可能多地接觸商業(yè)化內(nèi)容。在該邏輯下,應(yīng)用是流量的關(guān)口,掌握應(yīng)用即掌握用戶。
agent模型的出現(xiàn),對該邏輯形成了顛覆。在字節(jié)的演示中,豆包 1.8能夠調(diào)用十余個工具完成電商平臺的全網(wǎng)比價和下單。
用戶無需打開淘寶、京東、拼多多,無需在各應(yīng)用之間切換,只需告訴大模型“購買性價比最高的某產(chǎn)品”,agent便會自動搜索、比價、篩選、下單。在整個過程中,用戶完全不接觸應(yīng)用界面,自然也無法看到任何廣告。
![]()
實(shí)測顯示,豆包 1.8可通過playwright MCP工具,按指令在淘寶篩選500-1000元區(qū)間銷量第一的半入耳式藍(lán)牙耳機(jī),再到唯品會、京東比價并完成加購。
該能力對用戶而言是效率的提升,但對應(yīng)用開發(fā)商而言則構(gòu)成威脅。
廣告展示失去了核心場景,原有的流量價值被大幅壓縮。更為關(guān)鍵的是,用戶對應(yīng)用的認(rèn)知可能發(fā)生改變。
過去用戶的認(rèn)知是“購物使用淘寶,打車使用滴滴”,現(xiàn)在轉(zhuǎn)變?yōu)椤跋騛gent說明需求,由其決定使用何種服務(wù)”。應(yīng)用從流量的關(guān)口轉(zhuǎn)變?yōu)閍gent可選的工具,互聯(lián)網(wǎng)的統(tǒng)治權(quán)從應(yīng)用層轉(zhuǎn)向模型層。
豆包手機(jī)遭遇的封禁和限制,本質(zhì)上是應(yīng)用開發(fā)商的防御反應(yīng)。但該防御能夠持續(xù)的時間,取決于用戶的選擇。
但是,規(guī)矩是人定的。如果足夠多的用戶認(rèn)為agent的使用體驗(yàn)明顯優(yōu)于傳統(tǒng)的應(yīng)用操作,APP開發(fā)商將不得不調(diào)整策略。
開發(fā)商可能開放API接口使agent更好地調(diào)用,也可能在agent調(diào)用時保留部分廣告展示,或者改變商業(yè)模式,從流量變現(xiàn)轉(zhuǎn)向服務(wù)收費(fèi)。
況且,AI agent的玩家越來越多。
12月9日,智譜就宣布開源其核心AI agent模型AutoGLM。與豆包手機(jī)助手的能力相似,AutoGLM能夠穩(wěn)定完成外賣點(diǎn)單、機(jī)票預(yù)訂等長達(dá)數(shù)十步的復(fù)雜操作流程,并且已支持微信、淘寶、抖音、美團(tuán)等超過50個高頻中文應(yīng)用。
質(zhì)譜開源的AutoGLM-Phone-9B總共只需要36GB的空間,就可以完全在手機(jī)本地運(yùn)行。且開源采用MIT和Apache-2.0雙許可證,意味著任何人都可以免費(fèi)下載并用于商業(yè)用途。
在移動互聯(lián)網(wǎng)時代,谷歌憑借開源的Android系統(tǒng)建立了龐大的生態(tài),智譜顯然想要在AI操作系統(tǒng)時代復(fù)制這一路徑。
而且從豆包和智譜的技術(shù)實(shí)現(xiàn)來看,這個領(lǐng)域的核心壁壘和大模型是完全相同的,騰訊、阿里等等互聯(lián)網(wǎng)大廠,手里都握著門票。
不過從行業(yè)競爭的角度觀察,誰能讓agent與現(xiàn)有APP生態(tài)共存的一方,誰才能占據(jù)優(yōu)勢。
字節(jié)既擁有模型能力,也擁有應(yīng)用生態(tài)。抖音、今日頭條等產(chǎn)品本身即為流量大戶,字節(jié)能夠先在自身應(yīng)用中測試agent能力,積累經(jīng)驗(yàn)后再向外擴(kuò)展。
且字節(jié)的云端架構(gòu)使其能夠快速迭代,豆包手機(jī)上線半月即推出多次更新,該迭代速度是傳統(tǒng)硬件廠商難以達(dá)成的。
不可否認(rèn)的是,豆包1.8是字節(jié)的探索性嘗試。
它們展示了一種可能性,但距離成熟的產(chǎn)品形態(tài)仍有距離。至于最終能夠走多遠(yuǎn),取決于字節(jié)在技術(shù)、生態(tài)、商業(yè)模式上能夠?qū)崿F(xiàn)多少突破。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.