豆包“包圓”互聯(lián)網(wǎng)

2025-12-18 19:37:36　來源: 字母榜

北京舉報(bào)

分享至

豆包手機(jī)才發(fā)布半個多月，字節(jié)就發(fā)布了通用agent模型豆包 1.8。這是一個能在真實(shí)世界中“做事”的多模態(tài)大模型。

豆包 1.8可以直接操作你的手機(jī)、電腦和瀏覽器。它能看懂屏幕上的按鈕和界面，然后像人一樣點(diǎn)擊、滑動，幫你完成各種任務(wù)。

這是字節(jié)一次非常大膽的嘗試。要知道，在12月1號的時候，字節(jié)才發(fā)布了豆包手機(jī)。通用agent大模型的推出，讓豆包的領(lǐng)地從手機(jī)一下就擴(kuò)張到了PC端，再加上智能硬件以及未來可以預(yù)期的智能座艙，豆包算是把互聯(lián)網(wǎng)從入口層面“一網(wǎng)打盡”了。

此前，曾因?yàn)槎拱謾C(jī)，字節(jié)已然成為了移動互聯(lián)網(wǎng)的敵人，微信、淘寶等超級流量APP明確表示拒絕豆包調(diào)用。

而現(xiàn)在，隨著豆包 1.8的發(fā)布，字節(jié)的敵人只增不減。

先來說說豆包 1.8的評分，更直觀的感受它作為agent是否合格。

在多模態(tài)理解方面，豆包 1.8的表現(xiàn)具有競爭力。模型能夠處理圖像和視頻內(nèi)容，單次視頻理解的幀數(shù)從前代的640幀提升至1280幀。該項(xiàng)提升并非僅體現(xiàn)在數(shù)值層面，在實(shí)際應(yīng)用場景中，模型能夠以低幀率理解長視頻的整體內(nèi)容，在遇到關(guān)鍵片段時調(diào)用工具進(jìn)行高幀率分析。

比如官方演示中，豆包 1.8就對籃球視頻進(jìn)行分析，最終濃縮出正常比賽的內(nèi)容。

在公開評測中，豆包 1.8在ZeroBench主集上獲得了11.0分，超越Gemini-3-Pro的10.0分，位居業(yè)界首位。ZeroBench是極限視覺推理基準(zhǔn)測試中的核心部分，評分越高，代表模型越能理解復(fù)雜的視頻。

在視覺推理任務(wù)上，模型在MathVista得分87.7，MathVision得分81.3，LogicVista得分78.3，雖然整體略遜于Gemini-3-Pro，但是仍處于第一梯隊(duì)。

視頻理解方面，模型在VideoHolmes測試中得分65.5，EgoTempo得分67.0，MotionBench得分70.6，在長視頻和流式視頻處理上同樣保持了競爭力。

更為關(guān)鍵的是模型的agent能力。

豆包 1.8能夠執(zhí)行代碼、操作圖形界面、使用各類工具，這些能力使其能夠完成多步驟的復(fù)雜任務(wù)。在BrowserComp-en搜索任務(wù)基準(zhǔn)測試中，模型得分為67.6，在智能編程和經(jīng)濟(jì)價值領(lǐng)域的相關(guān)測試中也表現(xiàn)穩(wěn)定。

字節(jié)在技術(shù)報(bào)告中提及，模型支持search、code execution、GUI interaction三種核心交互方式，這些能力通過統(tǒng)一的agentic接口實(shí)現(xiàn)。

在基礎(chǔ)能力方面，豆包 1.8在數(shù)學(xué)推理、代碼能力、復(fù)雜指令遵循、知識覆蓋等維度均保持了主流水平。在AIME-25測試中得分94.3，BeyondAIME得分77.0，AMO-Bench得分60.0，LiveCodeBench得分79.5。

這些數(shù)據(jù)表明豆包 1.8的底層能力扎實(shí)，字節(jié)并未因agent能力而忽視基礎(chǔ)建設(shè)。

字節(jié)專門構(gòu)建了一些內(nèi)部評測基準(zhǔn)，覆蓋教育、客服問答、復(fù)雜工作流等高價值場景。

在教育場景的測試中，豆包 1.8得分60.8，在客服問答中得分69.0，均為參與測試模型中的最高分。該結(jié)果驗(yàn)證了模型在實(shí)際業(yè)務(wù)場景中的表現(xiàn)。

豆包 1.8提供了四種thinking模式:no_think、think-low、think-medium、think-high。

該設(shè)計(jì)旨在平衡延遲、計(jì)算成本和解決方案質(zhì)量之間的關(guān)系。用戶可根據(jù)任務(wù)的復(fù)雜程度選擇不同的模式，在需要快速響應(yīng)的場景使用低算力模式，處理復(fù)雜任務(wù)時切換至高算力模式。

而且豆包 1.8在視覺編碼上進(jìn)行了優(yōu)化，減少了圖像和視頻輸入的token消耗。在長上下文處理方面，模型支持256K的上下文長度，并提供了原生API級別的上下文管理。

直白來說，字節(jié)已經(jīng)提前規(guī)劃好了豆包 1.8有哪些實(shí)際用途，以及部署上該如何優(yōu)化。

有意思的是，豆包 1.8的能力范圍不限于手機(jī)助手，瀏覽器以及PC端都可以使用。也就是說，字節(jié)正在用AI包圓整個互聯(lián)網(wǎng)。

其實(shí)這兩年瀏覽器市場的變化是非常顯著的。傳統(tǒng)瀏覽器，比如谷歌的Chrome和微軟的Edge，都在加入AI能力。也誕生了許多基于大模型的AI瀏覽器。

Atlas是OpenAI在2025年10月推出的產(chǎn)品，本質(zhì)上是Chrome與ChatGPT的結(jié)合，將對話助手嵌入傳統(tǒng)瀏覽器。Disco是Google Labs的實(shí)驗(yàn)項(xiàng)目，擁有名為GenTabs的機(jī)制，能夠?qū)⒂脩魹g覽的標(biāo)簽頁直接生成可交互的Web應(yīng)用。

AI瀏覽器是一個非常大的市場。Market.us數(shù)據(jù)顯示，2024年全球AI瀏覽器市場規(guī)模約45億美元，預(yù)計(jì)2034年將達(dá)到768億美元，年復(fù)合增長率達(dá)32.8%。

然而豆包 1.8其實(shí)可以讓設(shè)備擁有更神奇的玩法。

該模型的云端架構(gòu)使其能夠?qū)崿F(xiàn)跨設(shè)備協(xié)同，也就是說，理論上用戶可在手機(jī)上向豆包 1.8下達(dá)命令，由電腦上的瀏覽器執(zhí)行。

比如在手機(jī)上瀏覽抖音時發(fā)現(xiàn)感興趣的內(nèi)容，想要切換至大屏觀看。那么就可以向豆包 1.8發(fā)出“在網(wǎng)頁上打開該頁面”的指令，電腦瀏覽器便能打開手機(jī)上的視頻。

這種跨平臺能力是傳統(tǒng)瀏覽器AI化難以實(shí)現(xiàn)的，也是Atlas、Disco等獨(dú)立瀏覽器產(chǎn)品目前尚未擁有類似的能力。

實(shí)際上，字節(jié)也在效仿微軟。微軟曾在Ignite 2025大會上宣布Windows正在成為“AI agent操作系統(tǒng)”。

然而字節(jié)的想法和微軟是不相同的。

微軟需要從底層改造Windows系統(tǒng)架構(gòu)，將agent能力深度集成到內(nèi)核和API層面。而豆包 1.8的做法更輕量，它是一個系統(tǒng)外部的代行者，就像是外骨骼一樣簡化用戶的操作。

為了實(shí)現(xiàn)這個目標(biāo)，首先就是要理解文字和圖表。豆包1.8在這個領(lǐng)域有專門優(yōu)化。

它不僅能閱讀文字，還能理解復(fù)雜的學(xué)術(shù)圖表、數(shù)據(jù)可視化、技術(shù)文檔中的示意圖。在處理包含大量公式、圖表和專業(yè)符號的學(xué)術(shù)論文時，模型能夠提取關(guān)鍵信息、理解圖表含義、建立文字與圖示之間的對應(yīng)關(guān)系。

而且PC端的任務(wù)往往比移動端要復(fù)雜。于是豆包1.8在復(fù)雜推理任務(wù)中，加入了并行思考機(jī)制。通過分配額外的計(jì)算資源，它可以同時探索多個解決方案路徑，評估不同方案的可行性，最終選擇最優(yōu)解。

實(shí)際應(yīng)用測試顯示，豆包能夠處理綜合性的規(guī)劃任務(wù)。在旅行規(guī)劃場景中，它可以同時處理多模態(tài)信息，從地圖、圖片、文字描述中收集信息，綜合考慮預(yù)算、時間、偏好等約束條件，生成詳細(xì)可行的行程安排。

字節(jié)想要把AI的蛋糕做大，但是豆包手機(jī)已然讓字節(jié)成為眾矢之的，繼續(xù)升級agent，只會為自己引來更多的敵人。

互聯(lián)網(wǎng)行業(yè)當(dāng)前的商業(yè)邏輯是，用戶在應(yīng)用中停留的時間越長，觀看的廣告越多，平臺獲得的收益越高。應(yīng)用開發(fā)商投入大量精力優(yōu)化界面、設(shè)計(jì)轉(zhuǎn)化路徑、增加用戶黏性，目的是讓用戶盡可能多地接觸商業(yè)化內(nèi)容。在該邏輯下，應(yīng)用是流量的關(guān)口，掌握應(yīng)用即掌握用戶。

agent模型的出現(xiàn)，對該邏輯形成了顛覆。在字節(jié)的演示中，豆包 1.8能夠調(diào)用十余個工具完成電商平臺的全網(wǎng)比價和下單。

用戶無需打開淘寶、京東、拼多多，無需在各應(yīng)用之間切換，只需告訴大模型“購買性價比最高的某產(chǎn)品”，agent便會自動搜索、比價、篩選、下單。在整個過程中，用戶完全不接觸應(yīng)用界面，自然也無法看到任何廣告。

實(shí)測顯示，豆包 1.8可通過playwright MCP工具，按指令在淘寶篩選500-1000元區(qū)間銷量第一的半入耳式藍(lán)牙耳機(jī)，再到唯品會、京東比價并完成加購。

該能力對用戶而言是效率的提升，但對應(yīng)用開發(fā)商而言則構(gòu)成威脅。

廣告展示失去了核心場景，原有的流量價值被大幅壓縮。更為關(guān)鍵的是，用戶對應(yīng)用的認(rèn)知可能發(fā)生改變。

過去用戶的認(rèn)知是“購物使用淘寶，打車使用滴滴”，現(xiàn)在轉(zhuǎn)變?yōu)椤跋騛gent說明需求，由其決定使用何種服務(wù)”。應(yīng)用從流量的關(guān)口轉(zhuǎn)變?yōu)閍gent可選的工具，互聯(lián)網(wǎng)的統(tǒng)治權(quán)從應(yīng)用層轉(zhuǎn)向模型層。

豆包手機(jī)遭遇的封禁和限制，本質(zhì)上是應(yīng)用開發(fā)商的防御反應(yīng)。但該防御能夠持續(xù)的時間，取決于用戶的選擇。

但是，規(guī)矩是人定的。如果足夠多的用戶認(rèn)為agent的使用體驗(yàn)明顯優(yōu)于傳統(tǒng)的應(yīng)用操作，APP開發(fā)商將不得不調(diào)整策略。

開發(fā)商可能開放API接口使agent更好地調(diào)用，也可能在agent調(diào)用時保留部分廣告展示，或者改變商業(yè)模式，從流量變現(xiàn)轉(zhuǎn)向服務(wù)收費(fèi)。

況且，AI agent的玩家越來越多。

12月9日，智譜就宣布開源其核心AI agent模型AutoGLM。與豆包手機(jī)助手的能力相似，AutoGLM能夠穩(wěn)定完成外賣點(diǎn)單、機(jī)票預(yù)訂等長達(dá)數(shù)十步的復(fù)雜操作流程，并且已支持微信、淘寶、抖音、美團(tuán)等超過50個高頻中文應(yīng)用。

質(zhì)譜開源的AutoGLM-Phone-9B總共只需要36GB的空間，就可以完全在手機(jī)本地運(yùn)行。且開源采用MIT和Apache-2.0雙許可證，意味著任何人都可以免費(fèi)下載并用于商業(yè)用途。

在移動互聯(lián)網(wǎng)時代，谷歌憑借開源的Android系統(tǒng)建立了龐大的生態(tài)，智譜顯然想要在AI操作系統(tǒng)時代復(fù)制這一路徑。

而且從豆包和智譜的技術(shù)實(shí)現(xiàn)來看，這個領(lǐng)域的核心壁壘和大模型是完全相同的，騰訊、阿里等等互聯(lián)網(wǎng)大廠，手里都握著門票。

不過從行業(yè)競爭的角度觀察，誰能讓agent與現(xiàn)有APP生態(tài)共存的一方，誰才能占據(jù)優(yōu)勢。

字節(jié)既擁有模型能力，也擁有應(yīng)用生態(tài)。抖音、今日頭條等產(chǎn)品本身即為流量大戶，字節(jié)能夠先在自身應(yīng)用中測試agent能力，積累經(jīng)驗(yàn)后再向外擴(kuò)展。

且字節(jié)的云端架構(gòu)使其能夠快速迭代，豆包手機(jī)上線半月即推出多次更新，該迭代速度是傳統(tǒng)硬件廠商難以達(dá)成的。

不可否認(rèn)的是，豆包1.8是字節(jié)的探索性嘗試。

它們展示了一種可能性，但距離成熟的產(chǎn)品形態(tài)仍有距離。至于最終能夠走多遠(yuǎn)，取決于字節(jié)在技術(shù)、生態(tài)、商業(yè)模式上能夠?qū)崿F(xiàn)多少突破。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.