大家好,我是袋鼠帝
好久沒有因為一款國產模型,產生這種明顯的期待感了。
這次,是豆包1.8。
![]()
在這個大家都忙著做年終總結的十二月,我本來以為AI圈能消停一會兒。
沒想到,字節不講武德,又搞事情。
今早我的朋友圈、各社群直接被火山引擎冬季FORCE原動力大會刷屏了..
![]()
![]()
![]()
從節奏上看,字節這幾年在AI這條路上,一直走得非常穩。產品和模型并行發展,從文本到多模態,從對話到Agent,再從云端走到端側。
這次原動力大會,又是一次階段性成果的集中展示。
其中,豆包大模型1.8,作為字節新一代主力模型,正式接棒。
注意,是主力模型。
是接下來一段時間里,字節在企業Agent、應用層、工具鏈上真正要用、要打的那個模型。
先看看跑分:在教育、客服、金融、法律、審核等多個場景測評中處于領先水平
![]()
Agent能力和多模態理解能力非常強,直逼Gemini3 Pro
![]()
看得出來,這次不是單項能力的突破,明顯沖著一個目標去的:復雜Agent,尤其是企業級Agent。
比如,我可以讓它全自動幫我獲取apikey,并配置到開源Agent平臺-Fastgpt上了
雙手離開鍵盤~(順便聽一聽我最近一直單曲循環的歌)
說實話,第一眼看到豆包1.8的能力,我是有點驚喜的。
這一看就是能干實事的。因為下面這三個點能同時滿足,這在國產模型里,是獨一檔了。
>/ 第一:Agent能力往前走了一大步。
多工具調用能力增強,多輪指令遵循的穩定性大幅提升,長文指令不再容易跑偏,執行規劃能力更強。
尤其是OS Agent:支持Agent去屏幕上操作,它能幫我干很多事兒。
在很多真實業務里,最后一公里從來不是推理,而是操作。
在屏幕上完成一些相對復雜的點點點的任務,這些事情對人來說可能很簡單,但對模型來說一直是難點。
豆包1.8把這件事當成重點去做,本身就是一個非常務實的信號。也很有可能就是沖著豆包手機去的。
>/ 第二:256K的超長上下文,是真的好用。
目前國產的主力大模型,大部分都是200K的上下文長度,而豆包1.8支持了256K~
但如果只是能讀得多,管理不好也不行,畢竟上給模型的上下文不是越多越好,而是越精準越好。
豆包1.8的一個關鍵點在于,它支持通過原生API做上下文管理,什么意思?
你不再需要每次把所有歷史上下文一股腦塞進去,而是可以像整理文件夾一樣,按需清理、按需保留。
這在企業級 Agent 場景里,價值非常大。
一方面,成本直線下降。另一方面,模型的注意力更集中,執行穩定性也會更好。
>/ 第三:多模態能力這次是真的實打實升級了。
視覺理解精度提升,圖片token消耗更少,視頻理解能力再提升。
單次視頻理解從640幀提升到1280幀,在1秒1幀的情況下,可以完整理解20分鐘的視頻內容。
如果再配合火山方舟應用實驗室的Video Cup Tool,可以先低幀率掃全片,再高幀率聚焦關鍵片段。
這個邏輯,非常像一個聰明人快速學習新知識的方法。先快進掃一遍,再倒回來看重點。
這三點放在一起,我覺得豆包1.8非常適合搭建復雜Agent,跑真實流程。
之前,其他模型不太能完成的復雜任務,現在好像可以試著交給它了。
于是我快速做了幾個測試(難度越來越高),想看看它在復雜、多步驟、容易出錯的真實任務里,表現到底穩不穩。
因為Agent最怕的不是不行,而是半行不行的。。。要么跑著跑著少一步,要么順序亂,要不就死循環,或者慢慢跑偏。
目前火山引擎已經支持了豆包1.8的API
![]()
為了方便快速用豆包1.8搭建Agent,我把豆包1.8接入了Trae使用
![]()
并集成了我認為最好用的瀏覽器自動化MCP-Server:playwright mcp
![]()
話不多說,我們開始!
多平臺電商篩選比價 + 跨平臺加購
先用這個案例來小試牛刀,如果這個任務跑不出來,后面的也不用看了。
Prompt:全程使用playwright MCP工具,先在淘寶上尋找一款半入耳式藍牙耳機,價格區間在500-1000元之間。找到滿足以上條件并且銷量第一的那款耳機(可能有百億補貼,導致顯示的價格比500低,也可能是淘寶的bug,反正不管,固定價格區間后選定銷量第一就行了),然后在唯品會和京東進行這款耳機的比價,找到價格最便宜的同款耳機,添加到我的購物車中。
這個任務里,難點不在于找耳機。
難在三件事:
第一,要在平臺篩選、過濾,找到符合要求的正確的商品。
第二,要能跨平臺識別同款商品。
第三,最后一步需要實際操作,加購。
但是某寶有點der啊,為什么選擇了價格區間在500-1000,還有這么多500元以下的?
![]()
這個現象一度讓豆包1.8懷疑自己
豆包1.8內心:啊???我不是固定了500-1000價格嗎,為什么還有500以下的,不對,我再看看。
于是我加了一句提示:
可能有百億補貼,導致顯示的價格比500低,也可能是淘寶的bug,反正不管,固定價 格區間后選定銷量第一就行了
執行過程見視頻:
從執行過程來看,豆包1.8在幾個關鍵節點上表現都很穩。
它先打開了某寶,在搜索欄搜索半入耳式藍牙耳機,并篩選了500-1000的價格區間,以銷量排序,進入商品詳情頁確認了商品名稱。
然后打開某品會,搜索同款商品,對比價格,最后打開某東,發現某東的價格是最便宜的,并加入了購物車。
條件鎖定后,它不會反復橫跳。在不同平臺頁面結構差異很大的情況下,正確定位了商品信息。在加購這一步,沒有出現誤點或卡死。
整個過程像是一個熟練用戶在操作,每一步都比較精準。
但就是還是Agent的老問題,整個過程有點慢,看得著急(急性子估計用不了),好在最后順利完成了。
當然這里面有模型推理思考的時間,還有就是playwright MCP雖然已經是目前非常好用的瀏覽器自動化工具了,但是每次打開新頁面,模型都要通過playwright拿到頁面快照,然后分析定位元素,最后執行操作,要調用多個工具協同完成,這個過程也比較耗時。
B站「影視颶風」互動任務
既然第一個任務成功了,那接下來難度升級
正好今天火山的大會Tim也去了,我們來給他的頻道增加點互動~
這個任務需要打開B站,進入影視颶風主頁,從投稿列表里篩選最近發布且播放量超過500萬的3個視頻,保存鏈接。然后逐個訪問,根據獲取到的信息,分別發出三條貼合內容的評論。
Prompt:請幫我登錄B站,去“影視颶風”的個人主頁執行一個互動任務。為了防止頁面刷新導致迷路,請你嚴格按照先找齊鏈接,再逐個訪問的順序來操作:
第一步,篩選視頻。請進入他的“投稿”列表,保持默認的“最新發布”排序。請耐心地從上往下滾動瀏覽,仔細查看每一個視頻的播放數據,直到找出最近發布的、且播放量明確超過500萬的3個視頻。找到后,請先把這3個視頻的鏈接保存下來。
第二步,發送評論。請依次直接訪問這3個鏈接。每進入一個視頻,先花點時間讀取一下視頻簡介和底下的高贊評論,了解視頻的核心看點。然后,基于這些信息,分別寫一條言之有物、符合科技區粉絲調性的評論并發送。注意,三條評論的內容要完全不同,必須貼合各自的視頻主題。注意:評論的時候你一定要輸入自己思考后的內容,并點擊發布,不要被評論輸入框中自帶的文字誤導了
執行過程如下:
這個任務頁面多,信息雜,需要判斷、總結,還要生成貼合視頻的評論內容。
豆包1.8的表現,像一個知道自己在干嘛的人。
它在主頁正確的篩選了最新的三條超500萬播放量視頻,并把鏈接收集齊,再逐個訪問。
在評論生成上,沒有套模板,會根據視頻主題調整語氣和內容,像一個老粉一樣(雖然我是新粉 哈哈哈)。
創建火山API Key + Fastgpt配置
這個任務,我刻意選了一個容易翻車的場景。偏向開發者日常。
我幾個月前用某模型來測試過,一直是死循環,硬是選不中對的按鈕。
Prompt:進入火山引擎,控制臺,找到火山方舟并進入,在apikey那里,新建一個apikey并復制。打開fastgpt,登錄進去,根據 fastgpt操作截圖.png 新增模型,除了apikey,其他都填test即可。火山引擎地址: https://www.volcengine.com/,fastgpt地址:http://localhost:3000/ 用戶名:root,密碼:1234
下面是我給豆包1.8的fastgpt的操作截圖
![]()
這個任務,幾乎集齊了Agent所有痛點,非常考驗模型的綜合理解能力。
難點在于,模型需要識別圖片上的操作指引,而且步驟非常細,任何一步錯了,后面都走不通。
包括頁面跳轉、字段識別、復制粘貼、表單提交。
跑下來,一個明顯的感受是,豆包1.8對頁面結構的理解很扎實,視覺能力也很強。
不會因為頁面稍微復雜,就迷路。
而且在長指令下,步驟執行順序穩定,沒有出現跳步或重復。
這些對于Agent應用,非常關鍵。
如果把視角再拉遠一點,你會發現,豆包1.8的很多能力,其實已經在為另一個方向鋪路。
那就是端側Agent。
最近備受爭議的豆包手機,我覺得就是一個非常直觀的嘗試。
系統級AI助手這件事,跨App自動化,系統級權限,模擬操作。
這些能力,在技術上是很酷的,但在現實生態里,必然會遇到阻力。
這不是模型的問題,而是整個行業的博弈。
豆包手機的意義,也不是賣了多少臺,而是驗證了一件事:
當模型的Agent能力足夠強,系統級AI助手這條路,是必然走得通的。
只是,怎么走,走多快,需要時間,也需要一些妥協。
豆包1.8的出現,無疑讓這條路更好走了
最后,如果你關心的是,模型能不能真正幫你把事情做好,而不是陪你聊天。
那這一代豆包,確實已經走到一個很關鍵的位置了。
接下來,就看大家拿它,能做出什么樣的Agent了~
我是袋鼠帝,持續分享AI實踐干貨,我們下期見!
能看到這里的都是鳳毛麟角的存在!
如果覺得不錯,隨手點個贊、在看、轉發三連吧~
如果想第一時間收到推送,也可以給我個星標?
謝謝你耐心看完我的文章~
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.