<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      實測豆包1.8后,我終于明白字節為什么要推豆包手機了。

      0
      分享至

      大家好,我是袋鼠帝

      好久沒有因為一款國產模型,產生這種明顯的期待感了。

      這次,是豆包1.8。


      在這個大家都忙著做年終總結的十二月,我本來以為AI圈能消停一會兒。

      沒想到,字節不講武德,又搞事情。

      今早我的朋友圈、各社群直接被火山引擎冬季FORCE原動力大會刷屏了..




      從節奏上看,字節這幾年在AI這條路上,一直走得非常穩。產品和模型并行發展,從文本到多模態,從對話到Agent,再從云端走到端側。

      這次原動力大會,又是一次階段性成果的集中展示。

      其中,豆包大模型1.8,作為字節新一代主力模型,正式接棒。

      注意,是主力模型。

      是接下來一段時間里,字節在企業Agent、應用層、工具鏈上真正要用、要打的那個模型。

      先看看跑分:在教育、客服、金融、法律、審核等多個場景測評中處于領先水平


      Agent能力和多模態理解能力非常強,直逼Gemini3 Pro


      看得出來,這次不是單項能力的突破,明顯沖著一個目標去的:復雜Agent,尤其是企業級Agent。

      比如,我可以讓它全自動幫我獲取apikey,并配置到開源Agent平臺-Fastgpt上了

      雙手離開鍵盤~(順便聽一聽我最近一直單曲循環的歌)

      說實話,第一眼看到豆包1.8的能力,我是有點驚喜的。

      這一看就是能干實事的。因為下面這三個點能同時滿足,這在國產模型里,是獨一檔了。

      >/ 第一:Agent能力往前走了一大步。

      多工具調用能力增強,多輪指令遵循的穩定性大幅提升,長文指令不再容易跑偏,執行規劃能力更強。

      尤其是OS Agent:支持Agent去屏幕上操作,它能幫我干很多事兒。

      在很多真實業務里,最后一公里從來不是推理,而是操作。

      在屏幕上完成一些相對復雜的點點點的任務,這些事情對人來說可能很簡單,但對模型來說一直是難點。

      豆包1.8把這件事當成重點去做,本身就是一個非常務實的信號。也很有可能就是沖著豆包手機去的。

      >/ 第二:256K的超長上下文,是真的好用。

      目前國產的主力大模型,大部分都是200K的上下文長度,而豆包1.8支持了256K~

      但如果只是能讀得多,管理不好也不行,畢竟上給模型的上下文不是越多越好,而是越精準越好。

      豆包1.8的一個關鍵點在于,它支持通過原生API做上下文管理,什么意思?

      你不再需要每次把所有歷史上下文一股腦塞進去,而是可以像整理文件夾一樣,按需清理、按需保留。

      這在企業級 Agent 場景里,價值非常大。

      一方面,成本直線下降。另一方面,模型的注意力更集中,執行穩定性也會更好。

      >/ 第三:多模態能力這次是真的實打實升級了。

      視覺理解精度提升,圖片token消耗更少,視頻理解能力再提升。

      單次視頻理解從640幀提升到1280幀,在1秒1幀的情況下,可以完整理解20分鐘的視頻內容。

      如果再配合火山方舟應用實驗室的Video Cup Tool,可以先低幀率掃全片,再高幀率聚焦關鍵片段。

      這個邏輯,非常像一個聰明人快速學習新知識的方法。先快進掃一遍,再倒回來看重點。

      這三點放在一起,我覺得豆包1.8非常適合搭建復雜Agent,跑真實流程。

      之前,其他模型不太能完成的復雜任務,現在好像可以試著交給它了。

      于是我快速做了幾個測試(難度越來越高),想看看它在復雜、多步驟、容易出錯的真實任務里,表現到底穩不穩。

      因為Agent最怕的不是不行,而是半行不行的。。。要么跑著跑著少一步,要么順序亂,要不就死循環,或者慢慢跑偏。

      目前火山引擎已經支持了豆包1.8的API


      為了方便快速用豆包1.8搭建Agent,我把豆包1.8接入了Trae使用


      并集成了我認為最好用的瀏覽器自動化MCP-Server:playwright mcp


      話不多說,我們開始!

      多平臺電商篩選比價 + 跨平臺加購

      先用這個案例來小試牛刀,如果這個任務跑不出來,后面的也不用看了。

      Prompt:全程使用playwright MCP工具,先在淘寶上尋找一款半入耳式藍牙耳機,價格區間在500-1000元之間。找到滿足以上條件并且銷量第一的那款耳機(可能有百億補貼,導致顯示的價格比500低,也可能是淘寶的bug,反正不管,固定價格區間后選定銷量第一就行了),然后在唯品會和京東進行這款耳機的比價,找到價格最便宜的同款耳機,添加到我的購物車中。

      這個任務里,難點不在于找耳機。

      難在三件事:

      第一,要在平臺篩選、過濾,找到符合要求的正確的商品。

      第二,要能跨平臺識別同款商品。

      第三,最后一步需要實際操作,加購。

      但是某寶有點der啊,為什么選擇了價格區間在500-1000,還有這么多500元以下的?


      這個現象一度讓豆包1.8懷疑自己

      豆包1.8內心:啊???我不是固定了500-1000價格嗎,為什么還有500以下的,不對,我再看看。

      于是我加了一句提示:

      可能有百億補貼,導致顯示的價格比500低,也可能是淘寶的bug,反正不管,固定價 格區間后選定銷量第一就行了

      執行過程見視頻:

      從執行過程來看,豆包1.8在幾個關鍵節點上表現都很穩。

      它先打開了某寶,在搜索欄搜索半入耳式藍牙耳機,并篩選了500-1000的價格區間,以銷量排序,進入商品詳情頁確認了商品名稱。

      然后打開某品會,搜索同款商品,對比價格,最后打開某東,發現某東的價格是最便宜的,并加入了購物車。

      條件鎖定后,它不會反復橫跳。在不同平臺頁面結構差異很大的情況下,正確定位了商品信息。在加購這一步,沒有出現誤點或卡死。

      整個過程像是一個熟練用戶在操作,每一步都比較精準。

      但就是還是Agent的老問題,整個過程有點慢,看得著急(急性子估計用不了),好在最后順利完成了。

      當然這里面有模型推理思考的時間,還有就是playwright MCP雖然已經是目前非常好用的瀏覽器自動化工具了,但是每次打開新頁面,模型都要通過playwright拿到頁面快照,然后分析定位元素,最后執行操作,要調用多個工具協同完成,這個過程也比較耗時。

      B站「影視颶風」互動任務

      既然第一個任務成功了,那接下來難度升級

      正好今天火山的大會Tim也去了,我們來給他的頻道增加點互動~

      這個任務需要打開B站,進入影視颶風主頁,從投稿列表里篩選最近發布且播放量超過500萬的3個視頻,保存鏈接。然后逐個訪問,根據獲取到的信息,分別發出三條貼合內容的評論。

      Prompt:請幫我登錄B站,去“影視颶風”的個人主頁執行一個互動任務。為了防止頁面刷新導致迷路,請你嚴格按照先找齊鏈接,再逐個訪問的順序來操作:

      第一步,篩選視頻。請進入他的“投稿”列表,保持默認的“最新發布”排序。請耐心地從上往下滾動瀏覽,仔細查看每一個視頻的播放數據,直到找出最近發布的、且播放量明確超過500萬的3個視頻。找到后,請先把這3個視頻的鏈接保存下來。

      第二步,發送評論。請依次直接訪問這3個鏈接。每進入一個視頻,先花點時間讀取一下視頻簡介和底下的高贊評論,了解視頻的核心看點。然后,基于這些信息,分別寫一條言之有物、符合科技區粉絲調性的評論并發送。注意,三條評論的內容要完全不同,必須貼合各自的視頻主題。注意:評論的時候你一定要輸入自己思考后的內容,并點擊發布,不要被評論輸入框中自帶的文字誤導了

      執行過程如下:

      這個任務頁面多,信息雜,需要判斷、總結,還要生成貼合視頻的評論內容。

      豆包1.8的表現,像一個知道自己在干嘛的人。

      它在主頁正確的篩選了最新的三條超500萬播放量視頻,并把鏈接收集齊,再逐個訪問。

      在評論生成上,沒有套模板,會根據視頻主題調整語氣和內容,像一個老粉一樣(雖然我是新粉 哈哈哈)。

      創建火山API Key + Fastgpt配置

      這個任務,我刻意選了一個容易翻車的場景。偏向開發者日常。

      我幾個月前用某模型來測試過,一直是死循環,硬是選不中對的按鈕。

      Prompt:進入火山引擎,控制臺,找到火山方舟并進入,在apikey那里,新建一個apikey并復制。打開fastgpt,登錄進去,根據 fastgpt操作截圖.png 新增模型,除了apikey,其他都填test即可。火山引擎地址: https://www.volcengine.com/,fastgpt地址:http://localhost:3000/ 用戶名:root,密碼:1234

      下面是我給豆包1.8的fastgpt的操作截圖


      這個任務,幾乎集齊了Agent所有痛點,非常考驗模型的綜合理解能力。

      難點在于,模型需要識別圖片上的操作指引,而且步驟非常細,任何一步錯了,后面都走不通。

      包括頁面跳轉、字段識別、復制粘貼、表單提交。

      跑下來,一個明顯的感受是,豆包1.8對頁面結構的理解很扎實,視覺能力也很強。

      不會因為頁面稍微復雜,就迷路。

      而且在長指令下,步驟執行順序穩定,沒有出現跳步或重復。

      這些對于Agent應用,非常關鍵。

      如果把視角再拉遠一點,你會發現,豆包1.8的很多能力,其實已經在為另一個方向鋪路。

      那就是端側Agent。

      最近備受爭議的豆包手機,我覺得就是一個非常直觀的嘗試。

      系統級AI助手這件事,跨App自動化,系統級權限,模擬操作。

      這些能力,在技術上是很酷的,但在現實生態里,必然會遇到阻力。

      這不是模型的問題,而是整個行業的博弈。

      豆包手機的意義,也不是賣了多少臺,而是驗證了一件事:

      當模型的Agent能力足夠強,系統級AI助手這條路,是必然走得通的。

      只是,怎么走,走多快,需要時間,也需要一些妥協。

      豆包1.8的出現,無疑讓這條路更好走了

      最后,如果你關心的是,模型能不能真正幫你把事情做好,而不是陪你聊天。

      那這一代豆包,確實已經走到一個很關鍵的位置了。

      接下來,就看大家拿它,能做出什么樣的Agent了~

      我是袋鼠帝,持續分享AI實踐干貨,我們下期見!

      能看到這里的都是鳳毛麟角的存在!

      如果覺得不錯,隨手點個贊、在看、轉發三連吧~

      如果想第一時間收到推送,也可以給我個星標?

      謝謝你耐心看完我的文章~

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      女子實名舉報某團外賣:不上大額券就讓我變成“凌晨營業”,你們真黑!

      女子實名舉報某團外賣:不上大額券就讓我變成“凌晨營業”,你們真黑!

      回旋鏢
      2026-03-06 21:13:59
      感謝勇士!80分啊!庫明加,這次真爆了

      感謝勇士!80分啊!庫明加,這次真爆了

      體育新角度
      2026-03-07 17:08:12
      可以基本確定,伊朗已經贏了

      可以基本確定,伊朗已經贏了

      大樹鄉談
      2026-03-06 23:32:06
      迪拜機場重新開放 國航北京-迪拜航班安全到達

      迪拜機場重新開放 國航北京-迪拜航班安全到達

      財聯社
      2026-03-07 17:43:08
      墻倒眾人推!多人再錘張杰出軌,拿謝娜當跳板,薛之謙才是大贏家

      墻倒眾人推!多人再錘張杰出軌,拿謝娜當跳板,薛之謙才是大贏家

      離離言幾許
      2026-03-05 12:33:31
      重力炸彈即將大規模上場,波斯面臨更大的壓力

      重力炸彈即將大規模上場,波斯面臨更大的壓力

      高博新視野
      2026-03-06 17:49:29
      假消息看多了,大腦真的會廢掉——

      假消息看多了,大腦真的會廢掉——

      心理提升課堂
      2026-03-07 09:36:17
      今早,黿頭渚擠爆了!

      今早,黿頭渚擠爆了!

      江南晚報
      2026-03-07 12:49:09
      哭窮風波僅2天,前夫赫子銘接連爆料,沒給何潔留一絲“體面”

      哭窮風波僅2天,前夫赫子銘接連爆料,沒給何潔留一絲“體面”

      汪鏞的創業之路
      2026-03-07 12:46:04
      伊朗總統向鄰國致歉:不再攻擊鄰國

      伊朗總統向鄰國致歉:不再攻擊鄰國

      每日經濟新聞
      2026-03-07 16:12:23
      邁阿密國際訪白宮引爭議,主帥:以為只討論足球

      邁阿密國際訪白宮引爭議,主帥:以為只討論足球

      體壇周報
      2026-03-07 14:44:11
      鐵礦到了!儲量44億噸大礦直運中國,澳大利亞為何開始緊張?

      鐵礦到了!儲量44億噸大礦直運中國,澳大利亞為何開始緊張?

      胖福的小木屋
      2026-03-06 16:39:08
      俄羅斯被曝向伊朗提供情報,包括美軍艦船和飛機的定位,白宮回應!美國準備部署第三艘航母,緊急批準對以色列超1.5億美元軍售

      俄羅斯被曝向伊朗提供情報,包括美軍艦船和飛機的定位,白宮回應!美國準備部署第三艘航母,緊急批準對以色列超1.5億美元軍售

      每日經濟新聞
      2026-03-07 13:18:09
      周濤衣領都開到這了誰還頂的住

      周濤衣領都開到這了誰還頂的住

      草莓解說體育
      2026-03-07 15:19:23
      文旅部部長:有外國游客購買40箱中國貨離境退稅,被航司罰款后發現還是劃算,手機無人機已成“中國特產”

      文旅部部長:有外國游客購買40箱中國貨離境退稅,被航司罰款后發現還是劃算,手機無人機已成“中國特產”

      極目新聞
      2026-03-07 12:57:58
      一份“煮熟的三文魚”火了,原來低認知的家長,真能搞出人命!

      一份“煮熟的三文魚”火了,原來低認知的家長,真能搞出人命!

      妍妍教育日記
      2026-03-07 08:45:06
      寧夏大學教授:為什么哈梅內伊不慌張?

      寧夏大學教授:為什么哈梅內伊不慌張?

      必記本
      2026-03-06 18:21:35
      項立剛質問莫言不為伊朗兒童說話,項立剛為中國患兒捐款了嗎?

      項立剛質問莫言不為伊朗兒童說話,項立剛為中國患兒捐款了嗎?

      書寫者
      2026-03-06 19:33:38
      1230人遇難!美國5天燒200億,終于承認:伊朗無人機真攔不住

      1230人遇難!美國5天燒200億,終于承認:伊朗無人機真攔不住

      近史博覽
      2026-03-07 01:20:35
      對伊朗而言,勝利的定義不是打贏,而是“活下去”并持續消耗美國

      對伊朗而言,勝利的定義不是打贏,而是“活下去”并持續消耗美國

      識局Insight
      2026-03-06 20:34:56
      2026-03-07 17:55:00
      袋鼠帝 incentive-icons
      袋鼠帝
      持續分享AI實踐干貨,走超級個體崛起之路
      55文章數 64關注度
      往期回顧 全部

      科技要聞

      OpenClaw爆火,六位"養蝦人"自述與AI共生

      頭條要聞

      中國貨船"鐵娘子"號通過霍爾木茲海峽 大量船舶仍滯留

      頭條要聞

      中國貨船"鐵娘子"號通過霍爾木茲海峽 大量船舶仍滯留

      體育要聞

      塔圖姆298天走完這段路 只用27分鐘征服這座城

      娛樂要聞

      周杰倫田馥甄的“JH戀” 被扒得底朝天

      財經要聞

      針對"不敢休、不讓休"怪圈 國家出手了

      汽車要聞

      逃離ICU,上汽通用“止血”企穩

      態度原創

      數碼
      游戲
      教育
      時尚
      軍事航空

      數碼要聞

      AI存儲需求進一步增長,三星NAND閃存被曝Q2將繼續漲價

      “穿越”時間體驗新活動!《寶可夢》新作玩家太積極

      教育要聞

      全國人大代表劉宏:校園餐絕不能從孩子嘴里“摳錢”

      這些才是適合普通人的穿搭!搭配腰帶、多穿牛仔褲,簡單舒適

      軍事要聞

      美第三個航母打擊群據稱準備部署至中東

      無障礙瀏覽 進入關懷版