網易首頁 > 網易號 > 正文申請入駐

豆包大模型 1.8 發布，通用 Agent 模型成為了 AI 行業的新敘事

2025-12-19 14:27:22　來源: FounderPark

北京舉報

分享至

兜兜轉轉，2025 年的 AI 行業，以 DeepSeek R1 和 Manus 開局，最終又回到了基模本身的主線敘事。

誰對 Agent 的支持能力更好、誰的 Coding 能力更強、誰能用好工具，誰才是今天開發者更愿意選擇的模型。

不再只看榜單分數，解決現實世界復雜任務的能力，成為了衡量模型的新標準。

字節在昨天發布的豆包大模型 1.8，同樣選擇增強了對于 Agent 的支持能力，除了繼續增強 Coding 和工具使用能力之外，豆包 1.8 選擇了一個更有想象力的場景——OS Agent。

一個不僅能搜索、能寫代碼，還能「看見」世界并且進行交互的 Agent。

不僅如此，隨著模型同步發布的，還有一套基于現實世界任務的新的 Evaluation System，喊了一年的「AI 下半場」，或許這套評測集，是我們開啟下半場的方式之一。

??關注 Founder Park，最及時最干貨的創業分享

超 17000 人的「AI 產品市集」社群！不錯過每一款有價值的 AI 應用。

邀請從業者、開發人員和創業者，飛書掃碼加群：

進群后，你有機會得到：

最新、最值得關注的 AI 新品資訊；
不定期贈送熱門新品的邀請碼、會員碼；
最精準的AI產品曝光渠道

01真正好用的基模：原生多模態+thinking

今天模型的技術發展，已經不再局限于基于文本模型了，先是 R1 和 o1 帶來的 thinking 能力，然后就是廠商一直在增強的模型的視覺能力，用「眼睛」看懂和理解世界的能力。

如果 Agent 真的想成為人類現實世界復雜任務的助手，視覺能力是它們理解和執行這些復雜任務的有力保障。

過去，給大模型增加視覺理解能力一般是通過外掛的方式，在文本模型的基礎上，加上 VLM 的能力，甚至單獨發布一個 VLM 的模型。比如 OpenAI 在 2023 年發布的 GPT-4V 模型，而 Gemini 系列，采用了更原生、更端到端的方案，原生就是一款具備多模態理解能力的模型。

豆包模型也是這個思路，豆包 1.6 版本將 LLM 和 VLM 組合在一起，豆包 1.8 從一開始的預訓練，就實現端到端的訓練，不僅保留了文本的推理性能，還實現了視覺理解能力的顯著提升，這才有了技術報告中的僅次于 Gemini 3 Pro 的能力表現。

數據來自豆包 1.8 Model Card

在這么短的時間內，實現對于 Gemini 系列的追趕和對標，某種角度上，也證明了基模公司之間，大家對于模型未來的發展是有共識的，無非是誰先能找到最高效的那條路而已。

至于 thingking 能力，豆包模型從 1.6 版本就不再提供單獨的 thinking 版本，而是在 api 調用中讓開發者根據場景實現思考長度的自調節，兼容不同的任務，很明顯，thinking 能力是現在基模的標配，而不是可選項。

02Agent 有了視覺能力，

解鎖了更有想象力的新場景

Manus 開啟了今年的 AI Agent 創業熱潮，基模對于工具的調用能力成為創業者關注的重點，工具調用的可靠性問題成為了很多創業者在 Agent 場景的痛點。

豆包 1.8 版本，和今年發布的其他幾款模型尤其是國產模型 Kimi K2、MiniMax M2 一樣，重點增強了 Agent 使用工具的能力。

從技術報告中可以看出，豆包 1.8 在工具調用、智能體搜索、智能體編程和復雜指令遵循上都有了能力的大幅提升。

官方演示的調用工具的案例

從演示案例中可以明顯看出，在 Agent 之外，豆包 1.8 核心的 agent 能力是 OS Agent，原生基座的視覺能力使它能夠「看見」并直接與界面交互。

電腦、網頁、移動端三類環境中任務執行能力的評測，數據來自官方 Model ?ard。

能看到、能理解、能操作，帶來了新的使用場景和想象力。

比如常見的 GUI 操作類任務，app 調用、企業 RPA 流程的一些自動化任務，比如最近引起熱議的豆包手機助手。

OSAgent 可能帶來了哪些新的可能性？

沒有 api 或者很難提供 api 接口的系統，比如維護多年的銀行 ERP、公司的內網系統等等這些傳統 Agent 基本無法搞定的場景，今天可以用 OS Agent 的方式去提效了。
對 api 調用限制極其嚴格或者需要改造 api 的系統，GUI Agent 可以直接模擬網頁操作，繞過 api 限制，實現跨平臺的數據搬運。
視頻理解創作更容易了，OS Agent 可以「看」懂畫布。圖片修改、視頻修改，Agent 是通過視覺識別這些元素并拖拽鼠標完成的，而不是修改底層代碼。
借助模型的視覺能力和自帶的 Video 工具，GUI Agent 可以進行實時的視頻流理解 + 動作決策。操作 app、監控視頻的實時解析、甚至代打游戲不再是個難題了。

我們可以再往前暢想一步，今天是 Agent 在理解為人類設計的軟件，下一步，很多軟件可能會面向 Agent 設計交互，不再需要開發復雜的前端界面給人類看，軟件只需要暴露一個極簡的、高密度的信息界面給 Agent 看即可。

再下一步呢，Agent 可以根據當前的任務，實時生成一個臨時的 UI 給人類確認，一個只需要簡單交互就可以實現任務交付。

歡迎來到 Generative UI 的時代！（但可能還需要一段時間）

03基模的「厚度」決定了 Agent 的天花板

對創業者來說，Seed 1.8 有一個重要的更新值得特別介紹下——思考模式下的工具調用，這個在 Claude Sonnet 4.5 和 DeepSeek-V3.2 中都已經推廣使用的工具調用方式。核心是讓模型在在保留推理狀態的同時，進行多次工具調用。模型能夠利用歷史輪次的思考內容，最終給出更詳盡準確的回答。對于長鏈路的 Agent 任務，保留推理狀態能夠顯著提升最終的完成效果。

豆包 1.8 思考模式下的工具調用。

Agent 最終的能力如何，某種意義上來說，又回到基模本身的能力和厚度上。

Thinking 不再是單獨的功能，而變成了基模的一個開關。

視頻理解工具已經被模型原生的多模態能力吞噬了，基礎模型自己就能直接「看」完一小時視頻并回答問題。工具塌縮成了模型的感覺器官。

Coding 不再是一個垂直行業技能，而是它操作計算機、調用工具、處理文件的基礎語言能力。當基模足夠強，Coding 就從一個「應用」塌縮成了基模的標準能力。

或者可以說，很多上層應用，Agent、Coding、垂直工具的能力，最終又塌縮回基模本身。

開發者們需要做的，是搭建自己的 Context Engineering，利用模型的通用智能，去解決那些它因為缺乏數據和反饋而解決不了的「最后一公里」問題。

04真正的 AI 下半場，

模型能力取決于你的 Evaluation

就如同姚順雨所說，我們進入了一個「定義問題將比解決問題更重要，evaluation 比 training 更重要」的時代。

年初的 DeepSeek R1，年中的 Claude 4.5、Kimi K2、MiniMax M2，年底的 GPT-5.2、Gemini 3 Pro 和豆包 1.8，每款模型發布后，基本都會刷榜各個評測集。

但每款模型都能刷榜，也就意味著這些舊的評測集，存在的意義已經消失了。

沒人再關心 GSM8K 的分數是 95 還是 96，大家只關心模型能不能獨立分析完一張 Excel 表，能不能完成一項現實世界里需要花費 2h 完成的任務。

模型之間真正的能力對比，已經不是看公開榜單的做題能力了。

如何定義新的 Evaluation，在豆包 1.8 的 Model Card 中，團隊發布了他們的 Evaluation System，可以當做對這個問題的一種回答。

評估系統遵循以下三個主要原則：

1.優先考慮用戶體驗：首先分析真實世界的用戶需求。通過研究像 ChatGPT 這樣的通用模型的實際使用案例分布（例如，查信息、文本編輯和輔導是前三大類別），豆包 1.8 的評估系統涵蓋了關鍵的流行用例，從而更好地與 C 端用戶需求對齊。

OpenAI 發布的 ChatGPT 用戶用例。

2.轉向真實世界場景：從合成的、孤立的任務轉向現實的、面向應用的場景。因為標準基準上的高分并不總是能轉化為實際價值，因此，評估設計了具有高經濟價值的任務，這些任務模仿了現實世界的復雜性。

3.推動智能前沿：在優先考慮實際可用性的同時，評估系統仍然致力于推進通用智能。系統通過設計涵蓋高級推理、數學和編碼的新基準，來衡量模型的峰值性能，確保核心智能不會因為側重可用性而被削弱。

在和豆包模型技術人員的交流中，他們分享了一個大眾以為很容易，實際上很難的場景——客服場景，就是一個很典型的從真實世界場景出發的評測任務。

客服是一個難度被低估的場景，數據分析反而比客服簡單。因為像 Coding、數據分析這類任務，天然存在大量公開數據，而且比較好驗證。而客服，需要獲得大量的 SOP 很難，任務里涉及很多因素不好驗證，中間還有幻覺，準確性要求又極高，很難做成一個 Copilot。但如果做好了，反過來，模型能力的提升，又解鎖了客服場景的新體驗。比如因為 AI 的高情商，在承擔客服的過程中，甚至還當上了銷售，用戶本來是要修手機，最后卻購買了一臺新的手機。

轉載原創文章請添加微信：founderparker

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.