兜兜轉轉,2025 年的 AI 行業,以 DeepSeek R1 和 Manus 開局,最終又回到了基模本身的主線敘事。
誰對 Agent 的支持能力更好、誰的 Coding 能力更強、誰能用好工具,誰才是今天開發者更愿意選擇的模型。
不再只看榜單分數,解決現實世界復雜任務的能力,成為了衡量模型的新標準。
![]()
字節在昨天發布的豆包大模型 1.8,同樣選擇增強了對于 Agent 的支持能力,除了繼續增強 Coding 和工具使用能力之外,豆包 1.8 選擇了一個更有想象力的場景——OS Agent。
一個不僅能搜索、能寫代碼,還能「看見」世界并且進行交互的 Agent。
不僅如此,隨著模型同步發布的,還有一套基于現實世界任務的新的 Evaluation System,喊了一年的「AI 下半場」,或許這套評測集,是我們開啟下半場的方式之一。
??關注 Founder Park,最及時最干貨的創業分享
超 17000 人的「AI 產品市集」社群!不錯過每一款有價值的 AI 應用。
邀請從業者、開發人員和創業者,飛書掃碼加群:
進群后,你有機會得到:
最新、最值得關注的 AI 新品資訊;
不定期贈送熱門新品的邀請碼、會員碼;
最精準的AI產品曝光渠道
今天模型的技術發展,已經不再局限于基于文本模型了,先是 R1 和 o1 帶來的 thinking 能力,然后就是廠商一直在增強的模型的視覺能力,用「眼睛」看懂和理解世界的能力。
如果 Agent 真的想成為人類現實世界復雜任務的助手,視覺能力是它們理解和執行這些復雜任務的有力保障。
過去,給大模型增加視覺理解能力一般是通過外掛的方式,在文本模型的基礎上,加上 VLM 的能力,甚至單獨發布一個 VLM 的模型。比如 OpenAI 在 2023 年發布的 GPT-4V 模型,而 Gemini 系列,采用了更原生、更端到端的方案,原生就是一款具備多模態理解能力的模型。
豆包模型也是這個思路,豆包 1.6 版本將 LLM 和 VLM 組合在一起,豆包 1.8 從一開始的預訓練,就實現端到端的訓練,不僅保留了文本的推理性能,還實現了視覺理解能力的顯著提升,這才有了技術報告中的僅次于 Gemini 3 Pro 的能力表現。
![]()
數據來自豆包 1.8 Model Card
在這么短的時間內,實現對于 Gemini 系列的追趕和對標,某種角度上,也證明了基模公司之間,大家對于模型未來的發展是有共識的,無非是誰先能找到最高效的那條路而已。
至于 thingking 能力,豆包模型從 1.6 版本就不再提供單獨的 thinking 版本,而是在 api 調用中讓開發者根據場景實現思考長度的自調節,兼容不同的任務,很明顯,thinking 能力是現在基模的標配,而不是可選項。
02Agent 有了視覺能力,
解鎖了更有想象力的新場景
Manus 開啟了今年的 AI Agent 創業熱潮,基模對于工具的調用能力成為創業者關注的重點,工具調用的可靠性問題成為了很多創業者在 Agent 場景的痛點。
豆包 1.8 版本,和今年發布的其他幾款模型尤其是國產模型 Kimi K2、MiniMax M2 一樣,重點增強了 Agent 使用工具的能力。
![]()
從技術報告中可以看出,豆包 1.8 在工具調用、智能體搜索、智能體編程和復雜指令遵循上都有了能力的大幅提升。
官方演示的調用工具的案例
從演示案例中可以明顯看出,在 Agent 之外,豆包 1.8 核心的 agent 能力是 OS Agent,原生基座的視覺能力使它能夠「看見」并直接與界面交互。
![]()
電腦、網頁、移動端三類環境中任務執行能力的評測,數據來自官方 Model ?ard。
能看到、能理解、能操作,帶來了新的使用場景和想象力。
比如常見的 GUI 操作類任務,app 調用、企業 RPA 流程的一些自動化任務,比如最近引起熱議的豆包手機助手。
OSAgent 可能帶來了哪些新的可能性?
沒有 api 或者很難提供 api 接口的系統,比如維護多年的銀行 ERP、公司的內網系統等等這些傳統 Agent 基本無法搞定的場景,今天可以用 OS Agent 的方式去提效了。
對 api 調用限制極其嚴格或者需要改造 api 的系統,GUI Agent 可以直接模擬網頁操作,繞過 api 限制,實現跨平臺的數據搬運。
視頻理解創作更容易了,OS Agent 可以「看」懂畫布。圖片修改、視頻修改,Agent 是通過視覺識別這些元素并拖拽鼠標完成的,而不是修改底層代碼。
借助模型的視覺能力和自帶的 Video 工具,GUI Agent 可以進行實時的視頻流理解 + 動作決策。操作 app、監控視頻的實時解析、甚至代打游戲不再是個難題了。
我們可以再往前暢想一步,今天是 Agent 在理解為人類設計的軟件,下一步,很多軟件可能會面向 Agent 設計交互,不再需要開發復雜的前端界面給人類看,軟件只需要暴露一個極簡的、高密度的信息界面給 Agent 看即可。
再下一步呢,Agent 可以根據當前的任務,實時生成一個臨時的 UI 給人類確認,一個只需要簡單交互就可以實現任務交付。
歡迎來到 Generative UI 的時代!(但可能還需要一段時間)
03基模的「厚度」決定了 Agent 的天花板
對創業者來說,Seed 1.8 有一個重要的更新值得特別介紹下——思考模式下的工具調用,這個在 Claude Sonnet 4.5 和 DeepSeek-V3.2 中都已經推廣使用的工具調用方式。核心是讓模型在在保留推理狀態的同時,進行多次工具調用。模型能夠利用歷史輪次的思考內容,最終給出更詳盡準確的回答。對于長鏈路的 Agent 任務,保留推理狀態能夠顯著提升最終的完成效果。
![]()
豆包 1.8 思考模式下的工具調用。
Agent 最終的能力如何,某種意義上來說,又回到基模本身的能力和厚度上。
Thinking 不再是單獨的功能,而變成了基模的一個開關。
視頻理解工具已經被模型原生的多模態能力吞噬了,基礎模型自己就能直接「看」完一小時視頻并回答問題。工具塌縮成了模型的感覺器官。
Coding 不再是一個垂直行業技能,而是它操作計算機、調用工具、處理文件的基礎語言能力。當基模足夠強,Coding 就從一個「應用」塌縮成了基模的標準能力。
或者可以說,很多上層應用,Agent、Coding、垂直工具的能力,最終又塌縮回基模本身。
開發者們需要做的,是搭建自己的 Context Engineering,利用模型的通用智能,去解決那些它因為缺乏數據和反饋而解決不了的「最后一公里」問題。
04真正的 AI 下半場,
模型能力取決于你的 Evaluation
就如同姚順雨所說,我們進入了一個「定義問題將比解決問題更重要,evaluation 比 training 更重要」的時代。
年初的 DeepSeek R1,年中的 Claude 4.5、Kimi K2、MiniMax M2,年底的 GPT-5.2、Gemini 3 Pro 和豆包 1.8,每款模型發布后,基本都會刷榜各個評測集。
但每款模型都能刷榜,也就意味著這些舊的評測集,存在的意義已經消失了。
沒人再關心 GSM8K 的分數是 95 還是 96,大家只關心模型能不能獨立分析完一張 Excel 表,能不能完成一項現實世界里需要花費 2h 完成的任務。
模型之間真正的能力對比,已經不是看公開榜單的做題能力了。
如何定義新的 Evaluation,在豆包 1.8 的 Model Card 中,團隊發布了他們的 Evaluation System,可以當做對這個問題的一種回答。
評估系統遵循以下三個主要原則:
1.優先考慮用戶體驗:首先分析真實世界的用戶需求。通過研究像 ChatGPT 這樣的通用模型的實際使用案例分布(例如,查信息、文本編輯和輔導是前三大類別),豆包 1.8 的評估系統涵蓋了關鍵的流行用例,從而更好地與 C 端用戶需求對齊。
![]()
OpenAI 發布的 ChatGPT 用戶用例。
2.轉向真實世界場景:從合成的、孤立的任務轉向現實的、面向應用的場景。因為標準基準上的高分并不總是能轉化為實際價值,因此,評估設計了具有高經濟價值的任務,這些任務模仿了現實世界的復雜性。
3.推動智能前沿:在優先考慮實際可用性的同時,評估系統仍然致力于推進通用智能。系統通過設計涵蓋高級推理、數學和編碼的新基準,來衡量模型的峰值性能,確保核心智能不會因為側重可用性而被削弱。
在和豆包模型技術人員的交流中,他們分享了一個大眾以為很容易,實際上很難的場景——客服場景,就是一個很典型的從真實世界場景出發的評測任務。
客服是一個難度被低估的場景,數據分析反而比客服簡單。因為像 Coding、數據分析這類任務,天然存在大量公開數據,而且比較好驗證。而客服,需要獲得大量的 SOP 很難,任務里涉及很多因素不好驗證,中間還有幻覺,準確性要求又極高,很難做成一個 Copilot。 但如果做好了,反過來,模型能力的提升,又解鎖了客服場景的新體驗。比如因為 AI 的高情商,在承擔客服的過程中,甚至還當上了銷售,用戶本來是要修手機,最后卻購買了一臺新的手機。
轉載原創文章請添加微信:founderparker
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.