金磊 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
在Seedance 2.0和Seedream 5.0 Lite,一波接一波爆火之后,豆包把完全體拿出來了——豆包大模型2.0。
這是時隔21個月以來的最大版本的更新。
像Seedance 2.0已經(jīng)成為全民玩轉的AI,我們也試著做了一個視頻:
![]()
視頻地址:https://mp.weixin.qq.com/s/h8jaVOGREQt2tOFHG39VmQ
短短5秒鐘,效果確實是足夠逼真。
也難怪老外也開始研究怎么注冊中國手機號來體驗了……
![]()
再如Seedream 5.0 Lite,首次支持聯(lián)網(wǎng)檢索,生成的圖片也達到了商業(yè)化的水平:
![]()
而就在今天,在視覺模型火爆之后,豆包終于把那個最核心的大腦拿出來了——豆包大模型2.0。
整體來看,這次豆包大模型2.0在多模態(tài)理解、企業(yè)級Agent、推理和代碼能力上都有了不少的提升:
- 更強多模態(tài)理解:在多模態(tài)感知、高精度文字提取、圖表理解、空間理解、運動理解、視覺知識和推理、長視頻理解等方面表現(xiàn)出色。
- 企業(yè)級Agent能力:模型能更好支持對技能(Skills)的理解和應用,F(xiàn)unction Call 、多輪指令遵循、搜索和工具調(diào)用能力顯著增強,格式輸出更穩(wěn)定,支持靈活的上下文管理,更好地支持企業(yè)級復雜、長程任務,在數(shù)據(jù)分析和客服Agent等企業(yè)場景中表現(xiàn)出色。
- 數(shù)學和代碼推理能力:模型具備更強推理能力,支持思考長度可調(diào)節(jié),且各思考長度下,Tokens效率都有大幅提升。在ICPC、IMO、CMO測試中均獲得金牌成績。
更直觀的提升,體現(xiàn)在榜單測評中。
例如在MathVista、MathVision、MathKangaroo、MathCanvas等數(shù)學推理基準上達到業(yè)界最優(yōu)水平。同時,在 LogicVista、VisuLogic等視覺解謎與邏輯推理基準上,Seed2.0 Pro得分較Seed1.8顯著提升。
![]()
并且在VLMsAreBiased、VLMsAreBlind、BabyVision等基準中,豆包大模型2.0取得了業(yè)界最高分!
![]()
那么接下來,還是老規(guī)矩,一波實測,走起~
零幀手搓《我的世界》
首先,我們就要測試最近各家都在主推的代碼能力。
在字節(jié)旗下的AI編程軟件TRAE中,我們目前就能體驗豆包大模型2.0的能力:
![]()
我們就先以3D模仿求解器的案例,來小試牛刀一下:
- 你幫我寫一個能解決魔方的群論算法,然后用前端頁面演示下吧,要求美觀,本地當前文件夾下的所有文件都可以直接編輯刪除和覆蓋。
![]()
視頻地址:https://mp.weixin.qq.com/s/h8jaVOGREQt2tOFHG39VmQ
不難看出,豆包大模型2.0很好的理解了基于群論的智能算法,并且在視覺和交互上也是比較驚艷。
面對復雜的物理模擬,也是不在話下:
![]()
視頻地址:https://mp.weixin.qq.com/s/h8jaVOGREQt2tOFHG39VmQ
接下來,我們來一個更加復雜且長任務的測試——3D版大富翁游戲(上下滑動)。
![]()
請欣賞效果:
![]()
視頻地址:https://mp.weixin.qq.com/s/h8jaVOGREQt2tOFHG39VmQ
可以看到,豆包大模型2.0依舊是穩(wěn)穩(wěn)拿捏。
難度再上一層樓,這次我們直接做一個《我的世界》(上下滑動):
![]()
同樣也是稍等幾分鐘,高仿版《我的世界》就誕生了:
![]()
視頻地址:https://mp.weixin.qq.com/s/h8jaVOGREQt2tOFHG39VmQ
并且豆包官方也展示了通過豆包大模型2.0和TRAE生成的“AI春節(jié)廟會”:
![]()
視頻地址:https://mp.weixin.qq.com/s/h8jaVOGREQt2tOFHG39VmQ
當然,像模擬可交互的蘋果電腦系統(tǒng)這種任務,也是非常輕松實現(xiàn):
![]()
視頻地址:https://mp.weixin.qq.com/s/h8jaVOGREQt2tOFHG39VmQ
除了編程之外,像復雜的圖解問題,豆包大模型2.0也是可以輕松拿捏。
例如我們直接丟給它這樣一張圖:
![]()
豆包大模型2.0在接收到問題之后,立即給出了正確答案(上下滑動):
![]()
類似的,復雜的數(shù)學問題也是不在話下。
![]()
![]()
由此可見,豆包大模型2.0在推理、編程和數(shù)學問題上,都有明顯的性能提升。
為什么現(xiàn)在才是2.0的節(jié)點?
實測下來,最直觀的感受是:豆包大模型2.0變穩(wěn)了。
它不再滿足于陪你聊天,而是試圖幫你寫完一個項目、算出一個難題、畫出一張商用級海報。
這也引出了一個問題:為什么現(xiàn)在才是2.0的節(jié)點?
過去一年,大模型行業(yè)陷入了卷參數(shù)和卷價格的混戰(zhàn)。但字節(jié)跳動似乎一直在憋大招。這個時間點發(fā)布2.0,或許是因為在數(shù)據(jù)質(zhì)量、訓練效率,以及應用效果都突破了一個新的臨界點。
特別是在Agent場景下。
真正的企業(yè)級應用,不是靠聊天解決的,而是靠行動。豆包 2.0 展現(xiàn)出的工具調(diào)用能力和長程任務規(guī)劃能力,顯然是沖著ToB和生產(chǎn)力工具去的。
性價比是否更具優(yōu)勢?答案是肯定的。
在測試中我們發(fā)現(xiàn),雖然能力變強了,但推理速度并沒有明顯的延遲。據(jù)技術報告顯示,Seed-2.0系列(包括 Pro、Lite、Mini)在同等性能下,通過架構優(yōu)化,大幅提升了Tokens效率。
這意味著,企業(yè)用它來做客服、做數(shù)據(jù)分析、寫代碼,成本會更低。
現(xiàn)在,豆包大模型2.0已經(jīng)全面上線,感興趣的小伙伴可以去試試嘍~
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.