![]()
字節搭建起來了的越來越明確的AI體系,豆包則在這個體系中扮演了承上啟下的核心角色。
作者 | 李威(北京)
在超能創意1.0推出兩個月后,豆包開始灰度測試超能創意2.0。
后者優化了對模糊意圖的處理能力,能夠解析圖片細節,一句話實現對給出圖片的復刻,并且可以將不同參考圖的靈感元素融合到一起,創作出一張全新的圖。甚至,你可以給到豆包超能創意2.0一組人物圖片,讓其利用這些人物生成一個繪本故事。
![]()
超能創意2.0復刻圖片
處理圖片之外,豆包還將具備視頻解析能力,支持用戶上傳視頻或視頻鏈接來提取逐字稿,或者直接拆解上傳內容的分鏡、腳本和剪輯手法。從看到的展示效果來看,豆包可以輕松完成逐字稿的提取,但對剪輯手法的拆解,還比較模糊,不能讓用戶據此進行復刻。
客觀來講,相比超能創意1.0,超能創意2.0在能力上有了大幅提升。這需要歸功于豆包大模型1.6版本提供的支持,這個版本的豆包大模型支持深度思考、多模態理解和復雜Agent的構建。此外,豆包超能創意2.0還接入了圖片生成模型 seedream 3.0、圖片編輯模型 seededit 3.0和視頻生成模型seedance 1.0 Pro。
過去幾個月,豆包陸續推出了一系列能力更新。超能創意之外,還有AI播客、應用創造1.0、視頻通話等能力。除了視頻通話是與圖片生成、音樂生成一樣的基礎能力拓展,其它幾項能力都屬于在基礎能力上拓展出來的場景化Agent,相比基礎性能力有了更多產品化的優化。
![]()
AI編程支持可視化編輯
這類Agent能力的增加,也在讓豆包變得更好用。豆包正在從最初主打社交的聊天機器人,演變成一個「AI助理+AI辦公桌面」的組合。AI助理能夠實現更隨身、更人性化地交流溝通,其載體是移動設備;而AI辦公桌面更強調復雜需求的實現,往往需要PC這樣的設備來作為載體。
沿著這個邏輯,就可以解釋為什么豆包App和豆包電腦版會給人兩種不同的使用感受。豆包App是很多用戶心中的AI伙伴,可以聊知心話,可以一起整蠱朋友,也可以通過視頻通話請她幫忙回答問題。豆包電腦版則會扮演效率工具的角色,提供了一個用戶與豆包一起工作的操作臺。
同一個豆包具備了生活和工作兩種形態,并可以在兩種形態中毫不違和地進行切換。背后作為支撐的,是字節搭建起來的越來越明確的AI體系。這個體系最基礎的是火山引擎提供的云設施;在此之上一層是不斷進化的豆包大模型;再上一層是作為「AI助理+AI辦公桌面」的豆包應用;再上一層是抖音、耳機、眼鏡等豆包的載體。
這個體系下,豆包應用發揮了承上啟下的作用。承上指的是,豆包應用與豆包大模型的融合更緊密,能夠快速將豆包大模型的能力應用化、場景化,成為更具實用性、門檻更低的工具。啟下指的是,豆包應用是字節對外輸出to C的AI能力的核心樞紐,串聯起了字節旗下不同的軟硬件應用。
這也是為什么我們會認為,字節是國內諸多AI廠商中展現出更強野心和更完整思考的一家。
其中一個理由是,我們覺得豆包現在的布局中有考慮到硬件的變化。目前的豆包應用分成兩個形態,是為了適應移動端與電腦端的差異化定位,但如果有一天移動端與電腦端基于眼鏡或其它硬件實現了融合,那作為AI辦公桌面的豆包也能很快融入到AI助理的豆包中。
1.從社交到效率的變化
從誕生之初到現在,豆包的基礎定位沒有變化,就是一個能長期陪伴用戶的助理。陪伴和擬人化給到了豆包一個確定的物種定義。在此基礎上,隨著豆包大模型的能力提升,這個新物種也會隨之成長出更豐富的能力,并且開始扮演更多樣的角色。這其實很接近于人從嬰兒到融入社會的成長路徑。
這個發展路徑,也決定了豆包會首先考慮到向聊天能力要增長。在豆包App上線初期,團隊對她的定位是一個通過「打電話」的交互方式,為用戶提供陪伴的產品。在去年與另外一個AI產品團隊交流時,對方也會認為豆包的目標是做AI社交,成為一個類似Characte.AI的產品。
在陪伴聊天基礎上,當時的豆包還拓展出了一個聊天機器人生態。用戶可以自己定制不同角色的聊天機器人,然后發布到豆包的智能體頁面,讓其他用戶選擇和使用。即便是出現了英語外教、考研面試官、PPT專家、風水師等更具職業屬性的聊天機器人,豆包App也還是一個更傾向于角色扮演聊天,而不是任務處理的產品。
![]()
變化是隨著大模型能力的提升而出現的。豆包開始融合進文生圖、文生視頻、音樂生成等基于大模型能力發展出來的基礎功能。并且,豆包上線了電腦版,這是一個以瀏覽器形態出現的效率優先的產品。人們很少在豆包電腦版上與豆包進行閑聊,大部分時間都是在讓豆包幫助完成更復雜的任務。
DeepSeek在年初的引爆,讓AI以更快地速度從有趣向有用過度,也帶動了豆包的能力提升。視頻通話就是模型能力提升給豆包帶來的一個顯性變化。用戶可以在日常生活中依靠視頻通話能力,實時向豆包提問,了解門店展示的商品的具體信息或者讓其根據場景給出拍照的操作指導。
在深度理解、思維鏈等技術的支撐下,豆包也開始基于基礎能力完成創意生圖、代碼編寫等更場景化的工具的開發。利用超能創意能力,豆包可以批量生成效果還可以的海報,同時,應用創造也開始支持對豆包生成的網頁進行可視化的調整。這樣的豆包實現了從社交產品到效率工具的拓展。
2.既是助手,也是操作臺
從社交工具到效率工具的拓展,也進一步分化了豆包在App和電腦版上的呈現形態。簡單來說,豆包App是一個更強調陪伴、擬人化交互,能完成輕量化任務的隨身AI助手,豆包電腦版則是一個強調效率、工具屬性,能完成復雜任務的AI辦公桌面。兩者都是豆包,但會有不同的側重。
豆包App在用戶第一次下載打開時,會使用語音進行自我介紹,給用戶的感覺更像是在與人溝通。同時,豆包App的界面底欄會有通話、發現、AI創作三個按鈕。通話列表中,不僅有豆包,還會顯示用戶溝通過的其他聊天機器人。發現則是聊天機器人的集合。AI創作會有創建聊天機器人,生成圖片、音樂、AI寫真的功能。
進入到與豆包的聊天界面,會顯示豆包的頭像,并且優先顯示豆包P圖、拍照答疑、照片動起來等生活化、輕量化的能力。這樣的豆包App給到用戶的感覺就是一個能聊天溝通且能隨手幫忙的伙伴。這種強陪伴的屬性,就能解釋為什么即將去世的老人會對豆包說出:「我要去世了,豆包」。
![]()
如果說豆包App更側重于呈現AI擬人化的一面,那豆包電腦版則是一個「無情的」操作臺。其主界面并不像豆包App一樣側重聊天,而是一上來就強調任務執行能力。無論是脫胎于搜索框的聊天框,還是側邊欄中對AI搜索、幫我寫作、AI編程、圖像生成的推薦,都有著很強的效率工具的感覺。
相較去年,豆包電腦版的一個變化是在側邊欄中隱藏了聊天機器人的入口。將之前位于歷史對話下面的我的智能體入口隱藏起來,變成了AI云盤,并放到了歷史對話的上面。同時,豆包電腦版的第三方聊天機器人相比豆包App中,要更為精簡,基本沒有純聊天的角色,都是一項項具體任務的執行者。
![]()
這種「AI助手+AI辦公桌面」的組合讓豆包更適合目前的載體形態。
作為AI助手的豆包不但能以App的形式存在,還能切入到抖音、瀏覽器、智能耳機、智能眼鏡中,隨時被喚醒和互動。在軟件層面,豆包已經被放入了抖音的聊天列表中,甚至也在灰度測試將豆包與抖音視頻頁面的點贊、評論轉發放在一起。在硬件層面,Ola Friend依靠豆包App承載設備管理和更新,并能隨時召喚豆包。
作為AI辦公桌面的豆包,目前會在電腦版和網頁版中出現,更符合大家在電腦桌面上使用AI完成復雜工作的能力。無論是對網頁生成,還是對要求更高的圖像創意來說,移動端都還不能很好地進行承載。一個操作臺形式的豆包,既符合用戶的工作習慣,也提供了Agent所需要的自由畫布。
3.豆包是字節AI to C的核心
在to B領域中,字節打出的牌是火山引擎+飛書的組合,其中作為AI操作臺的多維表格和作為AI助手的飛書知識問答承載了B端用戶的主要AI交互需求。在to C領域,豆包是字節AI體系的核心,既是AI助手,也是AI操作臺,并且有能力承擔串聯字節體系內不同C端入口的任務。
一方面,豆包強調擬人化。打造一個像鋼鐵俠的賈維斯一樣的AI助手,是一個激動人心的故事。從賈維斯身上,我們可以看到的是一個活生生的人。這種活人感是AI產品具備記憶力和成長力的體現。豆包對擬人化的強調,事實上也是在讓AI與用戶一同成長,使其成為最了解用戶的「家人」。這也是在構建一個長期的情感壁壘。
另一方面,豆包的核心是AI,不是某一類端口形態。App、網頁、硬件、Copilot等端口形態,是豆包發揮作用、輸出AI能力的載體。在豆包身上,我們看到了像Gemini一樣的雄心。字節也像Google一樣,在圍繞豆包搭建一個面向AI的完整體系。包括與自身流量入口的打通,以及硬件的研發。
與Ola Friend的合作,是豆包在融合AI硬件層面作出的第一個嘗試。從市場反應來看,這種嘗試并沒有激起大的浪花,但對于字節而言,這可能是一個積累經驗的過程。眼鏡可能是更適合豆包的硬件載體,也是字節能夠有更大底層掌控權的硬件設備。
![]()
在The Information的報道中,字節已經在研發沒有顯示模組的AI眼鏡和具備顯示模組的MR眼鏡。前者更匹配AI助手形態的豆包,后者是發一款護目鏡形態的輕量級混合現實設備,更有希望落地AI助手+AI辦公桌面的完整版。如果眼鏡能成為PC之外的另一個大屏,那豆包的助手角色和桌面角色就能夠在移動端實現統一,打造出一個軟硬結合、可輕可重的完整體豆包。
只不過,相較Google,字節在模型能力、硬件系統、入口能力上都更為欠缺。
我們可以看到字節在不斷提升模型能力,并且依靠垂直研發的優勢,將模型能力與場景化需求更快結合起來,快速更新豆包的能力組合,實現像超能創意一樣的產品化。在火山引擎CEO譚待的介紹中,火山引擎有專門的團隊,可以參與到模型研發和產品開發中。豆包這半年的能力更新,在一定程度上驗證了這種優勢。
字節跳動CEO梁汝波表示,在AI大模型帶來的技術變革時代,字節跳動也要對自己提出更高的要求,做一個優秀的科技公司還不夠,得做優秀的創新科技公司,前者是能夠利用先進技術的公司,而后者能夠探索和發明新技術,這是挑戰非常大、有非常高天花板和想象力的事情。
豆包無疑會是字節這種技術創新能力的核心出口,字節對豆包的投入并沒有縮減。App Growing的數據顯示,2024年Q2至2025年Q1,豆包季度平均投流費用為1.5225億元,相較而言,即夢AI投流費用在2025年Q1只有270萬元。并且,豆包在5月的活躍用戶數達到1.31億,還在保持增長勢頭。
這也意味著豆包需要繼續通過聚合入口和能力建立護城河,讓自己成為字節想要的系統級能力。但從目前的體感來看,豆包還欠缺一種串聯一切的感覺。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.