昨天你們在朋友圈應(yīng)該看到過很多人在轉(zhuǎn)的一個 10 分鐘左右的視頻,是字節(jié)旗下的豆包發(fā)布的「豆包手機助手」。
這不是一款 App,而是一個長在手機里的 AI Agent,它可以幫你直接操作手機完成各種任務(wù),比如買東西、訂酒店、甚至發(fā)布小紅書內(nèi)容。
你需要做的,就是直接用語音告訴豆包手機助手你的需求,剩下的它會自己完成操作。
![]()
注意,這些操作并不是在「豆包手機助手里」完成,而是它會打開你手機里的淘寶、攜程、小紅書、以及你需要它操作的一切 App。
我看了一些拿到工程機的演示視頻,有多離譜呢?
比如,你可以讓它在美團外賣、京東秒送、淘寶閃購三個 App 上對比同一家黃燜雞米飯的下單價格,然后找最低的哪個下單支付。
還沒完,下完單之后你可以讓他截個圖發(fā)在某個微信群里并發(fā)條消息告訴朋友已經(jīng)定了外賣。
更進一步,你還可以讓他把剛剛的截圖從相冊里刪掉。
這一系列流程不是分三步完成的,而是基于你的一句話指令。也就是說,豆包手機助手有連續(xù)執(zhí)行多任務(wù)的能力。
更離譜的來了。
它不僅能基于你的指令完成多任務(wù)操作,還能幫你打王者榮耀,雖然目前看還比較簡陋粗放,但這給后續(xù)升級提供了空間。
因此,豆包手機助手的產(chǎn)品定位就是個 GUI Agent。
GUI 是圖形界面,Agent 是基于 AI 能力的大腦,具備分析和任務(wù)處理能力。
大模型是大腦的核心,而手機操作系統(tǒng)級的授權(quán)為 Agent 執(zhí)行操作提供了基礎(chǔ)。
其實可以思考這么一個問題,手機里的各種 App 是如何被我們使用的?
基本上,這些 App 其實都是通過組合模式在完成一系列的任務(wù),然后人就是這個發(fā)起者和協(xié)調(diào)者。
比如我出差去給產(chǎn)品訓(xùn)練營的同學(xué)上課,需要找場地、需要溝通、需要看機票酒店、然后還需要把定好的安排發(fā)到群里通知大家。
過去,我需要在美團、微信、攜程里來回跳,通過組合的方式來完成這一條工作流,其實時間利用率和效率都不高。
假設(shè)我有一個人工助理,那這些事都可以交給他去完成,最后給我一個結(jié)果就行。
這個帶腦子的 GUI Agent 其實就扮演了 AI 助理的角色,當(dāng)然,它現(xiàn)在可能還不是那么聰明和靈活。
比如,你需要用精確指令去跟它交互才能確保任務(wù)完成的準(zhǔn)確性。
你得說去淘寶閃購訂外賣,如果說去淘寶找個黃燜雞米飯,它可能就去淘寶搜索里找同名商品了。
估計還會有讀者好奇,為什么一般的 App 干不了這事兒?
其實很簡單,因為 App 在技術(shù)上是應(yīng)用軟件層的產(chǎn)物,每一個 App 都是獨立黑盒,無法跟其他 App 之間進行互通操作。
但如果再向下一層到操作系統(tǒng)級別,那系統(tǒng)層本身就承載了應(yīng)用層,所以能實現(xiàn)全局操作和數(shù)據(jù)互動。
而豆包手機助手就是在系統(tǒng)層上植入了一個 AI 大模型的 Agent,讓它在授權(quán)下去執(zhí)行各種操作。
那你會問了,這東西安全嗎?
說實話,我也不知道,因為我沒用過,而且對各種異常情況和處理能力和執(zhí)行精度以及安全機制也不清楚。
但是我看豆包有個安全白皮書,說是在硬件層面有安全防護,軟件層面也有,且不會對用戶隱私進行數(shù)據(jù)提取和分析。
嗯,說是這么說,但總覺得有點隱隱不安,這有點像把你的手機交給一個你不認識的人操作。
估計你也會想,萬一它干點啥呢,萬一它亂給我買東西呢,萬一它把我微信里的錢轉(zhuǎn)給別人了呢。
所以,實際落地的過程中還有很多的挑戰(zhàn)和場景測試,包括硬件、軟件、安全、風(fēng)險處理等等。
豆包那邊也說了,正在和其他手機廠商談合作,因為這玩意兒必須在系統(tǒng)級做定制,沒合作的手機是用不了的。
第一臺合作手機是中興的 Nubia M153,價格 3499 元。
![]()
目前只在豆包的官方渠道有購買,而且目前只有一個配置可選。
正當(dāng)我以為應(yīng)該沒啥人買的時候,我被打臉了。
不是沒人買,而是搶不到。
![]()
第一批還是叫技術(shù)預(yù)覽版,估計也就是有個可用的雛形,官方也說了不承諾產(chǎn)品功能的成熟完善度,僅供體驗,而且讓普通消費者謹(jǐn)慎購買。
我估計,大多數(shù)都是被產(chǎn)品蝗蟲和媒體買走的。
最后我想聊聊,為什么是字節(jié)?
不知道你們發(fā)現(xiàn)沒有,字節(jié)在 AI 這一輪的浪潮中表現(xiàn)得異常活躍,做產(chǎn)品的能力很強。
不僅上線了豆包這種月活快 2 億的產(chǎn)品,還有火山引擎,以及像即夢、Trae 和扣子這樣的 AI 產(chǎn)品。
此外,最近我還在用豆包輸入法,而且是在微信里用,基于大模型的語音輸入體驗還不錯。
豆包輸入法估計很多人不知道,只支持拼音和語音兩種輸入方式,語音識別和糾錯能力很強,而且準(zhǔn)確性比較高。
不管是硬件層面的 GUI Agent,還是軟件層面的 AI 應(yīng)用,字節(jié)都在加速對 AI 的布局。
其實字節(jié)有一個優(yōu)勢,就是技術(shù)和數(shù)據(jù)儲備。
他們最早從今日頭條就開始積累的推薦算法技術(shù)和后期抖音帶來的用戶行為數(shù)據(jù),這些為他們打造 AI 能力提供了很好的基礎(chǔ)。
關(guān)鍵是,這家公司背后的掌舵者有著超高認知能力。
我之前也在想,字節(jié)為什么要在現(xiàn)在這個時候做一個豆包手機助手?
后來我突然明白一點,這哪是一個簡單的手機助手啊,這不明明是一個未來的超級流量入口么!
你想一下,未來你都不需要打開各種 App 去操作了,那這些 App 不就變成純后端工具了么,而前端全部被豆包手機助手承接了。
我去,這不就是妥妥的超級流量助手么,還有其他 App 什么事,感覺其他 App 都是在給豆包手機助手打工的。
是有那么點細思極恐了啊!
現(xiàn)在我們看它的樣子估計有點像兩年前看 AI 做出來的圖片和視頻,別急,AI 進化的速度已經(jīng)在過去兩年里被驗證了。
所以,最近我也在干一件事,就是把我的核心能力和最佳狀態(tài)和優(yōu)秀案例和數(shù)據(jù)完全用 AI 沉淀下來,用 Agent 的方式打造我的 AI 員工。
讓他們幫我做內(nèi)容選題,幫我做短視頻腳本,幫我完成文章大綱構(gòu)建,甚至我朋友圈怎么發(fā)、什么時候發(fā)、給誰看、發(fā)什么內(nèi)容,我都可以讓 AI 幫我打工。
因此,我把自己稱為「AI 個體戶」。
我不招人,我只造自己的 AI 員工。
我是技術(shù)出身、又做了這么多年產(chǎn)品、還會做業(yè)務(wù)和運營、商業(yè)和戰(zhàn)略能力也還行,加上這么多年持續(xù)做內(nèi)容和個人IP,我要把這些能力全部變成確定性的東西,變成產(chǎn)品反過來給我自己打工。
離譜的事情正在逐漸發(fā)生,不是我們的認知跟不上了,而是想象力已經(jīng)不夠用了。
最后,我還是想到了昨天文章結(jié)尾里講《西部世界》劇中那一幕。
Bernard 跟 AI 智能機器人說:「Dolories,你有時候真的會嚇到我」。
![]()
然而,以為自己是人類的 Bernard,其實也是個 AI。
················· 唐韌出品 ·················
安可時刻
這周我都在北京,一方面準(zhǔn)備這周末兩天的線下神秘課程,另一方面就是有幾個公司的現(xiàn)場產(chǎn)品會要參加。
剩下的時間,我基本在造我自己的 AI 員工。
我算了下,其中一個每天幫我省半小時,一個月 30 天我就能多出 15 小時的自由。
就按我一小時價格 1000 算,一個月給我創(chuàng)造 1.5 萬業(yè)績空間,因為省下來的時間我可以去做更有價值的事。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.