![]()
"幫我點一杯奶茶。"
"幫我在京東上買一個籃球。"
"幫我在貓眼上買一張電影票。"
豆包手機和各家APP的控制權(quán)爭奪戰(zhàn)還未有一個結(jié)果,千問點外賣的操作也只是深度打通了自家的生態(tài),如今火遍全網(wǎng)的小龍蝦(OpenClaw)也沒能解決跨端自動化的難題。
但近日,兩位來自某硬件大廠的工程師張志勇和單文榜,卻用自研的Agent ZeroFlow。基于具備多模態(tài)能力的國產(chǎn)大模型,在安卓設(shè)備、Chrome 瀏覽器及 PC 桌面上完美實現(xiàn)了多模態(tài)操控能力ZeroFlow可以像真人一樣看屏幕、點擊、滑動、輸入,完成一系列復雜的跨端自動化任務(wù)。
![]()
不一樣的技術(shù)路線
在實現(xiàn)跨端自動化任務(wù)的嘗試上,豆包手機和智譜的AutoGLM走的是截然不同的技術(shù)路線。
豆包手機通過與手機廠商合作,拿到了非常高的權(quán)限,可以繞過用戶或app的授權(quán)環(huán)節(jié),但這也直接點燃了app廠商們的抵抗情緒,引發(fā)了后續(xù)一系列的封禁動作。
智譜開源的AutoGLM則是基于adb協(xié)議拿到的操作權(quán)限,但這個模式無法直接在用戶手機上跑通,所以AutoGLM走的是遠程虛擬機模式,在虛擬機里用adb操作用戶的手機。這種模式信任成本較高。
而ZeroFlow的解決方案核心依賴的是 Android 無障礙服務(wù)(Accessibility Service)。無障礙服務(wù)原本是 Android 為視障用戶設(shè)計的系統(tǒng)級輔助功能,申請該權(quán)限后,Agent可以讀取屏幕內(nèi)容,獲取當前界面所有文本、按鈕、輸入框的位置和內(nèi)容。同時,Agent可以模擬人類操作,執(zhí)行點擊、長按、滑動、輸入文字等手勢。這套方案高度依賴Agent和底層模型的多模態(tài)操作能力,理論上是一套無法被App廠商封禁的解決方案。
![]()
原理聽起來很簡單,但實際的開發(fā)過程遠比想象復雜。張志勇對創(chuàng)投家表示,其中一個最大的難點在于國內(nèi)的很多網(wǎng)頁在設(shè)計之初,為了防止自動化操作(本質(zhì)上是"反爬蟲"和"反外掛"的延伸),設(shè)計了很多的驗證步驟和工程上的"隱藏"。比如你看到一個按鈕在這里,但很有可能它的真實元素在一個非常遠的地方。這讓從代碼維度理解網(wǎng)頁變得十分困難,但從多模態(tài)維度就相對簡單多了,這也正是有些大模型無法讀取網(wǎng)頁鏈接但可以讀取網(wǎng)頁截圖的根本原因。
![]()
另一方面,如何用最少的截圖讓Agent理解正確的意圖,也是一個工程優(yōu)化上的難點。
單文榜對創(chuàng)投家表示,網(wǎng)頁上的廣告彈窗、自動跳轉(zhuǎn)都會給多模態(tài)理解造成干擾。用最強的多模態(tài)模型去理解,肯定可以給出最正確的答案,但是消耗的Token成本卻不一定是普通用戶能夠承受的。如何用便宜的模型、截取最少的圖、達到最好的理解效果,這也是非常有挑戰(zhàn)的工程難題。
![]()
安全與便捷的平衡
當聊到是否擔心大廠做出同質(zhì)化產(chǎn)品時,張志勇表示并不擔心。大廠基于自身的生態(tài)隔離,即使有這個技術(shù),也無法去實現(xiàn)真正跨平臺、跨端的自動化操作,因為一旦一家大廠下場,就會被其他大廠針對,這一點正是創(chuàng)業(yè)團隊的優(yōu)勢。
ZeroFlow借鑒了OpenClaw的開源理念,針對安全性、模型適配性、便捷性進行了深度架構(gòu)設(shè)計與優(yōu)化。
OpenClaw的核心安全風險在于它作為"擁有工具調(diào)用能力的AI"本身,能執(zhí)行shell命令、讀寫文件、發(fā)送消息、訪問網(wǎng)絡(luò),如果prompt被注入攻擊或誘導,可能導致主機被控制、敏感數(shù)據(jù)泄露等問題。
ZeroFlow通過沙箱隔離+小模型脫敏機制應(yīng)對這一風險。一方面在workspace將用戶的敏感信息如密鑰信息隔離隱藏,讓AI自己都無法輕易找到敏感文件;另一方面,用小模型監(jiān)控所有用戶與大模型的信息交互,如遇到敏感信息,將會進行脫敏加密處理。這樣用戶存儲在云端的敏感文件既無法被輕易找到,找到了也無法輕易解析。雙重機制下,ZeroFlow讓普通用戶在享受Agent便利的同時,隱私也得到最大程度的保護。
在便捷性上,ZeroFlow將龍蝦的使用門檻降到了新的"低度"。整個部署過程極度貼近互聯(lián)網(wǎng)產(chǎn)品使用習慣,幾乎感受不到。只需要打開瀏覽器,在網(wǎng)站上注冊一個賬號,就可以在對話框開始使用了。
OpenClaw因為基于OpenAI/Anthropic的Tool Calling規(guī)范設(shè)計,與國產(chǎn)模型的適配上一直存在一些問題。而ZeroFlow針對國內(nèi)主流大模型(如 Kimi、DeepSeek 等)做了工程調(diào)優(yōu),不但優(yōu)化了工具調(diào)用上的體驗,還優(yōu)化了提示詞工程,將提示詞長度平均縮短了近40%,顯著降低了Token成本。
張志勇對創(chuàng)投家表示,普通用戶使用ZeroFlow的Token成本大約可以降低30%。
從編程智能體到通用Agent
ZeroFlow的誕生并非一次蹭流量的粗暴套殼。
當大語言模型的浪潮剛剛涌現(xiàn)的時候,張志勇和單文榜團隊就站在了最前沿。彼時,他們沒有追逐某個宏大敘事,而是在解決一個極其具體的痛點,如何讓工程師從繁復的編碼細節(jié)中解放出來,將智識真正用在創(chuàng)造上。于是,他們內(nèi)部孵化了第一代編程智能體,一個懂得上下文、能夠預判意圖、會主動補全邏輯的"代碼伙伴"。
這個工具在他們的工程體系內(nèi)悄然生長。從 GPT-3.5 時代的樸素提示詞工程,到多輪對話記憶、工具調(diào)用、代碼審查閉環(huán)……每一次迭代,都是被真實需求逼出來的進化。幾年間,這套系統(tǒng)幫助他們自身的研發(fā)效率實現(xiàn)了數(shù)倍級別的躍升。
OpenClaw爆發(fā)的時間點上,張志勇回憶,他們坐在會議室里,看著那些演示視頻,沉默了很久。不是因為震驚,而是因為他們認出了某種熟悉的東西,他們走過的路,正在被更廣闊的世界重新走一遍。
那一刻,他們意識到,三年來鍛造的不只是一個編程工具,而是一套關(guān)于'讓智能體真正理解人類意圖并持續(xù)執(zhí)行'的方法論。
"如果這套方法論能讓工程師效率倍增,它為什么不能讓每一個行業(yè)的每一個人,都獲得同樣的解放?"于是,ZeroFlow 誕生了。
"一個人會走得更快"
![]()
從左至右為單文榜、張志勇
"我覺得Agent確實能讓所有人的生活質(zhì)量獲得提升,所有人都應(yīng)該被解放出來做一些更高位的事情,但現(xiàn)階段最大的問題就是普通人接入的成本還是太高了。不僅指擁有一只龍蝦,更是讓這只龍蝦能夠自由地跨端自動化替主人解決真實場景下的問題。所以,我們想做的就是一個0接入成本、打開瀏覽器就能用的通用Agent。"張志勇說到。
“ZeroFlow不是編程助手的平替,而是將編程智能體的核心范式(理解意圖 → 規(guī)劃路徑 → 調(diào)用工具 → 持續(xù)執(zhí)行 → 反饋迭代)遷移到了更廣泛的知識工作場景中。財務(wù)分析、運營流程、內(nèi)容生產(chǎn)、數(shù)據(jù)洞察……凡是有重復、有邏輯、有輸出的地方,都是 ZeroFlow 可以駐扎的領(lǐng)地。”單文榜表示。
當被問到為什么不選擇在前司內(nèi)部實現(xiàn)自己的理想時,張志勇和單文榜相視一笑:"我覺得一群人肯定會走得更遠,但一個人會走得更快。對于這個時代而言,快可能更重要。"
目前,依零科技已獲得個人天使和尚勢資本的近千萬天使輪投資,資金將主要用于產(chǎn)品功能的進一步完善和推廣。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.