孫悟空真正讓天庭頭疼,是拿到金箍棒之后——隨心所欲的“本命法寶”,讓他如虎添翼,所向披靡。
3月17日,釘釘發布了名叫"悟空"的AI平臺。它能接管你的瀏覽器、替你搜東西、在你不在的時候操作你的電腦——有手有腳,能執行。
而阿里千問剛發布的Qwen3.5-Omni,一個能看視頻、聽音頻、把音視頻拆成可以直接干活的結構化數據的全模態模型——像極了孫悟空的那根金箍棒。
目前,猴子和棒子還沒完全合體。
但一旦合上,這東西會很強。
![]()
一、悟空能干什么活
釘釘的悟空,是能力強大但守規矩的企業級“龍蝦”。
(1)一句話全網比價
我讓它在淘寶、京東、拼多多上搜"大疆 Osmo Pocket 3",比價格和銷量,截圖,整理成Excel。
它接管了我的瀏覽器——打開淘寶,輸入關鍵詞,滾動瀏覽,截圖保存;跳到京東,同樣動作;再到拼多多。
三個平臺跑完,桌面上多了一個Excel文件:前5個最便宜且高銷量的商品,按平臺、店鋪、價格、鏈接排列,最低價標紅。
它不是在"告訴"我哪個便宜。它在"替"我比價、截圖、制表。全程我只打了一段話。
當然有毛刺——需要提前在各平臺登錄好賬號,否則驗證碼會攔住它。
![]()
(2)內容雷達
第二個很實用的場景,不是發生在電腦前。
我用手機釘釘給悟空發了一條消息:設個每天早9點的定時任務,自動打開電腦瀏覽器搜"最新AI動態,制作做一個AI相關的選題",提取3條摘要附來源鏈接,發到我手機上。
悟空調取了相關Skill,自動創建了任務。第二天早9點過幾分,手機彈出早報——排版整齊,鏈接可點。
![]()
(3)拉客戶、做網站
我還拿悟空跑了一個建網站的任務,選了官方技能市場的skills,跑出了可運行的網站和完整源碼——審美還需打磨,但從0到1的能力確實在;市場部門以用它生成定時的競品監控;動畫大師一句話出完整數據動畫視頻。
![]()
發布會上還有一些更激進的演示。一個汽修門店店長對悟空說"幫我拉100個客人",AI自主完成了從競品分析、學習爆款、社媒發帖到評論引導的全鏈路。
這些場景如果日常能穩定跑通,說明AI正在從"執行指令"走向"幫你干完"。
說完亮點,也聊聊產品初期不可避免的不穩定因素。官方給了一個案例的數據,有用戶反饋,做一個PPT消耗了約2.7億Token。AI從對話走向執行后,操作文件、反復修改、跨系統調用,token消耗是量級變化。
悟空的RealDoc文件系統官方稱token效率提升了5倍,方向對了,但對精打細算的中小企業來說,可能還需要更穩定的系統、更優秀的skills來讓ROI算的清晰、算的過來。
二、金箍棒長什么樣
悟空有手有腳,但暫時缺一樣東西:眼睛和耳朵。它能操作瀏覽器、讀文檔、跨端執行,卻還看不懂一段視頻里發生了什么,聽不出一段錄音里誰說了什么、語氣如何。
你一定有過這種經歷:兩小時的會議錄像安安靜靜躺在網盤里,沒人回看——因為回看的成本幾乎等于再開一次會。爆款帶貨視頻刷到了,隱約覺得轉化邏輯值得學,但沒時間逐幀拆解。英文播客、方言客服錄音——聽過就過了。大量有價值的音視頻內容,"看過"之后再沒有然后。
阿里千問剛發布的Qwen3.5-Omni,做的就是把"看過就過"變成"拆開來用"。
說說我們的實測。
我們用它來拆爆款TikTok帶貨視頻。
輸入一條義烏招商類帶貨視頻,模型按Hook、賣點排序、畫面證明點、字幕策略、情緒節奏、CTA時間點、目標人群七個維度做了結構化拆解。核心洞察讓我印象深刻——"這條視頻賣的不是商品,而是確定性":三級物理證據鏈構建信任、"2萬種SKU+20美分均價"制造數字錨點、保姆式承諾實現風險逆轉。
更關鍵的是遷移能力:要求它按同樣邏輯給"T恤定制工廠"寫一個腳本,它成功輸出了可執行的5步模板,Hook改成了"拉扯T恤展示彈性",實力證明換成"印花機噴墨特寫+揉搓不掉色",連評論區運營引導都寫好了。
![]()
還有一個"口述寫代碼"的測試。手繪一張故意畫得很粗糙的APP線框圖,打開攝像頭對著鏡頭口述需求,它直接生成了可運行的React代碼。繼續口述修改——側邊欄、圓角、深色主題、按壓動畫——多輪迭代下來上下文始終沒丟。邊看、邊說、邊改,這是人類最自然的交互方式,它接住了。
![]()
底層支撐這些表現的:混合注意力MoE架構,超1億小時音頻數據的原生多模態預訓練,215項第三方測試取得SOTA,多項指標超越Gemini-3.1 Pro。256K上下文窗口,支持超10小時音頻。113種語言和方言的語音識別,36種語言和方言的TTS合成。定價:每百萬Token輸入不到0.8元——不到Gemini-3.1 Pro的十分之一。
一句話概括:Qwen3.5-Omni讓音視頻變得"可拆"——不是"看懂了"就完了,而是拆成可檢索、可復用、可以直接拿去干活的數據資產。
三、當悟空拿起金箍棒
悟空能操作瀏覽器、讀寫文件、跨端執行、調用釘釘上千項能力,但它處理不了音視頻,就沒辦法讓用戶在最自然的商業場景中廣泛使用;Qwen3.5-Omni能把視頻按時間戳拆成結構化數據、聽懂多語言錄音、理解畫面和語音的混合輸入,恰恰彌補上了這一環。
如果兩者成功結合:你把兩小時的會議錄像扔給它。它不只是生成一份紀要——它聽出誰在什么時間說了什么、語氣是堅定還是猶豫、哪些話是待辦事項,然后直接在釘釘里創建任務、分配給對應的人、設好截止日期。從"看懂會議"到"執行會議結論",中間不需要任何人再動手。
運營團隊不用每天人工盯競品的短視頻賬號了。AI自己去看競品視頻、拆解轉化邏輯——就像Qwen3.5-Omni拆那條TikTok帶貨視頻一樣——輸出可遷移的腳本模板,然后在悟空里自動在社交媒體上發布改編后的內容,甚至進一步拉客獲客。從"分析競品"到"產出內容"到“獲客轉化”,一條龍搞定。
或者更日常一點:客服錄音質檢。過去需要人聽、人記、人打分,一天能質檢的通話量有限。接入全模態能力后,AI自己聽完所有錄音,輸出每通電話的情緒軌跡和話術評分,標記出問題通話,生成改進建議,再把結果寫進釘釘的管理系統。
這幾個場景的共同邏輯是一樣的:感知→理解→執行,完整閉環。悟空解決了執行,Qwen3.5-Omni解決了感知,且Qwen3.5-Omni不到0.8元/百萬Token的定價也讓整個飛輪在價格上可行,拼圖就差合上這一步。
結語
西游記里,悟空從石頭縫蹦出來時就已經能打了。但他拿到金箍棒、認了師父、上了路之后,變得越來越強。
釘釘的悟空已經蹦出來了。金箍棒剛鑄好,還沒交到手上。取經的路很長——Token成本要降,產品要磨,2700萬企業的認知要一家一家啃。
但猴子、棒子、路,都在了。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.