作者|畢樂天
來源|AI先鋒官
這事兒鬧大了。
前兩天,谷歌剛發了Gemini 3 Pro。
全網都在吹。
說它智商多高,邏輯多強。
大家都覺得,硅谷巨頭又要教做人了。
結果呢?
屁股還沒坐熱,字節跳動(ByteDance)悄悄扔了個大炸彈。
這個叫Vidi2的模型,它干了一件事:
在視頻理解這個領域,把谷歌按在地上摩擦。
真的,不夸張。
咱們直接看數據。
![]()
1. 60分 vs 16分
Vidi2有個核心指標,叫“時空定位”。
聽著挺玄乎?
簡單說就是:“我在視頻里找個人,能不能找準時間,能不能畫準框。”
在這個考試里:
字節 Vidi2 考了 60.3 分。
谷歌 Gemini 3 Pro 考了 16.6 分。
![]()
你沒看錯,不是險勝,是碾壓。
這就好比:
谷歌是個大學教授。
滿腹經綸,上知天文下知地理。
你問他:“這部電影講了啥?”
他能給你寫首詩,分析得頭頭是道。
但你問他:“那個穿紅衣服的人,第幾分第幾秒出來的?給我截個圖。”
教授懵了。
他大概率會瞎指一個:“呃...好像在 10 分鐘左右吧?”
結果全是錯的,而字節 Vidi2 呢?
它就是個干了 20 年的剪輯老師傅。
它不跟你扯虛的。
你要找人?
它直接甩給你一個精確到毫秒的時間軸。
看案例
原視頻
跟蹤到的視頻
原視頻
跟蹤到的視頻
原視頻
跟蹤到的視頻
2. 長視頻?谷歌那是“老年癡呆”
現在的 AI 有個通病。
記性不好。
你給它扔個 1 小時的視頻。
看到后面,它就把前面的忘了。
測試數據很打臉:
只要視頻超過 1 小時。
谷歌 Gemini 的準確率直接掉到了21%。
基本就是瞎蒙。
而 Vidi2 表現優異。
![]()
3. 這個功能,真能“救命”
說了半天技術,對咱們有啥用?
太有用了。
字節已經把它做進產品里了。
叫Smart Split(智能拆條)。
![]()
想象一下這個場景:
你是個博主,今天錄了 2 小時的素材。
累得半死。
還得剪成 5 個短視頻發抖音。
以前你怎么搞?
導入電腦,從頭看到尾。
一點點剪,一點點修。
一下午沒了。
現在怎么搞?
把 2 小時視頻往里一扔。
輸入:“幫我找找最搞笑的段子。”
去喝杯咖啡。
回來一看,5 條視頻剪好了。
![]()
高光時刻給你挑好了。
橫屏轉豎屏給你切好了。
人臉始終在畫面中間(那個 60% 的準確率立功了!)。
![]()
連字幕都給你配好了。
這哪里是 AI。
這簡直是免費的剪輯實習生啊!
當然也可以體驗一下
下面是
https://bytedance.github.io/vidi-website/
點擊演示
![]()
上傳視頻來解讀和查詢
![]()
查詢的內容
![]()
4. 為什么字節這么猛?
你可能會問:
谷歌那么有錢,算力那么強,為啥輸了?
這里有個大秘密。
谷歌有 YouTube。
![]()
它知道大家喜歡看什么。
這能練出很好的推薦算法。
但字節有抖音和剪映。
![]()
它知道大家是怎么剪視頻的。
這才是關鍵!
你在剪映里的每一次操作:
切一刀、刪一段、加個特效...
都在告訴 AI:“這里是重點”、“這里是廢話”。
全世界幾億人,每天都在免費幫字節“標注數據”。
這才是真正的護城河。
谷歌拿著望遠鏡都看不見的那種。
5. 結語
這次“偷襲”告訴我們一件事:
別迷信大廠。
別迷信大模型。
在這個時代。
誰能干活,誰才是老大。
以后的視頻創作,可能真不需要你會剪輯了。
你只要會說話,會提要求。
剩下的臟活累活?
交給 Vidi2 這種“特種兵”就完事了。
如果你是剪輯師,別慌。
它不是來搶飯碗的。
它是來幫你早點下班的。
掃碼邀請進群,我們帶你一起來玩轉ChatGPT、GPT-4、文心一言、通義千問、訊飛星火等AI大模型,順便學一些AI搞錢技能。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.