金磊 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
感謝AI!
原生1個(gè)G的視頻,現(xiàn)在只需要傳200K數(shù)據(jù)就能看了——
視頻數(shù)據(jù)的壓縮率干到了0.02%,但依舊能保持畫面的高清、連貫和畫面細(xì)節(jié)。
或許你會(huì)問(wèn),這又有什么用呢?
想象一下,你身處于太平洋的一艘遠(yuǎn)洋貨輪中,衛(wèi)星信號(hào)只有一兩格,刷個(gè)朋友圈,加載內(nèi)容的圈圈都要轉(zhuǎn)好久。
但正是因?yàn)橛辛诉@項(xiàng)AI技術(shù),現(xiàn)在在如此極端的環(huán)境之下,你甚至可以直接看高清的世界杯直播!
![]()
沒(méi)錯(cuò),視頻傳輸?shù)奈锢矸▌t,算是被重寫了。
而這項(xiàng)新研究,正是來(lái)自中國(guó)電信人工智能研究院(TeleAI)的技術(shù)——生成式視頻壓縮(GVC,Generative Video Compression)
作為國(guó)資央企、全球領(lǐng)先的綜合智能信息服務(wù)運(yùn)營(yíng)商,中國(guó)電信不僅擁有覆蓋海陸空天的通信網(wǎng)絡(luò)基礎(chǔ)設(shè)施,更具備將前沿AI技術(shù)與實(shí)際通信場(chǎng)景深度融合的能力。
這種“云網(wǎng)融合+AI原生”的獨(dú)特優(yōu)勢(shì),使得GVC技術(shù)從實(shí)驗(yàn)室走向遠(yuǎn)洋船舶、應(yīng)急現(xiàn)場(chǎng)等真實(shí)極端環(huán)境成為可能。
![]()
那么這項(xiàng)研究到底是如何做到的,以及又能給我們現(xiàn)實(shí)生活帶來(lái)什么改變,我們繼續(xù)往下看。
用計(jì)算,換寬帶
在介紹這項(xiàng)黑科技之前,我們需得先聊聊現(xiàn)在的視頻是怎么傳輸?shù)摹?/p>
無(wú)論是你要看的Netflix、B站,還是微信視頻通話,背后主要依靠的是HEVC(H.265)或VVC(H.266)這類傳統(tǒng)視頻編碼標(biāo)準(zhǔn)。
這些技術(shù)的底層邏輯,說(shuō)白了是像素的極致搬運(yùn):編碼器拼命計(jì)算哪些像素是不變的、哪些是移動(dòng)的,然后盡可能多地保留像素信息,再想辦法塞進(jìn)有限的帶寬里。
這種邏輯在寬帶富裕時(shí)很完美,但在極限環(huán)境下(極低帶寬)會(huì)迅速崩盤。
一旦帶寬不夠,傳統(tǒng)編碼器為了湊合傳輸,只能瘋狂丟棄高頻信息。結(jié)果我們都見過(guò):畫面糊成一團(tuán),甚至直接卡死。
但 TeleAI 團(tuán)隊(duì)換了個(gè)思路,如果我不傳像素了呢?
GVC的核心邏輯是:不再傳遞畫面本身,而是傳遞“如何畫出這幅畫面”的指令。
打個(gè)比方:
- 傳統(tǒng)壓縮:就像是把《蒙娜麗莎》拍一張照片,盡量壓縮這張照片發(fā)給你。如果網(wǎng)不好,照片就糊得像一堆色塊。
- 生成式視頻壓縮(GVC):我不發(fā)照片了。我發(fā)給你一段描述——“一位女士,神秘微笑,背景是山水,光影是從左側(cè)來(lái)的……”,以及她嘴角上揚(yáng)的精確弧度數(shù)據(jù)。你的接收端坐著一位AI畫師(生成式模型),聽到描述后,現(xiàn)場(chǎng)給你畫出一幅《蒙娜麗莎》。
![]()
剛剛說(shuō)的只是打個(gè)比方,實(shí)際情況要復(fù)雜得多,傳輸?shù)膬?nèi)容也并非只有文字。
這就是技術(shù)報(bào)告中提到的核心理念:用計(jì)算,換寬帶(Trading computation for bandwidth)。
把傳輸?shù)膲毫ΓD(zhuǎn)移到了推理計(jì)算上。
![]()
視頻地址:https://mp.weixin.qq.com/s/GG1BFS8mFugifO9xzA33Tg
GVC到底壓了些什么?
既然不傳像素,那這0.02%的數(shù)據(jù)里到底裝了什么?
技術(shù)報(bào)告揭示了GVC系統(tǒng)的內(nèi)部構(gòu)造,它主要由神經(jīng)編碼器(Neural Encoder)生成式視頻解碼器(Generative Video Decoder)兩部分組成。
里面?zhèn)鬏數(shù)氖且环N被稱為壓縮Token的極小數(shù)據(jù)包,這些Token里包含了視頻的靈魂,主要分為兩類:
- 語(yǔ)義信息(Semantic Information): 這是一個(gè)什么場(chǎng)景?有人嗎?有車嗎?物體的大致結(jié)構(gòu)是什么?這是畫面的骨架。
- 運(yùn)動(dòng)信息(Motion Dynamics): 這些物體下一秒往哪動(dòng)?風(fēng)怎么吹?車輪怎么轉(zhuǎn)?這是畫面的靈魂。
經(jīng)過(guò) TeleAI 團(tuán)隊(duì)的測(cè)試,這些Token的大小可以被壓縮到極致的0.005 bpp - 0.008 bpp(bits per pixel,比特每像素)。
這是什么概念?通常我們看的高清視頻,bpp至少在0.1以上。GVC直接把數(shù)據(jù)量砍掉了兩個(gè)數(shù)量級(jí)。
除此之外,在接收端,還有一個(gè)擴(kuò)散模型(Diffusion Model)嚴(yán)陣以待。
它接收到這些簡(jiǎn)短的Token指令后,利用預(yù)訓(xùn)練好的海量世界知識(shí)(比如它本來(lái)就知道海浪長(zhǎng)什么樣,足球長(zhǎng)什么樣),結(jié)合指令中的特征,開始腦補(bǔ)并生成視頻。
這在通信理論上,實(shí)現(xiàn)了一次巨大的跨越。
香農(nóng)-韋弗(Shannon-Weaver)通信模型將通信分為三個(gè)層級(jí):
- Level A:技術(shù)問(wèn)題(傳得準(zhǔn)不準(zhǔn)?)
- Level B:語(yǔ)義問(wèn)題(意思對(duì)不對(duì)?)
- Level C:有效性問(wèn)題(能不能完成任務(wù)?)
傳統(tǒng)視頻壓縮在死磕Level A,而GVC直接跳到了Level C
![]()
它不在乎每一個(gè)像素點(diǎn)是否和原圖一模一樣(比如這片樹葉的紋理是否100%重合),它在乎的是:在人眼看來(lái),這是否是一場(chǎng)連貫、清晰、真實(shí)的球賽?在機(jī)器看來(lái),能否準(zhǔn)確識(shí)別出這是否是越位?
數(shù)據(jù)實(shí)測(cè):非常省流
極端壓縮聽起來(lái)很玄,但具體指標(biāo)并不含糊。
技術(shù)報(bào)告中展示了在MCL-JCV權(quán)威數(shù)據(jù)集上的測(cè)試結(jié)果,數(shù)據(jù)非常硬核。
畫質(zhì)吊打傳統(tǒng)算法
在極低碼率下(0.005 bpp左右),使用LPIPS(一種更符合人類視覺(jué)感知的畫質(zhì)評(píng)價(jià)指標(biāo))進(jìn)行對(duì)比:
- 傳統(tǒng)霸主HEVC已經(jīng)徹底崩潰,畫面基本是馬賽克亂舞,LPIPS數(shù)值飆升(越低越好)。
- GVC生成的畫面依然保持了清晰的紋理和結(jié)構(gòu),LPIPS數(shù)值顯著低于HEVC。
技術(shù)報(bào)告中給出了一個(gè)驚人的對(duì)比結(jié)論:傳統(tǒng)方法(如HEVC)要想達(dá)到和GVC同樣的視覺(jué)畫質(zhì),需要消耗6倍以上的帶寬!
![]()
這意味著,在同樣的渣畫質(zhì)網(wǎng)絡(luò)下,GVC能讓你看清C羅的表情,而HEVC只能讓你看清C羅是個(gè)移動(dòng)的色塊。
不只是給人看,機(jī)器也能用
有人會(huì)問(wèn):AI生成的視頻,會(huì)不會(huì)失真?比如把球生成沒(méi)了?
這是一個(gè)非常犀利且實(shí)在的問(wèn)題。
為此,團(tuán)隊(duì)在DAVIS2017視頻分割任務(wù)上進(jìn)行了驗(yàn)證;結(jié)果顯示,在bpp=0.01的極限壓縮下,GVC重建視頻的J&F指標(biāo)(衡量分割準(zhǔn)確度)顯著高于HEVC。
![]()
這說(shuō)明GVC傳輸?shù)牟粌H僅是“好看”的皮囊,更是“準(zhǔn)確”的語(yǔ)義。即使是AI重繪的,關(guān)鍵物體(人、車、球)的位置和輪廓也是精準(zhǔn)的,完全不影響后續(xù)的AI分析。
消費(fèi)級(jí)顯卡也能跑
計(jì)算換寬帶,那會(huì)不會(huì)把電腦算爆?
確實(shí),生成式模型通常是算力黑洞。但 TeleAI 通過(guò)模型小型化、知識(shí)蒸餾等手段,搞定了落地的最后一公里。
報(bào)告數(shù)據(jù)顯示,經(jīng)過(guò)優(yōu)化的GVC模型,在消費(fèi)級(jí)GPU(如RTX 4090)上,生成一組29幀的畫面大約只需要0.95秒到1.35秒。
雖然比不上傳統(tǒng)解碼器的毫秒級(jí)速度,但在很多非實(shí)時(shí)或準(zhǔn)實(shí)時(shí)的場(chǎng)景下(比如直播延遲幾秒),這已經(jīng)是完全可用的狀態(tài)了。
當(dāng)然不只是為了看個(gè)世界杯
0.02%,這篇技術(shù)報(bào)告所展現(xiàn)的關(guān)鍵數(shù)據(jù)已然非常驚艷,但它背后更加可期的,還是這項(xiàng)技術(shù)給未來(lái)帶來(lái)的改變。
除了開頭我們提到的世界杯的例子外,在報(bào)告展示的Demo場(chǎng)景中,GVC還展現(xiàn)了其它極端網(wǎng)絡(luò)環(huán)境下的情況:
- 遠(yuǎn)洋海事通信: 船員通過(guò)窄帶衛(wèi)星網(wǎng)絡(luò)(帶寬極其昂貴且稀缺)接收數(shù)據(jù)。用GVC,200K的數(shù)據(jù)流就能還原出連貫的球賽直播。這不僅是娛樂(lè),對(duì)于海上遠(yuǎn)程醫(yī)療、設(shè)備維修指導(dǎo)來(lái)說(shuō),是救命的技術(shù)。
- 應(yīng)急救援: 地震或洪水災(zāi)區(qū),基站損毀,只有微弱的應(yīng)急通信信號(hào)。救援無(wú)人機(jī)傳回的如果是4K畫面,根本發(fā)不出來(lái);如果是GVC壓縮后的Token,指揮中心就能實(shí)時(shí)看到清晰的現(xiàn)場(chǎng)生成畫面,哪怕細(xì)節(jié)紋理是AI補(bǔ)全的,但受災(zāi)人數(shù)、房屋倒塌結(jié)構(gòu)等核心信息是準(zhǔn)確無(wú)誤的。
- 深空探測(cè)與車載視頻: 想象一下火星車發(fā)回的視頻,或者數(shù)百萬(wàn)輛自動(dòng)駕駛汽車每天上傳的路測(cè)數(shù)據(jù)。如果都能壓縮到0.02%,存儲(chǔ)和傳輸成本將呈指數(shù)級(jí)下降。
![]()
視頻地址:https://mp.weixin.qq.com/s/GG1BFS8mFugifO9xzA33Tg
實(shí)際上,GVC并非孤立的技術(shù)突破,而是建立在“智傳網(wǎng)(AI Flow)”理論體系之上。
智傳網(wǎng)(AI Flow)是人工智能與通信、網(wǎng)絡(luò)交叉領(lǐng)域的一項(xiàng)關(guān)鍵技術(shù),即通過(guò)網(wǎng)絡(luò)分層架構(gòu),基于連接和交互,實(shí)現(xiàn)智能的傳遞和涌現(xiàn)。
在去年的世界人工智能大會(huì)(WAIC)上,中國(guó)電信集團(tuán) CTO、首席科學(xué)家、中國(guó)電信人工智能研究院(TeleAI)院長(zhǎng)李學(xué)龍教授,介紹了 TeleAI 在智傳網(wǎng)(AI Flow)研究中所發(fā)現(xiàn)的三個(gè)定律:信容律、同源律、集成律。
信容律描述大模型的本質(zhì)規(guī)律和能力邊界,通過(guò)數(shù)據(jù)壓縮的方式來(lái)衡量模型的知識(shí)密度,也就是智能能力。
同源律則展現(xiàn)大模型的“部分”與“整體”關(guān)系,在相同訓(xùn)練計(jì)算開銷下,能指導(dǎo)得到數(shù)量更多、性能更好的不同大小的家族模型。
集成律能指導(dǎo)大模型“單體”與“群體”的協(xié)同,通過(guò)多個(gè)模型集成的方式,實(shí)現(xiàn)智能能力的提升與涌現(xiàn)。
![]()
視頻地址:https://mp.weixin.qq.com/s/GG1BFS8mFugifO9xzA33Tg
基于智傳網(wǎng)(AI Flow)的信容律,在AI時(shí)代,通信的本質(zhì)不再是單純的數(shù)據(jù)傳輸,而是智能的分發(fā)與協(xié)同。
在此體系下,GVC通過(guò)“用計(jì)算換帶寬”的資源置換策略,實(shí)現(xiàn)了通信效率與感知質(zhì)量的最優(yōu)平衡。
GVC就是這一理論的最佳實(shí)踐:當(dāng)帶寬成為瓶頸時(shí),我們就燃燒算力來(lái)?yè)Q取自由。
從像素還原到語(yǔ)義生成,視頻壓縮技術(shù)正在經(jīng)歷一場(chǎng)類似從功能機(jī)到智能機(jī)的范式轉(zhuǎn)移。
GVC標(biāo)志著視頻通信正從像素搬運(yùn)邁向語(yǔ)義生成的新階段。
作為央企在AI+通信融合創(chuàng)新中的重要成果,它不僅為遠(yuǎn)洋通信、應(yīng)急救援、邊緣智能等場(chǎng)景提供了高效可行的解決方案,更開啟了以任務(wù)有效性為核心的下一代視頻傳輸范式:
在未來(lái)的互聯(lián)網(wǎng)里,流淌在光纖和電波中的,可能不再是龐大的原始數(shù)據(jù),而是高度濃縮的智慧和指令。
技術(shù)報(bào)告地址:
https://www.arxiv.org/abs/2512.24300
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.