金磊 發自 凹非寺
量子位 | 公眾號 QbitAI
感謝AI!
原生1個G的視頻,現在只需要傳200K數據就能看了——
視頻數據的壓縮率干到了0.02%,但依舊能保持畫面的高清、連貫和畫面細節。
或許你會問,這又有什么用呢?
想象一下,你身處于太平洋的一艘遠洋貨輪中,衛星信號只有一兩格,刷個朋友圈,加載內容的圈圈都要轉好久。
但正是因為有了這項AI技術,現在在如此極端的環境之下,你甚至可以直接看高清的世界杯直播!
![]()
沒錯,視頻傳輸的物理法則,算是被重寫了。
而這項新研究,正是來自中國電信人工智能研究院(TeleAI)的技術——生成式視頻壓縮(GVC,Generative Video Compression)
作為國資央企、全球領先的綜合智能信息服務運營商,中國電信不僅擁有覆蓋海陸空天的通信網絡基礎設施,更具備將前沿AI技術與實際通信場景深度融合的能力。
這種“云網融合+AI原生”的獨特優勢,使得GVC技術從實驗室走向遠洋船舶、應急現場等真實極端環境成為可能。
![]()
那么這項研究到底是如何做到的,以及又能給我們現實生活帶來什么改變,我們繼續往下看。
用計算,換寬帶
在介紹這項黑科技之前,我們需得先聊聊現在的視頻是怎么傳輸的。
無論是你要看的Netflix、B站,還是微信視頻通話,背后主要依靠的是HEVC(H.265)或VVC(H.266)這類傳統視頻編碼標準。
這些技術的底層邏輯,說白了是像素的極致搬運:編碼器拼命計算哪些像素是不變的、哪些是移動的,然后盡可能多地保留像素信息,再想辦法塞進有限的帶寬里。
這種邏輯在寬帶富裕時很完美,但在極限環境下(極低帶寬)會迅速崩盤。
一旦帶寬不夠,傳統編碼器為了湊合傳輸,只能瘋狂丟棄高頻信息。結果我們都見過:畫面糊成一團,甚至直接卡死。
但 TeleAI 團隊換了個思路,如果我不傳像素了呢?
GVC的核心邏輯是:不再傳遞畫面本身,而是傳遞“如何畫出這幅畫面”的指令。
打個比方:
- 傳統壓縮:就像是把《蒙娜麗莎》拍一張照片,盡量壓縮這張照片發給你。如果網不好,照片就糊得像一堆色塊。
- 生成式視頻壓縮(GVC):我不發照片了。我發給你一段描述——“一位女士,神秘微笑,背景是山水,光影是從左側來的……”,以及她嘴角上揚的精確弧度數據。你的接收端坐著一位AI畫師(生成式模型),聽到描述后,現場給你畫出一幅《蒙娜麗莎》。
![]()
剛剛說的只是打個比方,實際情況要復雜得多,傳輸的內容也并非只有文字。
這就是技術報告中提到的核心理念:用計算,換寬帶(Trading computation for bandwidth)。
把傳輸的壓力,轉移到了推理計算上。
![]()
視頻地址:https://mp.weixin.qq.com/s/GG1BFS8mFugifO9xzA33Tg
GVC到底壓了些什么?
既然不傳像素,那這0.02%的數據里到底裝了什么?
技術報告揭示了GVC系統的內部構造,它主要由神經編碼器(Neural Encoder)生成式視頻解碼器(Generative Video Decoder)兩部分組成。
里面傳輸的是一種被稱為壓縮Token的極小數據包,這些Token里包含了視頻的靈魂,主要分為兩類:
- 語義信息(Semantic Information): 這是一個什么場景?有人嗎?有車嗎?物體的大致結構是什么?這是畫面的骨架。
- 運動信息(Motion Dynamics): 這些物體下一秒往哪動?風怎么吹?車輪怎么轉?這是畫面的靈魂。
經過 TeleAI 團隊的測試,這些Token的大小可以被壓縮到極致的0.005 bpp - 0.008 bpp(bits per pixel,比特每像素)。
這是什么概念?通常我們看的高清視頻,bpp至少在0.1以上。GVC直接把數據量砍掉了兩個數量級。
除此之外,在接收端,還有一個擴散模型(Diffusion Model)嚴陣以待。
它接收到這些簡短的Token指令后,利用預訓練好的海量世界知識(比如它本來就知道海浪長什么樣,足球長什么樣),結合指令中的特征,開始腦補并生成視頻。
這在通信理論上,實現了一次巨大的跨越。
香農-韋弗(Shannon-Weaver)通信模型將通信分為三個層級:
- Level A:技術問題(傳得準不準?)
- Level B:語義問題(意思對不對?)
- Level C:有效性問題(能不能完成任務?)
傳統視頻壓縮在死磕Level A,而GVC直接跳到了Level C
![]()
它不在乎每一個像素點是否和原圖一模一樣(比如這片樹葉的紋理是否100%重合),它在乎的是:在人眼看來,這是否是一場連貫、清晰、真實的球賽?在機器看來,能否準確識別出這是否是越位?
數據實測:非常省流
極端壓縮聽起來很玄,但具體指標并不含糊。
技術報告中展示了在MCL-JCV權威數據集上的測試結果,數據非常硬核。
畫質吊打傳統算法
在極低碼率下(0.005 bpp左右),使用LPIPS(一種更符合人類視覺感知的畫質評價指標)進行對比:
- 傳統霸主HEVC已經徹底崩潰,畫面基本是馬賽克亂舞,LPIPS數值飆升(越低越好)。
- GVC生成的畫面依然保持了清晰的紋理和結構,LPIPS數值顯著低于HEVC。
技術報告中給出了一個驚人的對比結論:傳統方法(如HEVC)要想達到和GVC同樣的視覺畫質,需要消耗6倍以上的帶寬!
![]()
這意味著,在同樣的渣畫質網絡下,GVC能讓你看清C羅的表情,而HEVC只能讓你看清C羅是個移動的色塊。
不只是給人看,機器也能用
有人會問:AI生成的視頻,會不會失真?比如把球生成沒了?
這是一個非常犀利且實在的問題。
為此,團隊在DAVIS2017視頻分割任務上進行了驗證;結果顯示,在bpp=0.01的極限壓縮下,GVC重建視頻的J&F指標(衡量分割準確度)顯著高于HEVC。
![]()
這說明GVC傳輸的不僅僅是“好看”的皮囊,更是“準確”的語義。即使是AI重繪的,關鍵物體(人、車、球)的位置和輪廓也是精準的,完全不影響后續的AI分析。
消費級顯卡也能跑
計算換寬帶,那會不會把電腦算爆?
確實,生成式模型通常是算力黑洞。但 TeleAI 通過模型小型化、知識蒸餾等手段,搞定了落地的最后一公里。
報告數據顯示,經過優化的GVC模型,在消費級GPU(如RTX 4090)上,生成一組29幀的畫面大約只需要0.95秒到1.35秒。
雖然比不上傳統解碼器的毫秒級速度,但在很多非實時或準實時的場景下(比如直播延遲幾秒),這已經是完全可用的狀態了。
當然不只是為了看個世界杯
0.02%,這篇技術報告所展現的關鍵數據已然非常驚艷,但它背后更加可期的,還是這項技術給未來帶來的改變。
除了開頭我們提到的世界杯的例子外,在報告展示的Demo場景中,GVC還展現了其它極端網絡環境下的情況:
- 遠洋海事通信: 船員通過窄帶衛星網絡(帶寬極其昂貴且稀缺)接收數據。用GVC,200K的數據流就能還原出連貫的球賽直播。這不僅是娛樂,對于海上遠程醫療、設備維修指導來說,是救命的技術。
- 應急救援: 地震或洪水災區,基站損毀,只有微弱的應急通信信號。救援無人機傳回的如果是4K畫面,根本發不出來;如果是GVC壓縮后的Token,指揮中心就能實時看到清晰的現場生成畫面,哪怕細節紋理是AI補全的,但受災人數、房屋倒塌結構等核心信息是準確無誤的。
- 深空探測與車載視頻: 想象一下火星車發回的視頻,或者數百萬輛自動駕駛汽車每天上傳的路測數據。如果都能壓縮到0.02%,存儲和傳輸成本將呈指數級下降。
![]()
視頻地址:https://mp.weixin.qq.com/s/GG1BFS8mFugifO9xzA33Tg
實際上,GVC并非孤立的技術突破,而是建立在“智傳網(AI Flow)”理論體系之上。
智傳網(AI Flow)是人工智能與通信、網絡交叉領域的一項關鍵技術,即通過網絡分層架構,基于連接和交互,實現智能的傳遞和涌現。
在去年的世界人工智能大會(WAIC)上,中國電信集團 CTO、首席科學家、中國電信人工智能研究院(TeleAI)院長李學龍教授,介紹了 TeleAI 在智傳網(AI Flow)研究中所發現的三個定律:信容律、同源律、集成律。
信容律描述大模型的本質規律和能力邊界,通過數據壓縮的方式來衡量模型的知識密度,也就是智能能力。
同源律則展現大模型的“部分”與“整體”關系,在相同訓練計算開銷下,能指導得到數量更多、性能更好的不同大小的家族模型。
集成律能指導大模型“單體”與“群體”的協同,通過多個模型集成的方式,實現智能能力的提升與涌現。
![]()
視頻地址:https://mp.weixin.qq.com/s/GG1BFS8mFugifO9xzA33Tg
基于智傳網(AI Flow)的信容律,在AI時代,通信的本質不再是單純的數據傳輸,而是智能的分發與協同。
在此體系下,GVC通過“用計算換帶寬”的資源置換策略,實現了通信效率與感知質量的最優平衡。
GVC就是這一理論的最佳實踐:當帶寬成為瓶頸時,我們就燃燒算力來換取自由。
從像素還原到語義生成,視頻壓縮技術正在經歷一場類似從功能機到智能機的范式轉移。
GVC標志著視頻通信正從像素搬運邁向語義生成的新階段。
作為央企在AI+通信融合創新中的重要成果,它不僅為遠洋通信、應急救援、邊緣智能等場景提供了高效可行的解決方案,更開啟了以任務有效性為核心的下一代視頻傳輸范式:
在未來的互聯網里,流淌在光纖和電波中的,可能不再是龐大的原始數據,而是高度濃縮的智慧和指令。
技術報告地址:
https://www.arxiv.org/abs/2512.24300
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.