Tips:親愛的朋友,微信推送規則一直在變化。如果你僅僅是“關注”,很可能無法收到推送。按照下圖操作點擊“劉潤”公眾號名片,設為星標,就可以不錯過文章啦。
![]()
朋友們,馬年好!馬年第一天,給大家拜個年!
雖 然俗套,但我還是想祝你:煩惱馬上消失,好運馬不停蹄,財富一馬平川,全年龍馬精神!
昨天春晚看了嗎?不管你是葛優躺,還是打麻將,肯定瞄了眼電視吧?
感覺咋樣?
有人笑得合不攏嘴,不就圖個熱鬧嘛。有人看得直嘆氣,還不如讓B站來辦。都對。
但我昨晚的情緒不一樣。
我是:提心吊膽。
為什么?因為昨天的春晚,非常特別。
今年春晚,不只是文藝秀,更是中國AI算力的極限承壓實驗。就像是幾億人同時擠進一扇門,看門會不會被擠破。
當屏幕上那匹水墨馬“活”了,隨著音樂奔騰跳躍;當主持人說“打開豆包App”,數億人涌進去生成AI頭像;當相聲小品的包袱被實時打在無障礙字幕上……
我的第一反應不是“震撼”,而是“緊張”。手心捏著汗,心里默念:千萬別崩,千萬別崩。
因為那一秒如果扛住了,中國AI就交出了一張滿分答卷。沒扛住呢?哪怕只是幾秒鐘的黑屏,崩掉的就不止是服務器,而是全社會對國產AI剛剛建立起來的、那點脆弱的信心。
什么?你沒看見?
這樣吧。今天,我想帶你復盤昨晚的三個“驚魂時刻”:復活的馬、100萬倍的算力、和無障礙的字幕。
![]()
復活的馬
這個節目看了吧?張杰唱的《馭風歌》,非常豪邁,蕩氣回腸!
![]()
但這不是重點。重點是什么?你看節目背后的大屏幕,那奔騰的駿馬。就像一幅跑起來的水墨畫。
這幅“畫”,是不是很眼熟?
沒錯。如果我沒看錯,它應該是脫胎自徐悲鴻的《六駿圖》
![]()
(圖片來自網絡:徐悲鴻,《六駿圖》)
這幅畫,創作于抗日戰爭最艱難的時期。當時徐悲鴻身在馬來西亞。為了支援國內抗戰,他舉辦畫展義賣。一場接一場。所以你看這幅畫里的駿馬,昂揚、勇猛、一往無前。畫的就是當時的中國。那份不屈服,不放棄。
這種精神,在水墨里流淌了80多年。黑白的。安靜的。但就在昨晚,在春晚的舞臺上,這幅畫,“活了”過來。那些曾經只存在于徐悲鴻腦海中的駿馬,沖出了畫面。
那一刻,我頭皮發麻。
是魔術嗎?不,是技術。這段視頻,不是動畫工作室一幀一幀畫出來的。而是由AI生成的。
是的。就是這個月火遍全球,被認為能“顛覆好萊塢”的,字節跳動的視頻模型,Seedance 2.0。
按理說,神兵在手,應該穩操勝券了吧?但我還是狠狠捏了一把汗。
為什么?因為再厲害的AI,用來“復活”一幅國寶級的水墨畫,也實在是太容易翻車了。
你看細節。馬奔跑時,毛發飛起來了嗎?有沒有隨著身體起伏?馬跑起來,會不會撞到一起?或者穿身而過?甚至,會不會跑著跑著,跑成了八匹?
生成一段“好看”的視頻,不難。但生成一段“對”的視頻,太難。尤其是春晚直播。容錯率為0。
為什么這么難?
因為互聯網上,水墨畫素材太少了。AI沒得學。但更本質的原因是,中國水墨畫講究意境,講究留白。而AI擅長具象,擅長填滿。兩種思維,完全不同。
帶著這種擔心,我死死盯著屏幕。直到看完節目,心里的石頭才算落地。
這幾匹馬,鬃毛飄動,肌肉起伏,光影變化……每一個細節,都精準、細膩。細膩到讓人懷疑:這真是AI生成的?
我很好奇。于是問Seedance團隊:你們是怎么做到的?甚至還能和歌唱配合得這么嚴絲合縫?
因為我們不光教AI“學畫畫”,我們還逼著AI“學物理”。
以前的AI,畫出來的馬是“飄”的,因為它不懂牛頓。但這一次,Seedance給馬裝上了“骨骼”,給地面鋪上了“引力”。馬蹄落下去,必須要有踩實的觸地感(這就是:物理合理性);上一秒踢飛的石子,下一秒絕不能憑空消失(這就是:時序準確性)。它不再是簡單的生成畫面,而是在模擬真實世界的物理規律。
為什么配合得這么好?是因為我們教AI聽懂了“感覺”。你不用再對它說“向左旋轉15度”。你可以說“再往左一點點”,“一點點就好”,“多了,再回來一點點”,“對,速度慢一點,步態輕一點”。這種只可意會不可言傳的“感覺”,它全都能聽懂(這就是:超強指令遵循)。
至于風格,我們為它請了三個師傅。那就更簡單了。導演的草圖,教了它構圖;真馬的視頻,教了它肌肉;徐悲鴻的筆觸,教了它靈魂。
把物理規律、人類直覺、藝術審美,揉在一起。這就是你看到的,這幾分鐘奇跡。
原來如此。難怪,Seedance能在這個月火遍全球。以前,是我們看著硅谷的Sora眼饞;今天,終于輪到硅谷的博主,為中國的Seedance熬夜。
這一次,中國AI的馬蹄聲,終于踏進了世界舞臺的中央。
很震撼。
但這還不是最震撼的。讓我更加捏把汗的,不是這匹馬。
而是那個紅包。
![]()
100萬倍的算力
昨晚,你也搶豆包紅包吧?
你在手機上選“新春頭像”時,給親朋好友“寫祝福”時,一個定制的紅包就彈出來了。
![]()
![]()
![]()
(圖片可左右滑動)
你搶到了紅包,然后順手把祝福發給了到“相親相愛一家人”群里,就轉頭看下一個節目。
在你看來,這一切再正常不過。但就在那一秒,我的心,提到了嗓子眼。
為什么?
因為就在按下“發送”的那一秒,你已經置身于一場吉尼斯級的技術風暴中心。
回想一下,2015年。微信紅包第一次上春晚。我們守在電視機前瘋狂“搖一搖”。那時的搶紅包,本質是什么?
去領方便面。
倉庫里,提前準備好一個億的方便面(紅包)。你搖一下,就到倉庫門口取一包。主持人說“跟我一起搖”。瞬間,一億人擠在了倉庫門口。
壓力大嗎?非常大。
但這種壓力,是“分發”的壓力。倉庫里有足夠的面。人多?那我就多開幾個柜臺。反正,紅包這個“面”本身是不缺的。
但昨晚,規則變了。你喊出“馬上發財”之后,你的專屬紅包,才開始生產。
這就相當于什么?
相當于你排到柜臺前說:“我要一碗雪菜肉絲面,加塊大排。要蒜不要蔥,多醋少醬油。”你說完,后廚才開始現做。
昨晚,豆包紅包的后廚,叫火山引擎。它的工作,就是要在短短幾秒之內,把上億份各不相同的、熱氣騰騰的面,同時端上桌。
以前的紅包,是靜態資源,是方便面;現在的紅包,是動態計算,是現做拉面。這背后的計算量,完全不可同日而語。
據火山引擎官方數據,一次AI互動消耗的算力,是傳統搶紅包的100萬倍以上。更關鍵的是,這100萬倍,發生在幾秒之內。
這是一場發生在你指尖的數據海嘯,卻席卷了千里之外的服務器機房。
在你看不到的網絡監控中心,大屏幕上的負載水位線,瞬間瘋漲。幾乎要刺破屏幕頂端。工程師們,誰也不敢眨眼。
最后……竟然扛住了。
你要知道,面對這種“海嘯級”的瞬時爆發,靠堆機器肯定來不及。那到底是怎么扛住的?
靠的是一個能號令千軍萬馬的“算力調度系統”。
火山引擎有一個“聯邦調度器”。你可以把它理解為“超級中央廚房”的云端總店長。
它能以秒級為單位,精確調度分布在全國幾十個機房里的,海量的機器、海量的顯卡。平常,它看起來只是個普通小面攤。可一旦需要,它能瞬間把全國各地成千上萬個閑置爐灶,并入自己的生產線。
原本分散在各地的火力,在這一秒,全部匯聚到了你的這碗面上。
這就是計算資源的“彈性伸縮”:需要時,千軍萬馬來支援;不需要時,瞬間解散。
可是,如果做到這一步,火力夠了,廚師還是忙到沒法在幾秒鐘之內做上億碗面呢?
那就創新做面的流程。
火山引擎創新的煮面灶臺,叫做:火山方舟。這是一套“大模型推理系統”。它有大量在體系結構層,算子層,系統層的創新。
比如體系結構層的:PD分離。Prefill-Decoding Separation。把煮面的工序,徹底流水線化。
本來,一個廚師收到你“一碗面,要大排,不要蔥”的點單,需要先看備注、再備菜,這叫Prefill。準備好之后,再開火炒菜、盛面出菜,這叫Decoding。備菜是他,掌勺也是他,一個人恨不得劈成兩個用。這種效率,怎么可能快得起來?
如果換個方式呢?
一個廚師只負責切菜(處理Prompt),另一個廚師只負責顛勺(生成Token),流水線作業。各司其職,專心做一件事。這樣,效率不就高了嘛。
顯卡也是一樣。
工程師們做了一場針對算力的“手術”:PD分離。
他們把顯卡分成兩撥。一撥算力極強的顯卡,專門負責“切菜”,也就是Prefill。它們第一時間讀懂你的要求,不管你寫的是“馬上發財”還是“馬到成功”,它們都會瞬間備好。
而另一撥顯卡,則集中負責“顛勺”,也就是Decoding。它們專心致志把準備好的祝福語,一個字一個字地生成出來,打包塞進紅包。
這就是PD分離。
讓每一張顯卡,都能專注于一件事。結果是什么?顯卡利用率從30-50%,直接提升到70-90%。成本,更是降低了40-60%。
這意味著,原來下一碗面的時間,現在幾乎可以下兩碗。而且,成本更低,速度更快。
除了PD分離,為了“榨干 ”顯卡的 每一滴推理算力,他們開發自己的算子層,針對每款硬件做優化;優化自己的系統層,實現了分布式的推理策略。
這就是科技。
極致的算力調度系統。極致的推理優化系統。把復雜留給了機房,把流暢留給了你。
除夕當晚,“豆包紅包”幫助用戶生成超過5000萬張新春主題頭像、生成超過1億條新春祝福。AI互動總數達19億。
真如洪峰過境。
我相信, 當流量洪峰過去,那條垂直的負載水位線開始回落時, 監控中心里 一定爆發出了一陣短暫而熱烈的歡呼。
因為 那一瞬間,幾千名工程師經歷了一場提心吊膽,和一份如釋重負。
但如果說,發紅包的瞬間是讓我手心出汗,那另一個瞬間就是讓我無比動容。
這個瞬間就是:無障礙字幕。
![]()
2780萬人“讀”懂了歡笑
根據最新數據,中國有2780萬聽障人士。如果加上各類聽力受損人群,這個數字高達2.06億。
2780萬。這個數字,比澳大利亞的人口還多。
對他們來說,春晚不只是一場晚會,更是一年一度的“失語”。當全中國都在歡笑時,他們面對的卻是一個被靜音的世界。這種熱鬧,反而是最大的孤獨。
你可能會問,不是有手語翻譯嗎?
因為手語翻譯,會弄丟30%的信息。
手語是“縮略圖”,口語是“高清圖”,兩者的信息量完全不在一個量級。更別提那些語法結構的天然差異。相聲里的諧音梗、歌詞里的雙關語、語氣里的微表情……手語,真的“翻譯”不出來。
所以過去,這近3000萬的聽障同胞們,看得見舞臺上的燈光,看得見演員的笑容,卻聽不見主持人的祝福,聽不見相聲的包袱,聽不見歌聲里的情感。
直到昨晚。春晚直播中,首次出現了“AI字幕”。聽障人士,終于可以“讀”出主持人“說”的每一個字。
![]()
你可能會問:語音識別不是早就有了嗎?為什么今天才上春晚?
因為傳統語音識別,像個“小學生”。它只會“聽音”,不會“入腦”。它分不清是“山西”還是“陜西”,也分不清是“背景”還是“北京”。
在平時,90%的準確率算優秀;但在春晚,哪怕只有1個錯字,也是100%的事故。因為這樣的場合,絕對無法接受“給全國人民拜個年”,變成字幕里的“給全國人民擺個臉”。
所以,央視的要求是:不論方言,不分語速,不管音樂、笑聲、掌聲是否嘈雜,字幕都必須100%準確。而且,從話音落地到字幕上屏,不能超過1秒。
面對這種幾乎“反人性”的要求,火山引擎的工程師們,拿出了豆包Seed-ASR大模型。
什么是Seed-ASR?簡單來說,它不是在“聽音”,而是在“審題”。
當聽到模糊的“shanxi”,它不會在那死磕發音,而是瞬間掃一遍全文:剛才主持人才提到了西安分會場?那一定是“陜西”,不是“山西”。它不是在猜,而是在推理。
這種上下文理解能力,讓它比普通模型多“挽回”了15%的致命錯誤。哪怕背景音樂震天響,它的綜合準確率,依然能在95%以上。
準還不夠,還得快。
為了搞定那“1秒鐘”的生死時速,它跑的是“流式語音識別”。不再是等一句話說完才出字,而是話音剛起,文字已出。
精準、實時、零延時。這,就是今天中國的語音識別能力。
那萬一,我是說萬一,還是有錯呢?
必須萬無一失。火山引擎直接拉了一支技術團隊,在直播現場,守了一整夜。任務只有一個:死守屏幕,人工實時糾錯。
在這個數字時代,科技跑得實在是太快了。
但是再快的算法,也值得停下腳步,等一等那些困在寂靜里的人。
然后,攜手邁入新年。
![]()
最后的話
復活的馬。并發的紅包。和無障礙的字幕。
昨晚,當春晚結束的鐘聲敲響時,我長舒了一口氣。這場對中國AI基礎設施的“大考”,我們扛住了。
2026年的春晚,是一個分水嶺。因為,它標志著AI正從“大人的玩具”變成“文明的工具”,從“技術嘗鮮”變成“基建設施”。
春晚這一戰,證明了中國AI的基礎設施,已經能穩穩托住億萬人的期待。
當基礎設施修好了,跑的車自然會多。當AI基礎設施變得像空氣和水一樣自然,我們一定會迎來“應用層”的寒武紀大爆發。
我擦了擦手心的汗。舉杯。
敬那匹復活的馬,敬那行跳動的字幕。
更敬這個正在被技術溫柔推開的,2026。
干杯。
作者/ 劉潤編輯/ 歌平版面/ 黃 靜
這是劉潤公眾號第2865篇原創文章。未經授權,禁止任何機構或個人抓取本文內容,用于訓練AI大模型等用途

![]()

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.