- 編輯部 整理自 MEET2026
量子位 | 公眾號 QbitAI
從生物進化的漫長歷程到AI技術的瘋狂迭代,兩者遵循著驚人相似的底層邏輯。
在探尋下一代AI架構的關鍵時刻,著名的“Kaldi之父”、小米集團首席語音科學家、IEEE FellowDaniel Povey提出:
- 就像生物進化一樣, AI“配方”的設計本質上就是一個不斷試錯的過程,而進化的速度,取決于“復制”一個新想法所需的時間。
在本次量子位MEET2026智能未來大會上,他也將開源視為AI進化的核心加速器——
若沒有開源,行業的進化速度恐怕要慢上一千倍;正是因為有了開源,技術才能像生物適應新環境一樣,經歷“長期停滯+瞬間爆發”的非線性躍遷。
![]()
至于如何在未來的競爭中生存,在他看來,大公司最明智的策略是“兩條腿走路”——
一邊利用Transformer賦能當下的產品,一邊保留資源探索未知,賭中下一個顛覆世界的機會。
為了完整體現Daniel Povey的思考,在不改變原意的基礎上,量子位對演講內容進行了翻譯和編輯整理,希望能給你帶來更多啟發。
MEET2026智能未來大會是由量子位主辦的行業峰會,近30位產業代表與會討論。線下參會觀眾近1500人,線上直播觀眾350萬+,獲得了主流媒體的廣泛關注與報道。
核心觀點梳理
- AI的演進和自然界生物的進化過程非常相似,通過嘗試不同的技術變體,然后篩選出在目標任務上表現更優的方案;
- 類比生物進化中的“間斷平衡”,AI的發展并非連續,而是“長期停滯+突然躍遷”,停滯期也不會永遠持續;
- 開源對進化速度至關重要,如果每家公司都閉源,那么研究速度可能會降低為原來的千分之一;
- 不要押注單一任務或單一路線,在進化過程中找到AI“通才”與“專才”的平衡,保留多種不同模型架構的存續,從而增加發掘實用新技術的機會;
- 大公司雙管齊下是有意義的,一方面使用當前業界領先的技術方案,另一方面進行探索性研究,以尋找下一個重大突破。
![]()
以下為Daniel Povey演講原文中譯本
像生物進化一樣快速試錯
大家好,今天我想和大家分享一些關于“進化”和“AI”的思考,以及我們如何從生物演化中汲取關于AI未來的啟示。我將主要從科研和模型本身的角度解讀這個問題。
人們設計AI“配方”的過程,本質上主要還是一個不斷試錯的過程。
當人們有了新的理解,就會發表許多富含公式的論文,但其中99%的內容都沒什么真正可操作的價值,最后能落地的通常只是“配方”本身。
所以設計AI“配方”的基本流程就是嘗試不同變體,然后篩選出有效的進行發布,別人再照著做。
![]()
這其實和生物進化非常相似。
在生物進化中,進化過程也會和外部環境相互影響,例如地球上的進化會受到太陽輻射變化、大氣成分變化的影響,而生命本身也會反過來影響這些環境因素,比如改變大氣成分。
AI的進化也是如此,可能會受到硬件、數據等資源的限制;同時,AI也會通過商業效應、群體行為效應反作用于這些外部條件。
在歷史上,生物進化甚至曾經多次“破壞”自身的生存環境,例如“大氧化事件”(Great Oxygenation Event),不過最終生命又從中恢復了過來。
(注:大氧化事件是指約26億年前,大氣中的游離氧含量突然增加的事件,其具體原因不明。該事件使地球上礦物的成分發生了變化,也使得日后動物的出現成為了可能。)
![]()
生物學中“世代間隔”(Generation time)類比到AI,就是復制一個新想法所需的時間,通常這個時間會持續數個月。
因為當你有了新的發現,往往要先寫論文,而且一般是寫完才對外公開,有些期刊甚至規定發表前不能先上傳arXiv之類的預印本。
過去這樣的周期可能需要大概兩年,但現在可能縮短到了六個月
現在,有了PyTorch這樣的工具,人們可以近乎完美地復現他人發布的“配方”。
當然,有時人們可能只給出了描述(而沒有代碼),這會使得復現過程稍慢一些,但整體上,代際周期的長短決定了進化的快慢。
就像世代間隔漫長的大型生物,往往進化緩慢;而那些能夠快速繁衍的小型生物,進化速度則要快得多。
![]()
去不同領域尋找AI突破口
在自然界的進化中,往往存在一種“停停走走”的節奏,很長一段時間里幾乎沒有什么動靜,隨后突然發生劇變。
對于自然界的物種來說,這種變化通常是由遷移到新環境所導致的;但偶爾,它也源于生命“解鎖”了某種新事物,比如光合作用演化出來時,整個進化的節奏便迅速發生了改變。
我從事AI領域大概有30年了,特別是在語音領域,也經歷過長時間沒有太大進展的階段,當時我們甚至以為“這就是終點”。
當年我們做高斯混合模型、判別式訓練時,以為語音識別的最終形態就是那樣了,沒人能想象未來的改變。所以也許十年后,也會出現今天誰都無法想象的全新模型。
AI的發展中,不同任務之間的相互作用非常重要,比如視覺領域的新方法,后來可能會用于語音、語言等任務。
![]()
最近一個典型例子就是Transformers,它最初是專門為語言模型設計的,后來卻在各種任務中大放異彩。
在進化中也是如此,海豚絕無可能僅在海洋里就進化成型,因為它那些呼吸空氣的機能,原本是為了適應陸地生活才演化出來的。但當它重返海洋后,卻成了最成功的頂級捕食者。
這說明,有時候你確實需要暫時去做一些截然不同的事情,最終才能在原本的目標上取得成功
如果不開源,AI得慢上一千倍
當然,拿生物進化做類比也有局限性。畢竟我們可以主動去理解事物,可以利用數學推導,或者改進可視化和調試工具,從而加速技術的發展。
![]()
此外,提速也非常關鍵。實驗跑得越快,進化的迭代就越快,這對研究價值巨大。
而在這一點上,開源起到了至關重要的作用。
如果每家公司都得自己從頭重復造輪子,研究速度恐怕要慢上一千倍。
我們可以設想一個平行世界,如果大公司決定不開源PyTorch,我也沒有開源Kaldi項目,那AI研發的局面會很不相同。
不過,不開源在某些行業確實是常態,尤其是涉及實體工程的領域,因為開發一款工具往往極其昂貴,可能要砸出數百萬美元,所以沒人會把他們的模型開源出來。
其實,2012年我之所以離開工業界,就是因為這個問題。當時的大公司普遍對開源都不怎么感冒,所以我轉去學術界待了一段時間。
但如今很多公司都開始擁抱開源了,像小米就非常支持我的工作,也支持開源,所以我又回到了工業界。
尋找Transformer之后的下一個顛覆者
回到關于進化的比喻,我剛才吐槽過論文中的那些數學理論往往不夠具體,沒法落地。那么,我們到底能從中能學到什么實實在在的東西呢?
有一點很關鍵,那就是我們需要在各種不同的任務上不斷探索新思路。
因為在進化這件事上,很難預判哪種生物最終會勝出。就像嚙齒類動物,起初可能只是為了吃竹子種子這種極具體的目的而進化的。
但結果誰曾想,這反而讓它們演化出了一種極強的“通才”式生存能力,最終遍布全球、無所不能。
可在當時,誰能想到吃竹子種子這事兒能帶來這么大的突破呢?這種事真的太難預測了。
所以說,關鍵就在于要多嘗試不同的任務,因為我們為了突破某個任務特有限制研發出的解決方案,可能最后會被證明具有極高的通用價值。
![]()
我們需要關注進化過程中“通才”與“專才”之間的權衡,我并非要分出孰優孰劣,但是從長遠來看,不同的進化策略能夠適應不同的環境——
如果環境長期穩定,自然界往往會涌現出大量像熊貓這樣的“專才”,它們雖然只吃一種食物,卻能做到極致適應;
可一旦環境變得動蕩多變,像老鼠這種適應力極強的“通才”往往更具生存優勢。
所以,這兩種生存策略很可能是缺一不可的。
對于AI而言,我們應該讓模型在多個不同的生態位里同時演進,這就像自然界在不同環境中進行的進化一樣。畢竟,每個物種通常都有其最適應的特定生存空間。
如果我們能同時保留多種不同的技術路線,說不定其中某一條在經過進一步打磨后,就能帶來巨大的回報。但這事兒很難提前預判,沒人知道眼下哪個模型會在未來稱王。
出于同樣的理由,我們也應該維持模型架構的多樣性。這就像大自然保留了豐富多樣的物種一樣,因為我們根本無法確定,到底哪一種架構會孕育出下一輪的重大突破。
在我看來,大多數大型機構采取兩頭并重的策略是比較明智的——既要沿用像Transformer等當前最頂尖的成熟模型,同時也得投入一些資源去做探索性研究,去尋找下一個技術突破口。
在我看來,Transformer這種技術領域的競爭現狀,就像是“搶椅子”——只要音樂還在響,你就得跟著一直跳。
畢竟在Transformer和LLM依然稱霸的當下,任何一家公司都絕無可能把身家性命都押在別的路線上。
但大家心里也都清楚,音樂遲早有停下來的那一天。
所以,小米在LLM上的研究主線很明確,那就是利用SOTA級別的AI和大模型技術,去全方位賦能我們的“人車家全生態”。
我個人其實并沒有深度參與這些工作,因為我和團隊主要負責的是探索性研究。我們嘗試了大量不同的方向,就是希望能找到能產生巨大影響的成果,但這事的成功率向來極低。
回首我的整個研究生涯,嘗試過的點子恐怕得有上萬個。現在回頭看,其中有一兩個如果當時我能推廣得再好一點,說不定真能成為顛覆性的技術。
比如,早在大家連BatchNorm都還沒開始用的時候,我們組其實就已經設計出了一種類似于LayerNorm的歸一化模塊。
但我也不想像Jürgen Schmidhuber那樣說“我在所有人之前發明了一切”。
(注:Jurgen Schmidhuber是著名計算機科學家、LSTM之父,喜歡在AI領域出現新成果時發表文章或評論,列舉自己上世紀的論文,表示“這個東西我幾十年前就發明過了”。)
因為作為一名研究人員,有責任去判斷哪些是有價值的想法,并對其進行妥善推廣。如果你沒做到,那就得承認是自己的失誤。
言歸正傳,我的團隊目前正在研發一種針對語音的新模型架構,叫Zapformer,是一個通用聲音基座。
相較于我們去年推出的Zipformer而言,Zapformer實現了三大跨越:
- 從“人聲”到“萬聲”的跨越:從專注于人聲建模,到成為能同時理解人聲、環境音等多元信息的通用聲音基座;
- 從優化結構到創新理論的跨越:通過引入梯度流(Gradient Flow)理論指導模型設計,在已屬業界標桿的Zipformer基礎上,將語音識別精度再次顯著提升10%-15%;
- 從專用優化到通用健壯的跨越:為適應海量數據訓練移除了Dropout層,增強了大數據擬合能力,同時將優化器升級為TransformAdam,在保持極速收斂的同時,大幅提升了訓練的通用性與穩定性。
我不想把話說太滿,說它就是“下一個大熱門”,但它確實包含了不少有意思的想法。
當然,我們希望能押中下一個“大殺器”,但這事兒誰也沒法打包票。
所有這些成果全都是開源的,因為我是開源的堅定信徒。除了我的項目,小米還有很多其他的開源項目。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.