![]()
機器之心報道
編輯:Panda
前些天,一項「AI 傳心術」的研究在技術圈炸開了鍋:機器不用說話,直接拋過去一堆 Cache 就能交流。讓人們直觀感受到了「去語言化」的高效,也讓機器之心那條相關推文狂攬 85 萬瀏覽量。參閱報道《用「傳心術」替代「對話」,清華大學聯合無問芯穹、港中文等機構提出 Cache-to-Cache 模型通信新范式》。
![]()
事實上,這還不是近期唯一一項此類研究,NeurIPS 2025 Spotlight 論文《Thought Communication in Multiagent Collaboration》提出了 Thought Communication(思維溝通)概念,讓智能體在內部層面傳遞潛在思維(latent thoughts),實現類似心靈感應的合作。參閱《讓大模型學會「心靈感應」:基于思維溝通的多智能體合作范式來了》。
如果說前兩項研究是在讓 AI 擺脫「語言」的束縛,那么今天這項研究則更進一步:它試圖讓 AI 擺脫對「數據」的依賴。
來自麻省理工學院 Tommi Jaakkola 和紐約大學謝賽寧兩個團隊的一項聯合研究又提出了一種新方法,無需數據,僅從先驗分布中采樣即可實現 flow map 蒸餾,并且取得了非常出色的性能表現。
這聽起來簡直像是武俠小說里的「閉關修煉」:不看任何武林秘籍(數據集),僅憑內功心法(先驗分布)和宗師的指點(教師模型),就在極短時間內練成了絕世武功。
這篇論文的共一作者為 MIT 四年級博士生 Shangyuan Tong 和紐約大學一年級博士生 Nanye Ma。它不僅刷新了 ImageNet 的生成質量紀錄(1-NFE 下 FID 達到 1.45),更重要的是,它向我們展示了一個隱約可見的未來:擺脫對顯性數據(如文本、圖像)的依賴,轉而挖掘和利用模型內部表征或先驗分布,正在崛起成為 AI 研究的一個重要新范式。
![]()
- 論文標題:Flow Map Distillation Without Data
- 論文地址:https://arxiv.org/abs/2511.19428v1
- 項目頁面:https://data-free-flow-distill.github.io/
問題是什么?
我們知道,擴散模型和流模型已經徹底改變了高保真合成領域。
然而,它們需要對常微分方程(ODE)進行數值積分,而這會導致嚴重的計算瓶頸。
為了解決這一延遲問題,flow map 提供了一種有原理依據的加速途徑。它可直接學習 ODE 的解算子,能夠在生成軌跡上進行大幅度的「跳躍」,從而繞過繁瑣的迭代求解過程。
雖然 flow map 可以從頭開始訓練,但還有一種更靈活的方案:蒸餾強大的預訓練「教師模型」。
這種模塊化策略可以實現對最先進的模型的壓縮。
該團隊觀察到,目前主流且最成功的 flow map 蒸餾方法通常是基于數據的,即依賴外部數據集的樣本來訓練「學生模型」。
但他們認為,這種被默許的依賴關系引入了一個根本性的風險:教師-數據不匹配。
如圖 1 所示,靜態數據集可能無法完整或準確地表征教師模型真實的生成能力。
![]()
這種差異在實際應用中屢見不鮮:例如,當教師模型的泛化能力超出了其原始訓練集時;當后期微調導致教師模型的分布偏離了原始數據時;又或者當教師模型的私有訓練數據根本無法獲取時。在這些情境下,如果強行要求學生模型在不匹配的數據集上擬合教師模型,將從根本上限制其潛力。
![]()
通俗來說,你可以把「教師模型」想象成一位不僅畫技高超,還通過后期進修(微調)掌握了獨門絕技的藝術大師。而我們手中的「數據集」就好比是他多年前出版的一本舊畫冊,甚至是市面上隨便找來的一本普通參考書。
所謂的「教師-數據不匹配」,就是指這位大師現在的水平和風格(教師模型的真實生成分布)已經遠遠超出了那本舊畫冊的范疇(靜態數據集)。如果強行讓徒弟(學生模型)死盯著這本過時或甚至不對版的畫冊去學,而不是直接去觀察大師現在是如何下筆的,那么徒弟不僅學不到大師現在的真本事,甚至會被畫冊里的錯誤誤導,從而從根本上限制了其潛力。
解決方案它來了!
幸運的是,這種不匹配并非不可避免。
該團隊敏銳地觀察到,盡管教師模型的生成路徑可能在中間過程中偏離靜態數據集,但根據定義,它們在起點處始終錨定于先驗分布(Prior Distribution)。
如圖 1 所示,先驗分布是唯一能保證對齊的基點:它既是教師模型生成的共同起點,也是所有加噪過程的終點。
這一發現帶來了一個問題:對數據的普遍依賴真的是必須的嗎?
基于此,該團隊提出了一種范式轉變:可以通過僅從先驗分布進行采樣,構建一種穩健的、無需數據的替代方案,從而在設計上(by construction)徹底規避「教師-數據不匹配」的風險。
為了踐行這一理念,他們引入了一個有原理依據的「預測-校正」(Predictor-Corrector)框架,旨在純粹從先驗分布出發來追蹤教師模型的動態。
- 預測階段(Prediction):該方法首先獲取一個先驗樣本和一個標量積分區間,預測流應當「跳躍」到的位置。團隊從理論上證明,當模型的生成速度(Generating Velocity,即模型沿自身預測路徑行進的速率)與教師模型的瞬時速度完全一致時,即可達到最優狀態 。這使得學生模型宛如一個自主的 ODE 求解器,完全基于自身的演化預測來駕馭教師模型的向量場。
- 校正階段(Correction):然而,正如所有的自回歸數值求解器一樣,這種自我引用的預測過程容易導致誤差累積,使軌跡逐漸偏離 。為緩解這一問題,團隊提出了一種基于分布匹配的校正機制:將模型的加噪速度(Noising Velocity,即由學生模型生成的分布所隱含的加噪流邊緣速度)強制拉回,使其與教師模型重新對齊。這一機制充當了穩定器的角色,確保了生成的邊緣分布始終忠實于教師模型。
他們將該方法命名為FreeFlow,以強調其核心特征:一個完全無需數據的 flow map 蒸餾框架。
實驗證明有效性
該團隊在 ImageNet 上進行了廣泛的實驗,驗證了該方法的有效性。
通過從 SiT-XL/2+REPA 教師模型進行蒸餾,FreeFlow 刷新了最佳成績:在僅需 1 次函數評估(1-NFE)的情況下,其在 256×256 分辨率下達到了驚人的 1.45 FID,在 512×512 分辨率下達到了 1.49 FID,大幅超越了所有基于數據的基準模型。
![]()
![]()
此外,利用其作為快速且一致的代理模型(proxy)的特性,FreeFlow 實現了高效的「推理時擴展」,使得在單步操作中搜索最優噪聲樣本成為可能。
最終,他們的研究結果證實,外部數據集并非高保真 flow map 蒸餾的必要條件:可以在完全避免「教師-數據不匹配」風險的同時,不犧牲任何性能。
他們表示,這項工作為生成模型的加速提供了更加穩固的基石,并有望推動該領域向「無數據」范式轉變。
看起來,AI 正在從「向外挖掘數據」的時代,跨入「向內挖掘潛能」的新紀元。方法詳情和實驗細節請參閱原論文。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.