網易首頁 > 網易號 > 正文申請入駐

北大聯合Llama-Factory推出DataFlex：工業級數據動態訓練系統

2026-04-15 14:53:18　來源: 機器之心Pro

河北舉報

分享至

當大模型訓練進入深水區，競爭的關鍵已經不再只是「模型參數怎么調」，而逐漸轉向一個更核心、也更難系統解決的問題：模型在訓練過程中究竟看到了什么數據、以什么比例看到、哪些樣本應該被更頻繁地學習。

這些因素正在越來越直接地決定訓練效率、泛化能力以及最終模型性能。

圍繞數據選擇、數據混合和樣本重加權，學術界已經提出了不少方法。但長期以來，這些方法大多分散在彼此獨立的代碼倉庫中：接口不統一、訓練流程不一致、復現門檻高、橫向比較困難。

更重要的是，很多方法依賴 embedding、模型打分、梯度或中間推理信號，真正難的從來不是「提出一個方法」，而是把這些方法穩定、可復現地接入主流訓練流程，并納入一套統一的訓練閉環。

近日，北京大學張文濤教授、鄂維南院士團隊，聯合 LLaMA-Factory Team、OpenDataLab、上海 AI Lab 等機構，推出了面向大模型訓練過程的數據中心動態訓練框架 DataFlex。

它并不是單一算法或若干腳本的簡單堆疊，而是一套建立在 LLaMA-Factory 之上的統一訓練基礎設施：將動態樣本選擇、動態數據混合、動態樣本加權三類核心能力真正納入訓練過程，使「數據如何參與訓練」從經驗式配置，升級為可控制、可優化、可復現的系統能力。

換句話說，DataFlex 試圖解決的，并不只是某一個訓練技巧是否有效，而是一個更底層的系統問題：如何讓數據像模型參數一樣，成為訓練過程中可以持續調度和優化的核心對象。

這使它既可以作為研究平臺，用于系統比較不同數據中心訓練算法；也可以作為實用系統，直接服務于大模型預訓練、后訓練和領域適配等場景。

DataFlex 發布后，在 Hugging Face Daily Papers 榜單中迅速獲得廣泛關注并拿到了月榜第一。這種關注背后所反映的，本質上是社區對「數據中心動態訓練」從理論走向工程閉環的里程碑式認可。

DataFlex 不只是一個算法倉庫，而是一套數據中心訓練基礎設施

可復現的研究平臺：在統一訓練框架下系統比較動態數據混合、樣本選擇和樣本加權等數據中心訓練方法，覆蓋在線與離線場景，顯著降低研究復現與方法對比成本；
面向真實訓練的優化系統：將數據選擇、數據配比和樣本權重調節真正接入訓練閉環，使數據從「靜態輸入」變成「可持續調度的優化對象」，從而提升訓練效率與最終模型效果。

技術報告：https://arxiv.org/abs/2603.26164
官方文檔：https://opendcai.github.io/DataFlex-Doc/
Github 倉庫：https://github.com/OpenDCAI/DataFlex

DataFlex：大模型工業化數據調用的最后一塊拼圖

設計哲學：告別靜態投喂，把「數據調度」變成開箱即用的系統能力

1.核心概念：Data-Centric Dynamic Training System

DataFlex 的核心，不僅僅是再發一遍「數據很重要」的老生常談，而是直擊行業的最痛點：如何把「模型看什么數據、按什么比例看、優先強化哪些樣本」這種玄學經驗，真正固化為可配置、可調度、可復現的標準化系統能力。它不僅僅關注參數的梯度更新，更死死盯住了數據在每一步訓練中的真實參與度。

1.1從「填鴨式靜態輸入」到「數據主動調度」

傳統的大模型訓練中，數據往往被視為預先準備好的靜態輸入：數據集先確定，采樣方式先寫死，訓練過程中主要被持續優化的是模型參數本身。但當訓練數據規模越來越大、來源越來越復雜時，真正決定效果的，已經不只是「有沒有更多數據」，而是「訓練時能否更聰明地使用數據」。

Data-centric dynamic training 的核心思想，是把數據從「被動輸入」提升為「主動調度對象」。系統不僅要決定模型看哪些數據，還要動態決定不同數據源如何配比、哪些樣本應被優先學習、哪些樣本應被降低權重。

DataFlex 的價值，正是在于把這種原本零散、分散在不同方法和代碼中的能力，推進為統一、標準化的訓練機制。

1.2零成本遷移的統一框架

好的系統不應成為開發者的負擔。在動態調度之外，DataFlex 更進一步解決的是系統層問題：如何把原本分散的數據選擇、數據配比和數據重加權方法，統一納入同一套訓練基礎設施。

一方面，DataFlex 建立在 LLaMA-Factory 之上，盡量復用已有的模型管理、數據處理和訓練組件；另一方面，它在訓練層引入統一的數據中心控制能力，使不同數據策略能夠在同一個訓練閉環中被實現、比較和擴展。

因此，DataFlex 不是若干數據算法的簡單集合，而是一套面向大模型訓練過程的統一數據中心動態訓練系統。

2.三個設計原則

統一性：系統將數據中心訓練中的三個代表性范式統一納入了同一訓練框架；
兼容性：系統能夠融入現有的大規模模型訓練基礎設施，而不是額外引入一套工作流；
可擴展性：研究者可以以較低的工程成本實現并比較新的數據中心算法。

整體架構

DataFlex 延續了 LLaMA-Factory 易用、清晰的設計思路，但在整體架構上做了關鍵升級。其在不破壞現有訓練生態的前提下，把數據中心訓練真正做成了一套統一、可擴展、可復現、可落地的系統能力。整個系統大致可以分為三層：

基礎層（Base Layer）：這一層繼承自 LLaMA-Factory，負責模型管理、數據處理、優化器等通用訓練能力。系統在盡量保持原有訓練流程與使用習慣的同時，把擴展重點集中在數據中心訓練本身，降低了用戶從現有訓練流程遷移到 DataFlex 的門檻。
訓練器層（Trainer Layer）：它沒有沿用單一的原始 trainer，而是將訓練過程抽象為三種數據中心訓練模式，分別對應數據選擇、數據混合和樣本加權。這一層把訓練器從只負責參數更新，擴展為同時負責數據決策與參數優化。
策略組件層（Component Layer）：這里掛載的是具體算法組件，例如不同的 selector、mixer 和 weighter。它們各自封裝了不同方法的策略邏輯，并對訓練器暴露了統一接口。

這種架構實現了輕量替換，而不是重構一切。DataFlex 并沒有在 LLaMA-Factory 外面再包一個復雜編排系統，而是聚焦于替換訓練層，并僅在需要時對數據加載等模塊做最小擴展。

對用戶來說，這接近一種「即插即用」的增強：已有的模型、數據集、訓練參數配置都可以保留，只需要增加 DataFlex 相關配置，就能切換到以數據為中心的動態訓練模式。

此外，DataFlex 還統一封裝了數據中心方法普遍依賴的模型中間信號，比如 embedding 提取、模型推理、梯度計算等。很多數據選擇和數據加權方法真正難落地，不是因為思想復雜，而是因為它們依賴的中間信號獲取成本高、工程耦合重。DataFlex 把這類共享能力抽象出來，降低了實現和擴展門檻，也為后續大規模訓練提供了基礎。

核心功能

1.三個核心訓練器

對應當前數據中心訓練中典型的三種優化方向，DataFlex 支持三類核心訓練器：

動態樣本選擇訓練器（Dynamic Select Trainer）：在訓練過程中動態篩選更有價值的訓練樣本，減少低價值或冗余樣本對訓練預算的消耗，從而提升訓練效率。
動態數據混合訓練器（Dynamic Mix Trainer）：面向多來源、多領域訓練數據場景，在訓練過程中動態調整不同數據源的采樣比例，使模型能夠根據當前學習狀態更合理地分配訓練注意力。
動態樣本加權訓練器（Dynamic Weight Trainer）：針對不同樣本賦予不同訓練權重，使模型能夠對更關鍵、更困難或更具代表性的樣本進行更有效學習，從而改善模型性能與泛化能力。

2.算法集成與可擴展性

DataFlex 為三類訓練器集成了 LESS、DoReMi、ODM、Loss Reweighting 等代表性方法。所有方法都以可插拔組件的形式，在統一接口下實現，從而能夠在受控條件下進行公平比較。

科研上許多極具代表性的動態訓練方法，要么缺乏官方倉庫，要么其官方實現存在難以復現的問題。DataFlex 通過系統化的重構，讓這些處于「失聯」或「半停滯」狀態的算法重新具備了工業級生產力。

三類訓練器分工不同，但背后遵循的是同一種數據 — 模型交互邏輯：先觀察當前模型狀態，再給出新的數據決策，隨后把這一決策反饋到后續訓練中。

DataFlex 正是把這種共性的交互模式抽象成統一接口，從而讓不同算法能夠共享訓練流程、基礎能力以及擴展方式。 DataFlex 的配置文件繼續沿用了 LLaMA-Factory 的基于 YAML 的格式，用于指定模型、數據集和訓練超參數。

唯一新增的是一個簡短的 dataflex 配置段，用于告訴框架要采用哪種數據中心策略，以及如何對其進行調度。

使用方式

DataFlex 完全兼容 LlamaFactory 的配置和使用方式：

配置兼容：在 LlamaFactory 配置基礎上添加 DataFlex 參數；
命令一致：使用 dataflex-cli 替代 llamafactory-cli；
功能保持：支持所有 LlamaFactory 的原有功能；
無縫切換：可以通過 train_type: static 回退到原始訓練模式。

環境配置、參數說明以及自定義組件接入方式，可進一步參考官方文檔。除此之外，我們還提供了兩期視頻教程，分別演示了動態數據混合與動態數據選擇的具體操作流程，便于初次上手的用戶快速理解。

官方文檔：https://opendcai.github.io/DataFlex-Doc/
Github 倉庫：https://github.com/OpenDCAI/DataFlex
視頻教程：

- 自動數據選擇與動態訓練：https://b23.tv/BV1pHrKBoE6s

- 自動優化數據配比：https://b23.tv/LYYx1hG

實驗效果

為了驗證 DataFlex 的有效性，團隊圍繞樣本選擇、數據混合和系統效率三方面進行了系統實驗，覆蓋 7 種數據選擇、2 種數據混合和 1 種數據重加權方法。整體結果表明，DataFlex 不僅能夠統一復現不同數據中心方法，還能在模型效果和訓練效率上帶來穩定提升。

數據選擇與樣本加權：動態方法整體優于靜態訓練

在 Open-Hermes-2.5 子集上的實驗顯示，無論是在 Mistral-7B 還是 Llama-3.2-3B 上，大多數動態數據中心方法都優于靜態全量訓練基線。這表明在模型容量有限的情況下，能夠實時感知模型狀態的動態選擇策略對于達到性能上限至關重要。

3.2 數據混合：動態配比優于默認配比

在 SlimPajama 的 6B 和 30B 設置下，DoReMi 和 ODM 兩種數據混合算法都表現出了明顯優勢。在 6B token 規模下，動態數據混合方法已經展現出明顯優勢：ODM 在通用能力評測中的準確率高于默認靜態配比，而 DoReMi 則在整體困惑度上進一步取得更優結果，說明動態調整不同數據域的配比，確實能夠帶來更好的訓練收益。

系統效率：統一框架不僅易用，而且高效

除了效果提升，DataFlex 在效率上也有不錯表現。以 LESS 為例，在單卡設置下，DataFlex 在多個采樣比例上都實現了更低訓練耗時，例如在 1.0 比例下，訓練時間從 30,239 秒降到 28,734 秒，同時準確率從 40.38% 提升到 42.37%。進一步在 8 張 H20 GPU 上，訓練時間減少了 57.13%。

對于 TSDS 這類離線選擇方法，DataFlex 的重實現也在不同數據規模下取得了穩定的 1%—3.5% 提速。

構筑 AI 時代的數據生態

當大模型技術演進跨越了架構探索的初級階段，行業的角逐核心已躍遷至「數據應用」的深水區。

團隊（PKU-DCAI）致力于在 Data-Centric AI（以數據為中心的 AI）浪潮中，構筑支撐下一代 AI 應用的數據基礎設施。本次開源的 DataFlex 與團隊另一核心工作 DataFlow（3k+ Stars），共同為 AI 時代的數據應用確立了從源頭到閉環的全新范式。

Github 倉庫：

https://github.com/OpenDCAI/DataFlow
https://github.com/OpenDCAI/DataFlex

面向 AI 時代海量且混沌的真實世界信息，DataFlow 的使命是打造「高智力密度」的數據提煉工場。承接 DataFlow 提煉的高階數據，DataFlex 真正將「數據應用」的觸角深入到了模型訓練的原子層。它不僅是在加速模型的收斂，更是在系統層面控制模型的泛化能力與知識吸收軌跡，確保數據的潛在價值被極致地變現為 AI 的頂尖實戰能力。

作者信息

作者是來自北京大學的 DCAI 團隊，深耕于 AI 數據側的底層革新與系統落地，擁有該領域最前沿的算法儲備與工程經驗。

梁昊：北京大學大數據科學研究中心博士，開源項目 DataFlow leader，第一作者 / 共同第一作者發表 9 篇 CCF-A 論文。

趙正陽：北京大學大數據科學研究中心博士，開源項目 DataFlow 核心開發者，元樞智匯高級算法研究員。

強美伊：北京大學軟件與微電子學院碩士，開源項目 DataFlow 核心開發者，發表期刊 / CCF-A 論文 7 篇。

大家堅信，大模型競爭的終點不在于單一算法的博弈，而在于構建一套統一、高效、且可復現的數據中心化基礎設施。

開源只是起點，生態需要共建。歡迎學術界與工業界的同仁關注、使用 OpenDCAI 系列開源項目，并與團隊進行深度的技術探討。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.