<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      北大聯合Llama-Factory推出DataFlex:工業級數據動態訓練系統

      0
      分享至



      當大模型訓練進入深水區,競爭的關鍵已經不再只是「模型參數怎么調」,而逐漸轉向一個更核心、也更難系統解決的問題:模型在訓練過程中究竟看到了什么數據、以什么比例看到、哪些樣本應該被更頻繁地學習。

      這些因素正在越來越直接地決定訓練效率、泛化能力以及最終模型性能。

      圍繞數據選擇、數據混合和樣本重加權,學術界已經提出了不少方法。但長期以來,這些方法大多分散在彼此獨立的代碼倉庫中:接口不統一、訓練流程不一致、復現門檻高、橫向比較困難。

      更重要的是,很多方法依賴 embedding、模型打分、梯度或中間推理信號,真正難的從來不是「提出一個方法」,而是把這些方法穩定、可復現地接入主流訓練流程,并納入一套統一的訓練閉環。

      近日,北京大學張文濤教授、鄂維南院士團隊,聯合 LLaMA-Factory Team、OpenDataLab、上海 AI Lab 等機構,推出了面向大模型訓練過程的數據中心動態訓練框架 DataFlex。

      它并不是單一算法或若干腳本的簡單堆疊,而是一套建立在 LLaMA-Factory 之上的統一訓練基礎設施:將動態樣本選擇、動態數據混合、動態樣本加權三類核心能力真正納入訓練過程,使「數據如何參與訓練」從經驗式配置,升級為可控制、可優化、可復現的系統能力。

      換句話說,DataFlex 試圖解決的,并不只是某一個訓練技巧是否有效,而是一個更底層的系統問題:如何讓數據像模型參數一樣,成為訓練過程中可以持續調度和優化的核心對象。

      這使它既可以作為研究平臺,用于系統比較不同數據中心訓練算法;也可以作為實用系統,直接服務于大模型預訓練、后訓練和領域適配等場景。

      DataFlex 發布后,在 Hugging Face Daily Papers 榜單中迅速獲得廣泛關注并拿到了月榜第一。這種關注背后所反映的,本質上是社區對「數據中心動態訓練」從理論走向工程閉環的里程碑式認可。





      DataFlex 不只是一個算法倉庫,而是一套數據中心訓練基礎設施

      • 可復現的研究平臺:在統一訓練框架下系統比較動態數據混合、樣本選擇和樣本加權等數據中心訓練方法,覆蓋在線與離線場景,顯著降低研究復現與方法對比成本;
      • 面向真實訓練的優化系統:將數據選擇、數據配比和樣本權重調節真正接入訓練閉環,使數據從「靜態輸入」變成「可持續調度的優化對象」,從而提升訓練效率與最終模型效果。

      • 技術報告:https://arxiv.org/abs/2603.26164
      • 官方文檔:https://opendcai.github.io/DataFlex-Doc/
      • Github 倉庫:https://github.com/OpenDCAI/DataFlex

      DataFlex:大模型工業化數據調用的最后一塊拼圖

      設計哲學:告別靜態投喂,把「數據調度」變成開箱即用的系統能力



      1.核心概念:Data-Centric Dynamic Training System

      DataFlex 的核心,不僅僅是再發一遍「數據很重要」的老生常談,而是直擊行業的最痛點:如何把「模型看什么數據、按什么比例看、優先強化哪些樣本」這種玄學經驗,真正固化為可配置、可調度、可復現的標準化系統能力。它不僅僅關注參數的梯度更新,更死死盯住了數據在每一步訓練中的真實參與度。

      1.1從「填鴨式靜態輸入」到「數據主動調度」

      傳統的大模型訓練中,數據往往被視為預先準備好的靜態輸入:數據集先確定,采樣方式先寫死,訓練過程中主要被持續優化的是模型參數本身。但當訓練數據規模越來越大、來源越來越復雜時,真正決定效果的,已經不只是「有沒有更多數據」,而是「訓練時能否更聰明地使用數據」。

      Data-centric dynamic training 的核心思想,是把數據從「被動輸入」提升為「主動調度對象」。系統不僅要決定模型看哪些數據,還要動態決定不同數據源如何配比、哪些樣本應被優先學習、哪些樣本應被降低權重。

      DataFlex 的價值,正是在于把這種原本零散、分散在不同方法和代碼中的能力,推進為統一、標準化的訓練機制。

      1.2零成本遷移的統一框架

      好的系統不應成為開發者的負擔。在動態調度之外,DataFlex 更進一步解決的是系統層問題:如何把原本分散的數據選擇、數據配比和數據重加權方法,統一納入同一套訓練基礎設施。

      一方面,DataFlex 建立在 LLaMA-Factory 之上,盡量復用已有的模型管理、數據處理和訓練組件;另一方面,它在訓練層引入統一的數據中心控制能力,使不同數據策略能夠在同一個訓練閉環中被實現、比較和擴展。

      因此,DataFlex 不是若干數據算法的簡單集合,而是一套面向大模型訓練過程的統一數據中心動態訓練系統。

      2.三個設計原則

      • 統一性:系統將數據中心訓練中的三個代表性范式統一納入了同一訓練框架;
      • 兼容性:系統能夠融入現有的大規模模型訓練基礎設施,而不是額外引入一套工作流;
      • 可擴展性:研究者可以以較低的工程成本實現并比較新的數據中心算法。

      整體架構



      DataFlex 延續了 LLaMA-Factory 易用、清晰的設計思路,但在整體架構上做了關鍵升級。其在不破壞現有訓練生態的前提下,把數據中心訓練真正做成了一套統一、可擴展、可復現、可落地的系統能力。整個系統大致可以分為三層:

      • 基礎層(Base Layer):這一層繼承自 LLaMA-Factory,負責模型管理、數據處理、優化器等通用訓練能力。系統在盡量保持原有訓練流程與使用習慣的同時,把擴展重點集中在數據中心訓練本身,降低了用戶從現有訓練流程遷移到 DataFlex 的門檻。
      • 訓練器層(Trainer Layer):它沒有沿用單一的原始 trainer,而是將訓練過程抽象為三種數據中心訓練模式,分別對應數據選擇、數據混合和樣本加權。這一層把訓練器從只負責參數更新,擴展為同時負責數據決策與參數優化。
      • 策略組件層(Component Layer):這里掛載的是具體算法組件,例如不同的 selector、mixer 和 weighter。它們各自封裝了不同方法的策略邏輯,并對訓練器暴露了統一接口。

      這種架構實現了輕量替換,而不是重構一切。DataFlex 并沒有在 LLaMA-Factory 外面再包一個復雜編排系統,而是聚焦于替換訓練層,并僅在需要時對數據加載等模塊做最小擴展。

      對用戶來說,這接近一種「即插即用」的增強:已有的模型、數據集、訓練參數配置都可以保留,只需要增加 DataFlex 相關配置,就能切換到以數據為中心的動態訓練模式。

      此外,DataFlex 還統一封裝了數據中心方法普遍依賴的模型中間信號,比如 embedding 提取、模型推理、梯度計算等。很多數據選擇和數據加權方法真正難落地,不是因為思想復雜,而是因為它們依賴的中間信號獲取成本高、工程耦合重。DataFlex 把這類共享能力抽象出來,降低了實現和擴展門檻,也為后續大規模訓練提供了基礎。

      核心功能

      1.三個核心訓練器

      對應當前數據中心訓練中典型的三種優化方向,DataFlex 支持三類核心訓練器:

      • 動態樣本選擇訓練器(Dynamic Select Trainer):在訓練過程中動態篩選更有價值的訓練樣本,減少低價值或冗余樣本對訓練預算的消耗,從而提升訓練效率。
      • 動態數據混合訓練器(Dynamic Mix Trainer):面向多來源、多領域訓練數據場景,在訓練過程中動態調整不同數據源的采樣比例,使模型能夠根據當前學習狀態更合理地分配訓練注意力。
      • 動態樣本加權訓練器(Dynamic Weight Trainer):針對不同樣本賦予不同訓練權重,使模型能夠對更關鍵、更困難或更具代表性的樣本進行更有效學習,從而改善模型性能與泛化能力。

      2.算法集成與可擴展性

      DataFlex 為三類訓練器集成了 LESS、DoReMi、ODM、Loss Reweighting 等代表性方法。所有方法都以可插拔組件的形式,在統一接口下實現,從而能夠在受控條件下進行公平比較。

      科研上許多極具代表性的動態訓練方法,要么缺乏官方倉庫,要么其官方實現存在難以復現的問題。DataFlex 通過系統化的重構,讓這些處于「失聯」或「半停滯」狀態的算法重新具備了工業級生產力。



      三類訓練器分工不同,但背后遵循的是同一種數據 — 模型交互邏輯:先觀察當前模型狀態,再給出新的數據決策,隨后把這一決策反饋到后續訓練中。

      DataFlex 正是把這種共性的交互模式抽象成統一接口,從而讓不同算法能夠共享訓練流程、基礎能力以及擴展方式。 DataFlex 的配置文件繼續沿用了 LLaMA-Factory 的基于 YAML 的格式,用于指定模型、數據集和訓練超參數。

      唯一新增的是一個簡短的 dataflex 配置段,用于告訴框架要采用哪種數據中心策略,以及如何對其進行調度。



      使用方式

      DataFlex 完全兼容 LlamaFactory 的配置和使用方式:

      • 配置兼容:在 LlamaFactory 配置基礎上添加 DataFlex 參數;
      • 命令一致:使用 dataflex-cli 替代 llamafactory-cli;
      • 功能保持:支持所有 LlamaFactory 的原有功能;
      • 無縫切換:可以通過 train_type: static 回退到原始訓練模式。

      環境配置、參數說明以及自定義組件接入方式,可進一步參考官方文檔。除此之外,我們還提供了兩期視頻教程,分別演示了動態數據混合與動態數據選擇的具體操作流程,便于初次上手的用戶快速理解。

      • 官方文檔:https://opendcai.github.io/DataFlex-Doc/
      • Github 倉庫:https://github.com/OpenDCAI/DataFlex
      • 視頻教程:

      - 自動數據選擇與動態訓練:https://b23.tv/BV1pHrKBoE6s

      - 自動優化數據配比:https://b23.tv/LYYx1hG

      實驗效果

      為了驗證 DataFlex 的有效性,團隊圍繞樣本選擇、數據混合和系統效率三方面進行了系統實驗,覆蓋 7 種數據選擇、2 種數據混合和 1 種數據重加權方法。整體結果表明,DataFlex 不僅能夠統一復現不同數據中心方法,還能在模型效果和訓練效率上帶來穩定提升。

      數據選擇與樣本加權:動態方法整體優于靜態訓練



      在 Open-Hermes-2.5 子集上的實驗顯示,無論是在 Mistral-7B 還是 Llama-3.2-3B 上,大多數動態數據中心方法都優于靜態全量訓練基線。這表明在模型容量有限的情況下,能夠實時感知模型狀態的動態選擇策略對于達到性能上限至關重要 。

      3.2 數據混合:動態配比優于默認配比



      在 SlimPajama 的 6B 和 30B 設置下,DoReMi 和 ODM 兩種數據混合算法都表現出了明顯優勢。在 6B token 規模下,動態數據混合方法已經展現出明顯優勢:ODM 在通用能力評測中的準確率高于默認靜態配比,而 DoReMi 則在整體困惑度上進一步取得更優結果,說明動態調整不同數據域的配比,確實能夠帶來更好的訓練收益。

      系統效率:統一框架不僅易用,而且高效



      除了效果提升,DataFlex 在效率上也有不錯表現。以 LESS 為例,在單卡設置下,DataFlex 在多個采樣比例上都實現了更低訓練耗時,例如在 1.0 比例下,訓練時間從 30,239 秒降到 28,734 秒,同時準確率從 40.38% 提升到 42.37%。進一步在 8 張 H20 GPU 上,訓練時間減少了 57.13%。



      對于 TSDS 這類離線選擇方法,DataFlex 的重實現也在不同數據規模下取得了穩定的 1%—3.5% 提速。

      構筑 AI 時代的數據生態

      當大模型技術演進跨越了架構探索的初級階段,行業的角逐核心已躍遷至「數據應用」的深水區。

      團隊(PKU-DCAI)致力于在 Data-Centric AI(以數據為中心的 AI)浪潮中,構筑支撐下一代 AI 應用的數據基礎設施。本次開源的 DataFlex 與團隊另一核心工作 DataFlow(3k+ Stars),共同為 AI 時代的數據應用確立了從源頭到閉環的全新范式。

      Github 倉庫:

      • https://github.com/OpenDCAI/DataFlow
      • https://github.com/OpenDCAI/DataFlex

      面向 AI 時代海量且混沌的真實世界信息,DataFlow 的使命是打造「高智力密度」的數據提煉工場。承接 DataFlow 提煉的高階數據,DataFlex 真正將「數據應用」的觸角深入到了模型訓練的原子層。它不僅是在加速模型的收斂,更是在系統層面控制模型的泛化能力與知識吸收軌跡,確保數據的潛在價值被極致地變現為 AI 的頂尖實戰能力。



      作者信息

      作者是來自北京大學的 DCAI 團隊,深耕于 AI 數據側的底層革新與系統落地,擁有該領域最前沿的算法儲備與工程經驗。

      梁昊:北京大學大數據科學研究中心博士,開源項目 DataFlow leader,第一作者 / 共同第一作者發表 9 篇 CCF-A 論文。

      趙正陽:北京大學大數據科學研究中心博士,開源項目 DataFlow 核心開發者,元樞智匯高級算法研究員。

      強美伊:北京大學軟件與微電子學院碩士,開源項目 DataFlow 核心開發者,發表期刊 / CCF-A 論文 7 篇。

      大家堅信,大模型競爭的終點不在于單一算法的博弈,而在于構建一套統一、高效、且可復現的數據中心化基礎設施。

      開源只是起點,生態需要共建。歡迎學術界與工業界的同仁關注、使用 OpenDCAI 系列開源項目,并與團隊進行深度的技術探討。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      簽1億合同才能看演出?恒大歌舞團女團長:感恩許家印 但我沒違規

      簽1億合同才能看演出?恒大歌舞團女團長:感恩許家印 但我沒違規

      念洲
      2026-04-17 17:15:25
      31分大勝,東部第八出爐!班凱羅25+5+6,鮑爾單節21分難救主

      31分大勝,東部第八出爐!班凱羅25+5+6,鮑爾單節21分難救主

      擔酒
      2026-04-18 10:28:11
      拔蘿卜帶泥!逃往美國的恒大“二把手”,鄰居卻是另一名潛逃富豪

      拔蘿卜帶泥!逃往美國的恒大“二把手”,鄰居卻是另一名潛逃富豪

      二大爺觀世界
      2026-03-14 18:43:53
      粟裕包圍胡璉主力,毛主席急電:快撤,這是陷阱!粟裕大贊高明

      粟裕包圍胡璉主力,毛主席急電:快撤,這是陷阱!粟裕大贊高明

      史之銘
      2026-04-18 03:28:33
      暴力對抗執法,拼多多被監管重罰15.2億,法定代表人領罰700萬

      暴力對抗執法,拼多多被監管重罰15.2億,法定代表人領罰700萬

      新商業派
      2026-04-17 22:51:46
      加州財富稅將引發大量始料未及的后果

      加州財富稅將引發大量始料未及的后果

      新浪財經
      2026-04-17 22:20:33
      巴西選美皇后曬豪車、游艇炫富,竟是為販毒集團洗錢,其丈夫就是該集團首領;警方已扣押20輛豪車

      巴西選美皇后曬豪車、游艇炫富,竟是為販毒集團洗錢,其丈夫就是該集團首領;警方已扣押20輛豪車

      大象新聞
      2026-04-17 22:47:03
      狀元輸給四號秀,憑啥?謎底終揭曉!

      狀元輸給四號秀,憑啥?謎底終揭曉!

      茅塞盾開本尊
      2026-04-17 12:37:55
      世界第一為何不如第二受歡迎?

      世界第一為何不如第二受歡迎?

      體育硬核說
      2026-04-17 09:27:23
      離開癱瘓前夫后,她嫁大8歲富豪,如今女兒13歲,和前夫處成親人

      離開癱瘓前夫后,她嫁大8歲富豪,如今女兒13歲,和前夫處成親人

      素衣讀史
      2026-04-15 21:17:53
      接受不了現實,俄羅斯曾一口咬定,中國新飛機根本不是六代機

      接受不了現實,俄羅斯曾一口咬定,中國新飛機根本不是六代機

      幾人盡棄
      2026-04-17 21:12:55
      58噸援助抵達,伊朗總統感謝中國,不到24小時,美國發起經濟攻勢

      58噸援助抵達,伊朗總統感謝中國,不到24小時,美國發起經濟攻勢

      古史青云啊
      2026-04-18 09:40:02
      中山美女院長:計生用品不離身,私生活糜爛,因一則匿名帖落馬

      中山美女院長:計生用品不離身,私生活糜爛,因一則匿名帖落馬

      就一點
      2026-04-16 20:51:43
      最新好感度排名蔣萬安大幅領先,臺名嘴:賴清德最該擔心的就是他

      最新好感度排名蔣萬安大幅領先,臺名嘴:賴清德最該擔心的就是他

      海峽導報社
      2026-04-17 10:12:08
      藥店將“舒筋活血片”發成“頸康膠囊”,15歲男孩服用后疑造成肝功能損傷,店員:不小心裝錯藥,三亞市監局介入調查

      藥店將“舒筋活血片”發成“頸康膠囊”,15歲男孩服用后疑造成肝功能損傷,店員:不小心裝錯藥,三亞市監局介入調查

      大象新聞
      2026-04-17 22:47:06
      徹底反轉!匈牙利新總理玩瘋了,歐盟美國全被耍,中俄笑到最后

      徹底反轉!匈牙利新總理玩瘋了,歐盟美國全被耍,中俄笑到最后

      傲傲講歷史
      2026-04-17 02:30:07
      邱國渭在大陸生活三十年,78年分批將家人遷往美國,盡顯堅韌執著

      邱國渭在大陸生活三十年,78年分批將家人遷往美國,盡顯堅韌執著

      嘮叨說歷史
      2026-04-01 10:40:04
      律師談“診所一個針頭給多人采血”:即便最終未造成實際感染,其行為本身已構成嚴重違法,無論是否實際感染,涉事居民均可起訴維權

      律師談“診所一個針頭給多人采血”:即便最終未造成實際感染,其行為本身已構成嚴重違法,無論是否實際感染,涉事居民均可起訴維權

      瀟湘晨報
      2026-04-17 22:48:09
      廣東迎戰福建,賽前3個好消息和1不利,但重回前4沒有懸念

      廣東迎戰福建,賽前3個好消息和1不利,但重回前4沒有懸念

      郝小小看體育
      2026-04-18 07:42:38
      蘋果2026款Mac Studio前瞻:封頂256GB內存

      蘋果2026款Mac Studio前瞻:封頂256GB內存

      IT之家
      2026-04-18 07:49:49
      2026-04-18 10:59:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12790文章數 142632關注度
      往期回顧 全部

      科技要聞

      傳Meta下月擬裁8000 大舉清退人力為AI騰位

      頭條要聞

      男子吐血搶救后死亡7.5小時用100余支止血針 家屬質疑

      頭條要聞

      男子吐血搶救后死亡7.5小時用100余支止血針 家屬質疑

      體育要聞

      時隔25年重返英超!沒有人再嘲笑他了

      娛樂要聞

      劉德華摯友潘宏彬離世 曾一起租房住

      財經要聞

      "影子萬科"2.0:管理層如何吸血萬物云?

      汽車要聞

      奇瑞威麟R08 PRO正式上市 售價14.48萬元起

      態度原創

      手機
      旅游
      健康
      教育
      軍事航空

      手機要聞

      消息稱蘋果首款折疊iPhone將推深靛藍色,展開最薄處4.7毫米

      旅游要聞

      柳林:文冠果花綻放香嚴寺 古剎春意醉游人

      干細胞抗衰4大誤區,90%的人都中招

      教育要聞

      韓國競賽題:妥妥的送分題,很多學生錯在最后一步

      軍事要聞

      美宣布黎以停火10天 以方稱不會撤軍

      無障礙瀏覽 進入關懷版