DELT團隊 投稿
量子位 | 公眾號 QbitAI
模型訓練重點在于數據的數量與質量?其實還有一個關鍵因素——
數據的出場順序。
對此,微軟亞洲研究院提出了一種全新的文本數據組織范式DELT(Data Efficacy in LM Training),通過引入數據排序策略,充分挖掘訓練數據潛力,在不同模型尺寸與規模下都達到了良好性能。
![]()
△數據效率與效能提升
該方法用優化訓練數據的組織方式來讓語言模型學得更好,還不用增加數據量或擴大模型規模。
來看看是怎么做到的。
訓練樣本的組織順序很關鍵
首先,我們先來理清幾個概念。
在語言模型訓練中,數據使用效率至關重要。現有研究多關注于數據效率(Data Efficiency),即如何通過數據選擇提升模型訓練效率并保持優異性能。
然而,數據效能(Data Efficacy),即如何通過數據組織增強模型訓練表現,卻常常被忽視。
以烹飪為例,數據效率就像在市場挑選新鮮、合適的食材,而數據效能則像名廚把握投放調料的時機與分寸,讓菜品發揮出最佳風味。
數據組織的重要性
為了避免過擬合,當前的大語言模型往往在海量數據上進行訓練,并且訓練的次數非常有限,甚至僅進行一次完整的訓練周期(epoch=1),這與早期模型依賴多次迭代訓練(epoch>>1)截然不同。
這些變化讓數據呈現的先后順序對結果影響巨大。
早期的AI模型類似于讓學生多次反復翻閱同一本書,在多輪學習中慢慢補齊細節;而現在更像只給一遍通讀,不再反復回看。
這就對閱讀順序提出了極高要求,必須精心規劃學習材料出現的先后和結構。因此,訓練樣本的組織順序顯得尤為關鍵。然而,關于這一點的研究卻很少。
基于此觀察,微軟亞洲研究院最新提出的文本數據組織范式DELT,通過引入數據排序策略,充分挖掘訓練數據潛力,實現了數據的高效利用與效能提升。
![]()
DELT范式不但通過數據選擇提升效率,選取高質量數據,加快訓練速度;
而且通過數據排序提升效能,在預訓練和后訓練階段都顯著提升了模型性能,且適用于通用、數學和代碼等多領域任務。
給模型按部就班安排訓練課程
數據訓練效能定義Data Efficacy
研究首先定義了數據訓練效能(Data Efficacy),是指通過優化訓練數據的組織方式來最大化語言模型的性能表現,而無需改變數據內容或模型架構。
與以往關注的“數據訓練效率” (Data Efficiency) 側重數據篩選的研究目的不同,數據效能強調對訓練數據的評分和排序,以充分挖掘數據的潛在價值。
數據順序在語言模型訓練中的潛力尚未被充分挖掘, 數據效能旨在通過合理的數據組織方式,使模型在有限的訓練數據和資源下實現更高的性能和泛化能力,成為提升語言模型性能的一種新興方法。
數據組織范式DELT介紹
![]()
△DELT范式架構
DELT(DataEfficacy inLMTraining)是一種創新的文本數據組織范式。
它集成了數據評分(Data Scoring)、數據選擇(Data Selection) 和數據排序(Data Ordering) 三大核心組件。
數據評分根據特定的屬性為每個樣本賦予分數,如:難度、質量、多樣性等。
數據選擇通過評分篩選出最優子集(如:top-k、按閾值篩選等),然后數據排序根據評分重新組織所選擇數據的呈現順序(如:基于課程學習的分數從低到高排列)。 為了兼顧數據處理效率,DELT范式的數據選擇和數據排序共用數據評分的結果。
因此,數據評分的規則設置非常重要。于是,研究還提出了Learning-Quality Score(LQS)方法。
![]()
△LQS打分方式
該數據評分方式結合了質量和可學習性兩個關鍵指標,不但可以篩選出低質量數據,而且也能捕捉數據在不同階段的訓練價值,進一步提供了可靠的數據排列順序。
為了進一步提升數據效能,團隊還提出了一種全新的折疊排序方法Folding Ordering(FO)。
基于課程學習的排序(即,按分數升序排序)可能導致模型遺忘和數據內部分布偏差。
折疊排序策略通過多層“折疊”,將數據按分數分層并多次采樣,無重復且均衡分布。
![]()
△Folding排序方式
相比隨機打亂或單一排序,它既保留難度排序優勢,又避免模型過度遺忘或依賴特定數據,提升了魯棒性和泛化能力。
與傳統隨機排序方法相比,DELT范式不僅通過減小數據規模提升了訓練效率;而且在不同模型尺寸和數據規模下,在各種評測集上都顯著提升了模型性能。
![]()
△不同數據規模和模型尺寸下的結果
DELT給Data-centric AI領域帶來了全新思路。
看來,類比于人類教學實踐,講究個性化與按部就班地安排學習內容,AI訓練也需要類似的學習方法。
論文鏈接:https://arxiv.org/abs/2506.21545
代碼鏈接:https://github.com/microsoft/DELT
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.