![]()
新智元報道
編輯:LRST
【新智元導讀】當算力受限、數據參差,如何訓練出高效可用的端側模型?鵬城實驗室聯合清華不僅給出了答案,更將每一步都開源共享。
如果實驗室只有國產算力、有限資源與開源數據,能否玩轉端側模型的預訓練?
鵬城實驗室與清華大學PACMAN實驗室聯合發布了鵬城腦海?2.1?開元?2B(PCMind?2.1?Kaiyuan?2B,簡稱開元?2B)模型,并以全流程開源的方式回應了這一挑戰——從訓練數據、數據處理框架、訓練框架、完整技術報告到最終模型權重,全部開源。
![]()
模型鏈接:https://huggingface.co/thu-pacman/PCMind-2.1-Kaiyuan-2B
數據集:https://huggingface.co/datasets/thu-pacman/PCMind-2.1-Kaiyuan-2B
技術報告:https://arxiv.org/abs/2512.07612
數據處理框架:https://github.com/thu-pacman/Kaiyuan-Spark
訓練框架:https://github.com/thu-pacman/kaiyuan-mindformers
![]()
此次開源不僅為國內研究者提供了一條可復現、可迭代的技術路徑,也展現了在國產計算平臺上實現高效、穩定預訓練的完整解決方案。
開元?2B的訓練依托鵬城腦海 2計算平臺,數據處理基于華為鯤鵬920,訓練系統基于華為昇騰 910A。
由于昇騰910A僅支持FP16精度(類似于NVIDIA V100),訓練穩定性成為首要挑戰。
為此,研究團隊在 Qwen3?1.7B 的架構基礎上,引入了三明治范數(Sandwich Norm)與軟裁剪(Soft Clipping)兩項關鍵技術。
三明治范數:在Transformer每層前后保留歸一化層,有效控制梯度傳播中的數值范圍
軟裁剪:通過對輸出logits應用tanh非線性變換,將數值穩定在合理區間內,防止訓練發散
![]()
![]()
![]()
加上三明治范數和軟裁剪前后的數值穩定性對比
這些技術不僅使訓練在FP16環境下保持穩定,也為后續國產平臺上的大規模訓練提供了重要參考。
開源數據
去重、評價與高效利用
當前開源預訓練數據規模已達TB級別,來源多樣、質量不均,如何從中篩選出高質量部分并制定混合策略,是訓練優質模型的基礎。
開元?2B面對兩個核心問題:
如何從海量數據中篩選高質量子集?
如何在不同數據集之間建立統一的質量評價標準?
全局去重的高效實現:Kaiyuan?Spark框架
研究團隊開發了Kaiyuan?Spark數據處理框架,采用樹狀流水線設計,全程YAML配置管理,易于復現與擴展。
結合諸葛弩計算框架進行本地加速,在 MinHash 去重任務中實現端到端2.5倍的加速比,高效完成TB級數據的全局模糊去重。
分位標定(Quantile Benchmarking)
為解決數據集之間質量標簽不可比的問題,團隊提出分位標定:通過設計小規模探針實驗,構建數據質量分數與下游任務表現之間的映射關系。
![]()
分位標定流程示意圖
具體做法為:從不同數據集中按質量分位數抽取多個子集,然后使用小規模模型進行訓練測試,最后根據下游任務表現反向標定各數據集的質量區間。
該方法成本低、可遷移,為后續大規模訓練的數據配比提供了科學依據。
關鍵發現
基于分位標定,團隊得出若干有趣發現:
數據集的優勢與任務類型相關
Fineweb?Edu在知識問答與閱讀理解類任務上表現更好,DCLM?Baseline 在常識推理類任務中略有優勢。
![]()
DCLM Baseline和Fineweb-Edu在MMLU和WinoGrande上的分位標定結果
同一數據集內部質量差異巨大
最高與最低質量數據在ARC?Easy上的表現相差可達8%?15%
![]()
DCLM Baseline和Fineweb-Edu在ARC-Easy上的分位標定結果
可以看到,高質量數據占比雖小,卻是提升模型能力的關鍵。
數據利用策略
動態調整與課程學習
針對數據分布不均的問題,開元?2B提出三個策略。
多階段動態比例調整
隨著訓練推進,逐步提升數學、代碼、中文等領域數據的比例,緩解模型遺忘,使關鍵領域在訓練后期得到充分學習。
![]()
多階段調整數據比例
策略性數據重復
![]()
小規模實驗表明,對高質量數據進行適度重復訓練,效果優于單輪訓練。開元?2B在訓練后期逐步提高高質量數據的重復比例。
以Fineweb-Edu為例:Top 10%的高質量數據在整個訓練過程中出現多次,中低質量數據僅出現一次,從而優化數據效用分布。
![]()
Fineweb-Edu在多階段訓練中采樣比例變化
多領域混合課程學習
研究團隊提出Curriculum Decay Model Average,在課程學習的基礎上引入權重平均,緩解訓練噪聲,提升收斂穩定性。
![]()
論文鏈接:https://arxiv.org/abs/2511.18903
該方法通過領域內質量排序與領域間比例均衡的結合,實現多領域數據的漸進式學習。
![]()
學習率衰減會影響課程學習效果
![]()
不同學習率衰減條件下,最優的課程學習+權重平均配置(Ascend+EMA)要強于最優的常見做法(Uniform+WSD)
![]()
多領域課程的實現
配合精心設計的學習率調度方案,模型在高質量數據上得以充分學習,最終在多類評測中接近千問系列(僅開源權重)的模型表現。
全流程開源
推動國產AI生態共建
開元?2B不僅是一次端側模型訓練的實踐,更是一次全棧開源、全流程透明的技術示范。
從數據處理框架Kaiyuan?Spark、訓練數據集,到數據評價體系、課程學習策略,所有環節均公開可復現。訓練中涉及的所有原始數據集均具有寬松的開源協議(如CC、Apache、MIT、ODC等,詳細列表技術報告附錄B),個人、院校、企業均可自由使用,進一步提升了訓練的可復現性。
注:目前部分聲稱「開放」的公開數據集,事實上本身并非使用自由許可證授權,或者間接混入了帶有非自由許可證的原始數據;另有大量的公開數據集,對來源數據的許可證未加任何篩選或說明。在模型訓練中使用此類數據集并發布或使用,都可能帶來潛在的法律合規風險。
這為國內研究者在國產算力平臺上開展模型預訓練提供了完整工具箱,也為構建開放、協作的 AI 研發生態邁出堅實一步。
模型權重、技術報告與相關代碼已在官方平臺發布,歡迎開發者、研究者共同參與測試、改進與拓展。
結語
真正的技術進步源自開放的協作與共享,開元?2B是一個起點,未來與社區一起,在國產算力的土壤上,生長出更多創新的AI成果,從開元系列,開啟國產算力訓練的「開元盛世」。
附錄
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
左右滑動查看
參考資料:
秒追ASI
?點贊、轉發、在看一鍵三連?
點亮星標,鎖定新智元極速推送!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.