![]()
今年3月,鴻海研究院披露了自家大型語言模型FoxBrain,后來在Nvidia GTC大會中進(jìn)一步說明技術(shù)亮點,包括在預(yù)訓(xùn)練階段用LLM來過濾原始數(shù)據(jù)并分類、結(jié)合LLM和COSTAR框架來產(chǎn)出品質(zhì)更好的訓(xùn)練數(shù)據(jù),以及在后訓(xùn)練階段用LLM生成更多訓(xùn)練數(shù)據(jù)。甚至,他們也用LLM生成正確的推理過程,來強(qiáng)化FoxBrain推理能力,同時也用AI反饋強(qiáng)化學(xué)習(xí)(RLAIF)方法,來以AI為裁判,判斷FoxBrain產(chǎn)出的答案品質(zhì),用比人工更快的方式教導(dǎo)模型對齊人類價值觀。
亮點1:用LLM過濾原始數(shù)據(jù)
這個FoxBrain是以Llama 3.1 70B模型為基礎(chǔ),以120張H100 GPU、花4周訓(xùn)練而成,不只繁中能力超越Llama-3-Taiwan-70B,還具備良好的數(shù)學(xué)和邏輯推理能力,可執(zhí)行數(shù)據(jù)分析、決策輔助、文書協(xié)作和程序代碼生成等任務(wù)。
FoxBrain的技術(shù)亮點之一,是用LLM來過濾原始數(shù)據(jù)和分類。鴻海研究院技術(shù)負(fù)責(zé)人Van Nhiem Tran在Nvidia GTC大會中指出,F(xiàn)oxBrain模型訓(xùn)練可分為連續(xù)預(yù)訓(xùn)練(Continual pretraining)和后訓(xùn)練(Post-training)階段,在預(yù)訓(xùn)練階段,模型需要龐大訓(xùn)練數(shù)據(jù),因此團(tuán)隊從開源數(shù)據(jù)集、外部數(shù)據(jù)(如arXiv、PubMed、新聞媒體等)和內(nèi)部數(shù)據(jù)來收集訓(xùn)練數(shù)據(jù),同時根據(jù)期望模型具備的領(lǐng)域知識,來決定數(shù)據(jù)范圍,比如中英文數(shù)學(xué)和程序能力、臺灣和世界金融知識、鴻海知識、高端推理能力等。
收集這些數(shù)據(jù)后,很重要的一步是數(shù)據(jù)過濾,篩選出可用的訓(xùn)練數(shù)據(jù)并分類。在這個階段,鴻海將收集到的141.13B Token原始數(shù)據(jù)(即1,413億個Token),先經(jīng)過一系列范式初始處理,再通過LLM進(jìn)行品質(zhì)過濾、篩掉一部分原始數(shù)據(jù),再由另一個LLM進(jìn)行領(lǐng)域分類,篩除7.33%的重復(fù)性數(shù)據(jù),最后產(chǎn)出不同子集的訓(xùn)練數(shù)據(jù)集,共97.71B Token。(如下圖)
![]()
但如何用LLM過濾數(shù)據(jù)?Van Nhiem Tran解釋,他們設(shè)計了數(shù)據(jù)品質(zhì)評分標(biāo)準(zhǔn)與一套評分用的提示指令,當(dāng)LLM接收一筆數(shù)據(jù)后,會根據(jù)這套提示對原始數(shù)據(jù)評分。一旦超過規(guī)定分?jǐn)?shù),這筆數(shù)據(jù)就會被保留,再由另一個LLM歸類這筆數(shù)據(jù),比如科學(xué)、財經(jīng)等。有別于常見的重復(fù)性過濾,這個方法更能理解數(shù)據(jù)的語義表現(xiàn),更能篩選出高品質(zhì)數(shù)據(jù)。(如下圖)
![]()
![]()
亮點2:用LLM強(qiáng)化訓(xùn)練數(shù)據(jù)品質(zhì)
另一個技術(shù)亮點是用LLM來進(jìn)行數(shù)據(jù)增強(qiáng)。這一步是在數(shù)據(jù)過濾和分類后,通過LLM來改寫這些數(shù)據(jù),讓數(shù)據(jù)變得更有結(jié)構(gòu)、文意更清楚易懂,且包含更多觀點。
要改寫數(shù)據(jù),還需要一套統(tǒng)一的標(biāo)準(zhǔn)。于是,團(tuán)隊先用COSTAR框架來設(shè)計提示,讓LLM根據(jù)提示要求,改寫數(shù)據(jù)(補(bǔ)充說明:COSTAR是常見的提示詞寫作框架,包含背景資訊Context、具體目標(biāo)Objective、寫作風(fēng)格Style、語氣Tone、受眾Audience和回復(fù)格式Response,但鴻海團(tuán)隊將其用來設(shè)計改寫提示)。比如,產(chǎn)生一份關(guān)于計算機(jī)和電子產(chǎn)品的網(wǎng)頁內(nèi)容(對應(yīng)C)、給高中生閱讀(對應(yīng)O)且簡單易懂的版本(對應(yīng)S)。(如下圖)
![]()
有了提示標(biāo)準(zhǔn),團(tuán)隊再來要找出各類別最適合改寫的LLM,而非用一套LLM改寫所有類別的數(shù)據(jù)。因此,他們根據(jù)數(shù)據(jù)過濾和分類后產(chǎn)生的類別,分別找出各類別代表性數(shù)據(jù),再用幾個小型LLM來改寫這些數(shù)據(jù)。接著,他們用一套LLM作為評審,來評估這些改寫后的數(shù)據(jù)分?jǐn)?shù),進(jìn)而找出哪個LLM最適合改寫哪個類別。(如下圖)
![]()
他們評估小型LLM表現(xiàn)的指標(biāo)有幾個,比如文意清晰度、初衷保留度、深度、描述性、觀點多樣性等等。他們評估的模型有Qwen 2.0、Llama 3.0與3.1、Gemma 2和DeepSeek-V2等,也成功找出各類別最適合用來改寫/增強(qiáng)的模型,比如Gemma 2最適合用來強(qiáng)化科學(xué)類數(shù)據(jù)。(如下圖)
![]()
有了這些資訊,他們就構(gòu)建一套工作流程,來根據(jù)篩選后的數(shù)據(jù)類別,以最擅長該類別的LLM來改寫,進(jìn)而提高訓(xùn)練數(shù)據(jù)品質(zhì)。
亮點3:用LLM生成更多訓(xùn)練數(shù)據(jù)
上述的數(shù)據(jù)過濾分類和數(shù)據(jù)增強(qiáng),都是為預(yù)訓(xùn)練數(shù)據(jù)的準(zhǔn)備。預(yù)訓(xùn)練之后是后訓(xùn)練階段,有別于預(yù)訓(xùn)練需要大量數(shù)據(jù),后訓(xùn)練聚焦模型特定領(lǐng)域能力,通過相對少量的數(shù)據(jù)來微調(diào)。
在這個階段,團(tuán)隊也用不少AI輔助方法,其一是用LLM生成數(shù)據(jù)。他們先用模型生成問題,再用其他LLM來回答問題,產(chǎn)出各自的答案。這時,還會有套LLM根據(jù)規(guī)則來評分這些答案并分類,最后,這些問題-答案組就會納入后訓(xùn)練數(shù)據(jù)集。(如下圖)
![]()
亮點4:用AI輔助模型訓(xùn)練
同樣是在后訓(xùn)練階段,團(tuán)隊還有些特別的技術(shù),來微調(diào)模型。
其中一種方法是Adaptive Reasoning Reflection(ARRT),來讓模型學(xué)習(xí)自主推理。鴻海研究所AI所長栗永徽說明,這個方法需要團(tuán)隊準(zhǔn)備許多問題及相對應(yīng)的答案,而且,這些答案不只有最后的解答,還有中間的推理過程。為節(jié)省推理過程數(shù)據(jù)收集的時間,鴻海團(tuán)隊用AI大模型,來針對各種問題,產(chǎn)出正確的推理過程。(如下圖)
![]()
同時,為確保模型不會一直無限制推理、消耗太多Token,鴻海團(tuán)隊還設(shè)計一種方法,來讓模型學(xué)習(xí),如何根據(jù)題目難易度來自動決定推理所需的Token量,以此作為限制條件,也就是Adaptive的意思。
栗永徽點出,經(jīng)ARRT訓(xùn)練的FoxBrain模型變得聰明許多,與DeepSeek相比,有些簡單問題, DeepSeek可能會一直思考才給答案,但FoxBrain對難的問題會多思考,對簡單的問題則思考快一些,在適當(dāng)?shù)臅r間內(nèi)產(chǎn)出正確答案。
除了ARRT,團(tuán)隊還用了AI反饋的強(qiáng)化學(xué)習(xí)方法(RLAIF)來進(jìn)行后訓(xùn)練,也就是以AI作為裁判,來在模型產(chǎn)出回答后,判斷回答好不好,進(jìn)而教導(dǎo)模型對齊人類偏好的答案,大幅提高效率。(如下圖)
![]()
最后,為了讓FoxBrain更貼近實用場景、能在計算資源有限的設(shè)備上執(zhí)行,鴻海團(tuán)隊還使用壓縮技術(shù),比如剪枝、參數(shù)或權(quán)重稀疏(Sparsity)、量化等方法,來減少模型所需的內(nèi)存和計算資源,兼顧速度和模型表現(xiàn)。
以上圖片來源/鴻海研究院
#大數(shù)據(jù)# #鴻海# #人工智能#
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.