鴻海解析自家大語言模型FoxBrain技術(shù)亮點

2025-04-02 17:22:21　來源: 十輪網(wǎng)

山東舉報

分享至

今年3月，鴻海研究院披露了自家大型語言模型FoxBrain，后來在Nvidia GTC大會中進(jìn)一步說明技術(shù)亮點，包括在預(yù)訓(xùn)練階段用LLM來過濾原始數(shù)據(jù)并分類、結(jié)合LLM和COSTAR框架來產(chǎn)出品質(zhì)更好的訓(xùn)練數(shù)據(jù)，以及在后訓(xùn)練階段用LLM生成更多訓(xùn)練數(shù)據(jù)。甚至，他們也用LLM生成正確的推理過程，來強(qiáng)化FoxBrain推理能力，同時也用AI反饋強(qiáng)化學(xué)習(xí)（RLAIF）方法，來以AI為裁判，判斷FoxBrain產(chǎn)出的答案品質(zhì)，用比人工更快的方式教導(dǎo)模型對齊人類價值觀。

亮點1：用LLM過濾原始數(shù)據(jù)

這個FoxBrain是以Llama 3.1 70B模型為基礎(chǔ)，以120張H100 GPU、花4周訓(xùn)練而成，不只繁中能力超越Llama-3-Taiwan-70B，還具備良好的數(shù)學(xué)和邏輯推理能力，可執(zhí)行數(shù)據(jù)分析、決策輔助、文書協(xié)作和程序代碼生成等任務(wù)。

FoxBrain的技術(shù)亮點之一，是用LLM來過濾原始數(shù)據(jù)和分類。鴻海研究院技術(shù)負(fù)責(zé)人Van Nhiem Tran在Nvidia GTC大會中指出，F(xiàn)oxBrain模型訓(xùn)練可分為連續(xù)預(yù)訓(xùn)練（Continual pretraining）和后訓(xùn)練（Post-training）階段，在預(yù)訓(xùn)練階段，模型需要龐大訓(xùn)練數(shù)據(jù)，因此團(tuán)隊從開源數(shù)據(jù)集、外部數(shù)據(jù)（如arXiv、PubMed、新聞媒體等）和內(nèi)部數(shù)據(jù)來收集訓(xùn)練數(shù)據(jù)，同時根據(jù)期望模型具備的領(lǐng)域知識，來決定數(shù)據(jù)范圍，比如中英文數(shù)學(xué)和程序能力、臺灣和世界金融知識、鴻海知識、高端推理能力等。

收集這些數(shù)據(jù)后，很重要的一步是數(shù)據(jù)過濾，篩選出可用的訓(xùn)練數(shù)據(jù)并分類。在這個階段，鴻海將收集到的141.13B Token原始數(shù)據(jù)（即1,413億個Token），先經(jīng)過一系列范式初始處理，再通過LLM進(jìn)行品質(zhì)過濾、篩掉一部分原始數(shù)據(jù)，再由另一個LLM進(jìn)行領(lǐng)域分類，篩除7.33%的重復(fù)性數(shù)據(jù)，最后產(chǎn)出不同子集的訓(xùn)練數(shù)據(jù)集，共97.71B Token。（如下圖）

但如何用LLM過濾數(shù)據(jù)？Van Nhiem Tran解釋，他們設(shè)計了數(shù)據(jù)品質(zhì)評分標(biāo)準(zhǔn)與一套評分用的提示指令，當(dāng)LLM接收一筆數(shù)據(jù)后，會根據(jù)這套提示對原始數(shù)據(jù)評分。一旦超過規(guī)定分?jǐn)?shù)，這筆數(shù)據(jù)就會被保留，再由另一個LLM歸類這筆數(shù)據(jù)，比如科學(xué)、財經(jīng)等。有別于常見的重復(fù)性過濾，這個方法更能理解數(shù)據(jù)的語義表現(xiàn)，更能篩選出高品質(zhì)數(shù)據(jù)。（如下圖）

亮點2：用LLM強(qiáng)化訓(xùn)練數(shù)據(jù)品質(zhì)

另一個技術(shù)亮點是用LLM來進(jìn)行數(shù)據(jù)增強(qiáng)。這一步是在數(shù)據(jù)過濾和分類后，通過LLM來改寫這些數(shù)據(jù)，讓數(shù)據(jù)變得更有結(jié)構(gòu)、文意更清楚易懂，且包含更多觀點。

要改寫數(shù)據(jù)，還需要一套統(tǒng)一的標(biāo)準(zhǔn)。于是，團(tuán)隊先用COSTAR框架來設(shè)計提示，讓LLM根據(jù)提示要求，改寫數(shù)據(jù)（補(bǔ)充說明：COSTAR是常見的提示詞寫作框架，包含背景資訊Context、具體目標(biāo)Objective、寫作風(fēng)格Style、語氣Tone、受眾Audience和回復(fù)格式Response，但鴻海團(tuán)隊將其用來設(shè)計改寫提示）。比如，產(chǎn)生一份關(guān)于計算機(jī)和電子產(chǎn)品的網(wǎng)頁內(nèi)容（對應(yīng)C）、給高中生閱讀（對應(yīng)O）且簡單易懂的版本（對應(yīng)S）。（如下圖）

有了提示標(biāo)準(zhǔn)，團(tuán)隊再來要找出各類別最適合改寫的LLM，而非用一套LLM改寫所有類別的數(shù)據(jù)。因此，他們根據(jù)數(shù)據(jù)過濾和分類后產(chǎn)生的類別，分別找出各類別代表性數(shù)據(jù)，再用幾個小型LLM來改寫這些數(shù)據(jù)。接著，他們用一套LLM作為評審，來評估這些改寫后的數(shù)據(jù)分?jǐn)?shù)，進(jìn)而找出哪個LLM最適合改寫哪個類別。（如下圖）

他們評估小型LLM表現(xiàn)的指標(biāo)有幾個，比如文意清晰度、初衷保留度、深度、描述性、觀點多樣性等等。他們評估的模型有Qwen 2.0、Llama 3.0與3.1、Gemma 2和DeepSeek-V2等，也成功找出各類別最適合用來改寫／增強(qiáng)的模型，比如Gemma 2最適合用來強(qiáng)化科學(xué)類數(shù)據(jù)。（如下圖）

有了這些資訊，他們就構(gòu)建一套工作流程，來根據(jù)篩選后的數(shù)據(jù)類別，以最擅長該類別的LLM來改寫，進(jìn)而提高訓(xùn)練數(shù)據(jù)品質(zhì)。

亮點3：用LLM生成更多訓(xùn)練數(shù)據(jù)

上述的數(shù)據(jù)過濾分類和數(shù)據(jù)增強(qiáng)，都是為預(yù)訓(xùn)練數(shù)據(jù)的準(zhǔn)備。預(yù)訓(xùn)練之后是后訓(xùn)練階段，有別于預(yù)訓(xùn)練需要大量數(shù)據(jù)，后訓(xùn)練聚焦模型特定領(lǐng)域能力，通過相對少量的數(shù)據(jù)來微調(diào)。

在這個階段，團(tuán)隊也用不少AI輔助方法，其一是用LLM生成數(shù)據(jù)。他們先用模型生成問題，再用其他LLM來回答問題，產(chǎn)出各自的答案。這時，還會有套LLM根據(jù)規(guī)則來評分這些答案并分類，最后，這些問題-答案組就會納入后訓(xùn)練數(shù)據(jù)集。（如下圖）

亮點4：用AI輔助模型訓(xùn)練

同樣是在后訓(xùn)練階段，團(tuán)隊還有些特別的技術(shù)，來微調(diào)模型。

其中一種方法是Adaptive Reasoning Reflection（ARRT），來讓模型學(xué)習(xí)自主推理。鴻海研究所AI所長栗永徽說明，這個方法需要團(tuán)隊準(zhǔn)備許多問題及相對應(yīng)的答案，而且，這些答案不只有最后的解答，還有中間的推理過程。為節(jié)省推理過程數(shù)據(jù)收集的時間，鴻海團(tuán)隊用AI大模型，來針對各種問題，產(chǎn)出正確的推理過程。（如下圖）

同時，為確保模型不會一直無限制推理、消耗太多Token，鴻海團(tuán)隊還設(shè)計一種方法，來讓模型學(xué)習(xí)，如何根據(jù)題目難易度來自動決定推理所需的Token量，以此作為限制條件，也就是Adaptive的意思。

栗永徽點出，經(jīng)ARRT訓(xùn)練的FoxBrain模型變得聰明許多，與DeepSeek相比，有些簡單問題， DeepSeek可能會一直思考才給答案，但FoxBrain對難的問題會多思考，對簡單的問題則思考快一些，在適當(dāng)?shù)臅r間內(nèi)產(chǎn)出正確答案。

除了ARRT，團(tuán)隊還用了AI反饋的強(qiáng)化學(xué)習(xí)方法（RLAIF）來進(jìn)行后訓(xùn)練，也就是以AI作為裁判，來在模型產(chǎn)出回答后，判斷回答好不好，進(jìn)而教導(dǎo)模型對齊人類偏好的答案，大幅提高效率。（如下圖）

最后，為了讓FoxBrain更貼近實用場景、能在計算資源有限的設(shè)備上執(zhí)行，鴻海團(tuán)隊還使用壓縮技術(shù)，比如剪枝、參數(shù)或權(quán)重稀疏（Sparsity）、量化等方法，來減少模型所需的內(nèi)存和計算資源，兼顧速度和模型表現(xiàn)。

以上圖片來源／鴻海研究院

#大數(shù)據(jù)# #鴻海# #人工智能#

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.