網易首頁 > 網易號 > 正文申請入駐

“百模大戰”，夯實基礎模型，方是大模型發展之路

2023-12-21 16:00:22　來源: 孫永杰的ICT評論

北京舉報

分享至

今年以來，ChatGPT引領了全球人工智能的新一輪創新浪潮。以中國為例，據《2023—2024年中國人工智能計算力發展評估報告》顯示，截至2023年10月，中國累計發布兩百余個大模型（包括基礎和行業類），已進入“百模大戰”的新時代，在彰顯我國人工智能領域創新實力和發展潛力的同時，對如何選擇和走出具有中國特色的大模型發展之路也提出了挑戰。

心急吃不了熱豆腐，“全能”基礎大模型才是基石

提及國內的“百模大戰”，可謂是百花齊放，但從屬性上分，基本為基礎和行業模型兩大類，出于盡早進入市場，嘗試盡快實現商業變現的需求，國內大模型的發展有向行業模型傾斜的趨勢，甚至出現了針對基礎模型不要“重復造輪子”的論調。事實真的如此嗎？

2021年8月，李飛飛和100多位學者聯名發表一份200多頁的研究報告《On the Opportunities andRisk of Foundation Models》中提出了基礎模型（Foundation Model）（《On the Opportunities and Risk of Foundation Models》，國際上稱為預訓練模型，即通過在大規模寬泛的數據上進行訓練后能適應一系列下游任務的模型。

相較于小模型或者所謂行業模型（針對特定場景需求、使用行業數據訓練出來的模型），基礎模型優勢主要體現在以下幾個方面。

首先是涌現能力，它指的是模型規模超過某個參數閾值后，AI效果將不再是隨機概率事件。在通用領域，參數量越大，智能通常涌現的可能性就越大，AI準確率也會更高。在專用垂直領域，基礎模型裁剪優化后更容易獲得精確的效果；

其次是適用場景廣泛。人工智能大模型通過在海量、多類型的場景數據中學習，能夠總結不同場景、不同業務下的通用能力，擺脫了小模型場景碎片化、難以復用的局限性，為大規模落地人工智能應用提供可能；

最后是研發效率提高。傳統小模型研發普遍為手工作坊式，高度依賴人工標注數據和人工調優調參，研發成本高、周期長、效率低。大模型則將研發模式升級為大規模工廠式，采用自監督學習方法，減少對特定數據的依賴，顯著降低人力成本、提升研發效率。

此外，基礎大模型還具有同質化特性，即基礎模型的能力是智能的中心與核心，它的任何一點改進會迅速覆蓋整個社區，反之隱患在于大模型的缺陷也會被所有下游模型所繼承。而這又從反面證明了基礎大模型作為小模型基礎的重要性。

以當下流行的GPT-4為例，其實它就是一個能力強大的基礎大模型，沒有行業屬性，通用智能是其最核心的部分，對于所謂的小模型或者面向行業場景的行業模型來說，基礎大模型結合行業數據和行業知識庫，就可以在行業中實現更高效的落地，這里最典型的例子就是微軟推出的基于GPT-4平臺的新Bing和Copilot應用。而其背后揭示的則是通過發展基礎大模型，構建技能模型，進而落地行業模型，符合大模型自身技術發展規律的必由之路。

所謂心急吃不了熱豆腐。當我們在基礎大模型這塊基石尚不牢固，盲目追求所謂落地的技能和行業模型的速度，很可能是重復造輪子，同時，鑒于目前以GPT為代表的基礎模型迭代很快，性能提升明顯，屆時，我們的技能和行業模型還面臨技術過時（行業和技能模型還不如基礎模型）的風險而事倍功半。

夯實基礎模型，面臨高質量數據與算法創新挑戰

既然我們理解了基礎模型基石的技術邏輯和作用，夯實基礎模型自然是重中之重。但對于國內來說，夯實基礎大模型卻面臨不小的新挑戰。

首先是缺少多樣化、高質量的訓練數據。

以GPT為例，在數據多樣化方面，GPT-1使用的訓練語料以書籍為主、如BookCorpus等；GPT-2則使用了如Reddit links等新聞類數據，文本規范質量高，同時又包含了部分人們日常交流的社交數據；進入GPT-3，模型的數據規模呈數十倍增長，Reddit links、Common Crawl、WebText2、Wikipedia等數據集的加入，大大提高了數據的多樣性；GPT-4階段更引入了GitHub代碼、對話數據以及一些數學應用題，甚至增加了多模態數據。

在數據質量方面，以GPT-3模型為例，其訓練需要的語料75%是英文，3%是中文，還有一些西班牙文、法文、德文等語料集，這些學習語料可通過公開數據（如維基百科、百度百科、微博、知乎等）、開源數據集、網頁爬取（訓練GPT-3爬取了31億個網頁，約3000億詞）、私有數據集（如OpenAI的WebText數據集，收集了Reddit平臺上的800萬篇高贊文章，約150億詞）等方式獲取。這些語料中，英文語料公開數據更多、質量更高。

需要說明的是，盡管上述已是高質量的數據，但其來源于維基百科、書籍及學術期刊等的高質量數據也僅占其數據集的17.8%，但其在模型訓練中的權重卻占到了40%，數據質量精益求精和重要性可見一斑。

對此，有業內分析認為，當高質量數據量到達一定臨界值的時候，將會無限拉近不同算法帶來的準確率差距，某種程度上會決定模型訓練的質量，不僅讓訓練變得更加高效，同時可以大幅削減訓練成本。

相比之下，中文開源高質量數據少，特別是構建基礎大模型的百科類、問答類、圖書文獻、學術論文、報紙雜志等高質量中文內容。同時，國內專業數據服務還處于起步階段，可用于人工智能模型訓練的經過加工、清洗、標注的高質量數據集還相對匱乏。

由此可見，缺少高質量、多樣化的訓練數據已成為國內基礎模型訓練的核心痛點之一，也是最大的挑戰。

除了高質量的數據之外，縱觀當前國內的大模型，基本都是基于Transformer架構，技術原理業內都相當清楚，但為什么ChatGPT就是比其他大模型表現得更好？由于GPT-3之后，OpenAI的所有模型沒有再開源，GPT-4的運行機制是什么，國內企業仍無從得知，但在業內看來，其核心理應是算法的創新和優化。

這里以Transformer架構為例，如上述，目前學術界大部分的工作都是圍繞如何提升Transformer的效率展開，硬件結構也都是圍繞如何優化Transformer的方式而設計，雖然其為業內帶來了創新突破，但仍然存在某些局限性。例如，對于長序列的處理和對序列中的順序信息的處理算法，會增加算力消耗和成本，而這為改進注意力機制、剪枝和量化等這些當前未曾突破的瓶頸與值得創新的發展方向提出了挑戰，即想從架構上對Transformer進行創新，需要的是勇氣與探索能力。

對癥下藥，開源、開放的源2.0帶來了什么？

俗話說：挑戰與機遇并存，而將挑戰化為機遇的方法就是對癥下藥。而在這方面，浪潮信息日前發布的源2.0基礎大模型頗值得我們拿來探究。

例如在應對我們前述的缺少多樣化、高質量的訓練數據挑戰方面，源2.0的數據來源包含三個部分，分別是業界的開源數據、從互聯網上清洗的數據和模型合成的數據。浪潮信息的模型團隊不僅對2018年至2023年的互聯網數據進行了清洗，從總量12PB左右的數據中僅獲取到約10GB的中文數學數據，而為進一步彌補高質量數據集的匱乏，還基于大模型構建了一批多樣性的高質量數據，為此，浪潮信息提出了基于主題詞或Q&A問答對自動生成編程題目和答案的數據集生成流程，大幅提高了數據集問題的多樣性。同時，輔以基于單元測試的數據清洗方法，讓高質量數據集的獲取更加高效，進一步提高訓練效率。

具體來說，在構建高質量的數學和代碼數據時，團隊會隨機選取一批種子數據，然后對其進行擴充，讓大模型生成一批合適的問題，再把它們送到模型里，從而產生合適的答案。并將其補充到訓練數據集當中。

不僅如此，即便是基于大模型構建的高質量數據，浪潮信息還會通過額外構建的數據清洗流程，力求將更高質量的社群、代碼數據應用到模型的預訓練過程中。可見源2.0對于數據的質量也是精益求精。而未來，浪潮信息的模型團隊還會利用自己的模型生成更高質量的數據，形成數據循環，持續迭代并提升大模型的能力。

同樣在應對算法挑戰方面，源2.0也進行了重大創新，在我們上述的Transformer結構中完全替換了自注意力層，創新性地提出新型Attention結構，即局部注意力過濾增強機制LFA（LocalizedFiltering-based Attention），通過先強化相鄰詞之間的關聯性，然后再計算全局關聯性的方法，模型能夠更好地處理自然語言的語序排列問題，對于中文語境的關聯語義理解更準確、更人性，提升了模型的自然語言表達能力，進而提升了模型精度。

而消融實驗的結果顯示，相比傳統注意力結構，LFA模型精度提高了3.53%；在最終的模型訓練上，基于LFA算法的源2.0-102B模型，訓練288B token的train loss為1.18，相比之下，源1.0 245B模型訓練180B token的train loss為1.64。也就是說，從源1.0到源2.0，train loss降低了28%。

除上述之外，在算力上，源2.0采用了非均勻流水并行的方法，綜合運用流水線并行+優化器參數并行+數據并行的策略，讓模型在流水并行各階段的顯存占用量分布更均衡，避免出現顯存瓶頸導致的訓練效率降低的問題，該方法顯著降低了大模型對芯片間P2P帶寬的需求，為硬件差異較大訓練環境提供了一種高性能的訓練方法。

值一提的是，從當前大模型算力建設、模型開發和應用落地的實際需求出發，浪潮信息還開發出了全棧全流程的智算軟件棧OGAI，以提供完善的工程化、自動化工具軟件堆棧，幫助更多企業順利跨越大模型研發應用門檻，充分釋放大模型創新生產力。

所謂眾人拾柴火焰高，這很好地詮釋了開源、開放的理念。

具體基礎大模型，不可否認的事實是，當前中國做大模型的公司與OpenAI仍存在較大差距，而開源能夠釋放整個社區的智慧，一起進行生態和能力的建設，這也是我們除了上述數據和算法的創新外，盡快追趕國外領先公司基礎大模型的可行路徑。

以浪潮信息近期公布的源大模型共訓計劃為例，其針對開發者自己的應用或場景需求，通過自研數據平臺生成訓練數據并對源大模型進行增強訓練，訓練后的模型依然在社區開源。開發者只需要提出需求，說清楚具體的應用場景、對大模型的能力需求以及1～2條示例，由源團隊來進行數據準備、模型訓練并開源。

由此可見，這種共享底層數據、算法和代碼的共訓計劃，有利于打破大模型孤島，促進模型之間協作和更新迭代，并推動AI開發變得更加靈活和高效。同時，開源開放有利于推進“技術+行業”的閉環，以更豐富的高質量行業數據反哺模型，克服數據分布偏移可能造成的基礎大模型性能下降，打造更強的技術產品，加速商業化進程。

寫在最后：綜上，我們認為，“百模大戰”，基礎大模型為基，構建技能模型，進而落地行業模型，理應成為國內大模型現在和未來發展的共識，更是具有中國特色的大模型發展之路，而開源、開放的源2.0基礎大模型的探索與實踐只是開始！

聲明：個人原創，僅供參考

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.