今年以來,ChatGPT引領(lǐng)了全球人工智能的新一輪創(chuàng)新浪潮。以中國為例,據(jù)《2023—2024年中國人工智能計算力發(fā)展評估報告》顯示,截至2023年10月,中國累計發(fā)布兩百余個大模型(包括基礎(chǔ)和行業(yè)類),已進入“百模大戰(zhàn)”的新時代,在彰顯我國人工智能領(lǐng)域創(chuàng)新實力和發(fā)展?jié)摿Φ耐瑫r,對如何選擇和走出具有中國特色的大模型發(fā)展之路也提出了挑戰(zhàn)。
![]()
心急吃不了熱豆腐,“全能”基礎(chǔ)大模型才是基石
提及國內(nèi)的“百模大戰(zhàn)”,可謂是百花齊放,但從屬性上分,基本為基礎(chǔ)和行業(yè)模型兩大類,出于盡早進入市場,嘗試盡快實現(xiàn)商業(yè)變現(xiàn)的需求,國內(nèi)大模型的發(fā)展有向行業(yè)模型傾斜的趨勢,甚至出現(xiàn)了針對基礎(chǔ)模型不要“重復造輪子”的論調(diào)。事實真的如此嗎?
2021年8月,李飛飛和100多位學者聯(lián)名發(fā)表一份200多頁的研究報告《On the Opportunities andRisk of Foundation Models》中提出了基礎(chǔ)模型(Foundation Model)(《On the Opportunities and Risk of Foundation Models》,國際上稱為預訓練模型,即通過在大規(guī)模寬泛的數(shù)據(jù)上進行訓練后能適應一系列下游任務的模型。
相較于小模型或者所謂行業(yè)模型(針對特定場景需求、使用行業(yè)數(shù)據(jù)訓練出來的模型),基礎(chǔ)模型優(yōu)勢主要體現(xiàn)在以下幾個方面。
首先是涌現(xiàn)能力,它指的是模型規(guī)模超過某個參數(shù)閾值后,AI效果將不再是隨機概率事件。在通用領(lǐng)域,參數(shù)量越大,智能通常涌現(xiàn)的可能性就越大,AI準確率也會更高。在專用垂直領(lǐng)域,基礎(chǔ)模型裁剪優(yōu)化后更容易獲得精確的效果;
其次是適用場景廣泛。人工智能大模型通過在海量、多類型的場景數(shù)據(jù)中學習,能夠總結(jié)不同場景、不同業(yè)務下的通用能力,擺脫了小模型場景碎片化、難以復用的局限性,為大規(guī)模落地人工智能應用提供可能;
最后是研發(fā)效率提高。傳統(tǒng)小模型研發(fā)普遍為手工作坊式,高度依賴人工標注數(shù)據(jù)和人工調(diào)優(yōu)調(diào)參,研發(fā)成本高、周期長、效率低。大模型則將研發(fā)模式升級為大規(guī)模工廠式,采用自監(jiān)督學習方法,減少對特定數(shù)據(jù)的依賴,顯著降低人力成本、提升研發(fā)效率。
此外,基礎(chǔ)大模型還具有同質(zhì)化特性,即基礎(chǔ)模型的能力是智能的中心與核心,它的任何一點改進會迅速覆蓋整個社區(qū),反之隱患在于大模型的缺陷也會被所有下游模型所繼承。而這又從反面證明了基礎(chǔ)大模型作為小模型基礎(chǔ)的重要性。
以當下流行的GPT-4為例,其實它就是一個能力強大的基礎(chǔ)大模型,沒有行業(yè)屬性,通用智能是其最核心的部分,對于所謂的小模型或者面向行業(yè)場景的行業(yè)模型來說,基礎(chǔ)大模型結(jié)合行業(yè)數(shù)據(jù)和行業(yè)知識庫,就可以在行業(yè)中實現(xiàn)更高效的落地,這里最典型的例子就是微軟推出的基于GPT-4平臺的新Bing和Copilot應用。而其背后揭示的則是通過發(fā)展基礎(chǔ)大模型,構(gòu)建技能模型,進而落地行業(yè)模型,符合大模型自身技術(shù)發(fā)展規(guī)律的必由之路。
所謂心急吃不了熱豆腐。當我們在基礎(chǔ)大模型這塊基石尚不牢固,盲目追求所謂落地的技能和行業(yè)模型的速度,很可能是重復造輪子,同時,鑒于目前以GPT為代表的基礎(chǔ)模型迭代很快,性能提升明顯,屆時,我們的技能和行業(yè)模型還面臨技術(shù)過時(行業(yè)和技能模型還不如基礎(chǔ)模型)的風險而事倍功半。
夯實基礎(chǔ)模型,面臨高質(zhì)量數(shù)據(jù)與算法創(chuàng)新挑戰(zhàn)
既然我們理解了基礎(chǔ)模型基石的技術(shù)邏輯和作用,夯實基礎(chǔ)模型自然是重中之重。但對于國內(nèi)來說,夯實基礎(chǔ)大模型卻面臨不小的新挑戰(zhàn)。
首先是缺少多樣化、高質(zhì)量的訓練數(shù)據(jù)。
以GPT為例,在數(shù)據(jù)多樣化方面,GPT-1使用的訓練語料以書籍為主、如BookCorpus等;GPT-2則使用了如Reddit links等新聞類數(shù)據(jù),文本規(guī)范質(zhì)量高,同時又包含了部分人們?nèi)粘=涣鞯纳缃粩?shù)據(jù);進入GPT-3,模型的數(shù)據(jù)規(guī)模呈數(shù)十倍增長,Reddit links、Common Crawl、WebText2、Wikipedia等數(shù)據(jù)集的加入,大大提高了數(shù)據(jù)的多樣性;GPT-4階段更引入了GitHub代碼、對話數(shù)據(jù)以及一些數(shù)學應用題,甚至增加了多模態(tài)數(shù)據(jù)。
在數(shù)據(jù)質(zhì)量方面,以GPT-3模型為例,其訓練需要的語料75%是英文,3%是中文,還有一些西班牙文、法文、德文等語料集,這些學習語料可通過公開數(shù)據(jù)(如維基百科、百度百科、微博、知乎等)、開源數(shù)據(jù)集、網(wǎng)頁爬取(訓練GPT-3爬取了31億個網(wǎng)頁,約3000億詞)、私有數(shù)據(jù)集(如OpenAI的WebText數(shù)據(jù)集,收集了Reddit平臺上的800萬篇高贊文章,約150億詞)等方式獲取。這些語料中,英文語料公開數(shù)據(jù)更多、質(zhì)量更高。
需要說明的是,盡管上述已是高質(zhì)量的數(shù)據(jù),但其來源于維基百科、書籍及學術(shù)期刊等的高質(zhì)量數(shù)據(jù)也僅占其數(shù)據(jù)集的17.8%,但其在模型訓練中的權(quán)重卻占到了40%,數(shù)據(jù)質(zhì)量精益求精和重要性可見一斑。
![]()
對此,有業(yè)內(nèi)分析認為,當高質(zhì)量數(shù)據(jù)量到達一定臨界值的時候,將會無限拉近不同算法帶來的準確率差距,某種程度上會決定模型訓練的質(zhì)量,不僅讓訓練變得更加高效,同時可以大幅削減訓練成本。
相比之下,中文開源高質(zhì)量數(shù)據(jù)少,特別是構(gòu)建基礎(chǔ)大模型的百科類、問答類、圖書文獻、學術(shù)論文、報紙雜志等高質(zhì)量中文內(nèi)容。同時,國內(nèi)專業(yè)數(shù)據(jù)服務還處于起步階段,可用于人工智能模型訓練的經(jīng)過加工、清洗、標注的高質(zhì)量數(shù)據(jù)集還相對匱乏。
由此可見,缺少高質(zhì)量、多樣化的訓練數(shù)據(jù)已成為國內(nèi)基礎(chǔ)模型訓練的核心痛點之一,也是最大的挑戰(zhàn)。
除了高質(zhì)量的數(shù)據(jù)之外,縱觀當前國內(nèi)的大模型,基本都是基于Transformer架構(gòu),技術(shù)原理業(yè)內(nèi)都相當清楚,但為什么ChatGPT就是比其他大模型表現(xiàn)得更好?由于GPT-3之后,OpenAI的所有模型沒有再開源,GPT-4的運行機制是什么,國內(nèi)企業(yè)仍無從得知,但在業(yè)內(nèi)看來,其核心理應是算法的創(chuàng)新和優(yōu)化。
這里以Transformer架構(gòu)為例,如上述,目前學術(shù)界大部分的工作都是圍繞如何提升Transformer的效率展開,硬件結(jié)構(gòu)也都是圍繞如何優(yōu)化Transformer的方式而設(shè)計,雖然其為業(yè)內(nèi)帶來了創(chuàng)新突破,但仍然存在某些局限性。例如,對于長序列的處理和對序列中的順序信息的處理算法,會增加算力消耗和成本,而這為改進注意力機制、剪枝和量化等這些當前未曾突破的瓶頸與值得創(chuàng)新的發(fā)展方向提出了挑戰(zhàn),即想從架構(gòu)上對Transformer進行創(chuàng)新,需要的是勇氣與探索能力。
對癥下藥,開源、開放的源2.0帶來了什么?
俗話說:挑戰(zhàn)與機遇并存,而將挑戰(zhàn)化為機遇的方法就是對癥下藥。而在這方面,浪潮信息日前發(fā)布的源2.0基礎(chǔ)大模型頗值得我們拿來探究。
例如在應對我們前述的缺少多樣化、高質(zhì)量的訓練數(shù)據(jù)挑戰(zhàn)方面,源2.0的數(shù)據(jù)來源包含三個部分,分別是業(yè)界的開源數(shù)據(jù)、從互聯(lián)網(wǎng)上清洗的數(shù)據(jù)和模型合成的數(shù)據(jù)。浪潮信息的模型團隊不僅對2018年至2023年的互聯(lián)網(wǎng)數(shù)據(jù)進行了清洗,從總量12PB左右的數(shù)據(jù)中僅獲取到約10GB的中文數(shù)學數(shù)據(jù),而為進一步彌補高質(zhì)量數(shù)據(jù)集的匱乏,還基于大模型構(gòu)建了一批多樣性的高質(zhì)量數(shù)據(jù),為此,浪潮信息提出了基于主題詞或Q&A問答對自動生成編程題目和答案的數(shù)據(jù)集生成流程,大幅提高了數(shù)據(jù)集問題的多樣性。同時,輔以基于單元測試的數(shù)據(jù)清洗方法,讓高質(zhì)量數(shù)據(jù)集的獲取更加高效,進一步提高訓練效率。
![]()
具體來說,在構(gòu)建高質(zhì)量的數(shù)學和代碼數(shù)據(jù)時,團隊會隨機選取一批種子數(shù)據(jù),然后對其進行擴充,讓大模型生成一批合適的問題,再把它們送到模型里,從而產(chǎn)生合適的答案。并將其補充到訓練數(shù)據(jù)集當中。
不僅如此,即便是基于大模型構(gòu)建的高質(zhì)量數(shù)據(jù),浪潮信息還會通過額外構(gòu)建的數(shù)據(jù)清洗流程,力求將更高質(zhì)量的社群、代碼數(shù)據(jù)應用到模型的預訓練過程中。可見源2.0對于數(shù)據(jù)的質(zhì)量也是精益求精。而未來,浪潮信息的模型團隊還會利用自己的模型生成更高質(zhì)量的數(shù)據(jù),形成數(shù)據(jù)循環(huán),持續(xù)迭代并提升大模型的能力。
同樣在應對算法挑戰(zhàn)方面,源2.0也進行了重大創(chuàng)新,在我們上述的Transformer結(jié)構(gòu)中完全替換了自注意力層,創(chuàng)新性地提出新型Attention結(jié)構(gòu),即局部注意力過濾增強機制LFA(LocalizedFiltering-based Attention),通過先強化相鄰詞之間的關(guān)聯(lián)性,然后再計算全局關(guān)聯(lián)性的方法,模型能夠更好地處理自然語言的語序排列問題,對于中文語境的關(guān)聯(lián)語義理解更準確、更人性,提升了模型的自然語言表達能力,進而提升了模型精度。
![]()
而消融實驗的結(jié)果顯示,相比傳統(tǒng)注意力結(jié)構(gòu),LFA模型精度提高了3.53%;在最終的模型訓練上,基于LFA算法的源2.0-102B模型,訓練288B token的train loss為1.18,相比之下,源1.0 245B模型訓練180B token的train loss為1.64。也就是說,從源1.0到源2.0,train loss降低了28%。
除上述之外,在算力上,源2.0采用了非均勻流水并行的方法,綜合運用流水線并行+優(yōu)化器參數(shù)并行+數(shù)據(jù)并行的策略,讓模型在流水并行各階段的顯存占用量分布更均衡,避免出現(xiàn)顯存瓶頸導致的訓練效率降低的問題,該方法顯著降低了大模型對芯片間P2P帶寬的需求,為硬件差異較大訓練環(huán)境提供了一種高性能的訓練方法。
值一提的是,從當前大模型算力建設(shè)、模型開發(fā)和應用落地的實際需求出發(fā),浪潮信息還開發(fā)出了全棧全流程的智算軟件棧OGAI,以提供完善的工程化、自動化工具軟件堆棧,幫助更多企業(yè)順利跨越大模型研發(fā)應用門檻,充分釋放大模型創(chuàng)新生產(chǎn)力。
所謂眾人拾柴火焰高,這很好地詮釋了開源、開放的理念。
具體基礎(chǔ)大模型,不可否認的事實是,當前中國做大模型的公司與OpenAI仍存在較大差距,而開源能夠釋放整個社區(qū)的智慧,一起進行生態(tài)和能力的建設(shè),這也是我們除了上述數(shù)據(jù)和算法的創(chuàng)新外,盡快追趕國外領(lǐng)先公司基礎(chǔ)大模型的可行路徑。
以浪潮信息近期公布的源大模型共訓計劃為例,其針對開發(fā)者自己的應用或場景需求,通過自研數(shù)據(jù)平臺生成訓練數(shù)據(jù)并對源大模型進行增強訓練,訓練后的模型依然在社區(qū)開源。開發(fā)者只需要提出需求,說清楚具體的應用場景、對大模型的能力需求以及1~2條示例,由源團隊來進行數(shù)據(jù)準備、模型訓練并開源。
由此可見,這種共享底層數(shù)據(jù)、算法和代碼的共訓計劃,有利于打破大模型孤島,促進模型之間協(xié)作和更新迭代,并推動AI開發(fā)變得更加靈活和高效。同時,開源開放有利于推進“技術(shù)+行業(yè)”的閉環(huán),以更豐富的高質(zhì)量行業(yè)數(shù)據(jù)反哺模型,克服數(shù)據(jù)分布偏移可能造成的基礎(chǔ)大模型性能下降,打造更強的技術(shù)產(chǎn)品,加速商業(yè)化進程。
寫在最后:綜上,我們認為,“百模大戰(zhàn)”,基礎(chǔ)大模型為基,構(gòu)建技能模型,進而落地行業(yè)模型,理應成為國內(nèi)大模型現(xiàn)在和未來發(fā)展的共識,更是具有中國特色的大模型發(fā)展之路,而開源、開放的源2.0基礎(chǔ)大模型的探索與實踐只是開始!
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.