<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      “百模大戰”,夯實基礎模型,方是大模型發展之路

      0
      分享至

      今年以來,ChatGPT引領了全球人工智能的新一輪創新浪潮。以中國為例,據《2023—2024年中國人工智能計算力發展評估報告》顯示,截至2023年10月,中國累計發布兩百余個大模型(包括基礎和行業類),已進入“百模大戰”的新時代,在彰顯我國人工智能領域創新實力和發展潛力的同時,對如何選擇和走出具有中國特色的大模型發展之路也提出了挑戰。



      心急吃不了熱豆腐,“全能”基礎大模型才是基石

      提及國內的“百模大戰”,可謂是百花齊放,但從屬性上分,基本為基礎和行業模型兩大類,出于盡早進入市場,嘗試盡快實現商業變現的需求,國內大模型的發展有向行業模型傾斜的趨勢,甚至出現了針對基礎模型不要“重復造輪子”的論調。事實真的如此嗎?

      2021年8月,李飛飛和100多位學者聯名發表一份200多頁的研究報告《On the Opportunities andRisk of Foundation Models》中提出了基礎模型(Foundation Model)(《On the Opportunities and Risk of Foundation Models》,國際上稱為預訓練模型,即通過在大規模寬泛的數據上進行訓練后能適應一系列下游任務的模型。

      相較于小模型或者所謂行業模型(針對特定場景需求、使用行業數據訓練出來的模型),基礎模型優勢主要體現在以下幾個方面。

      首先是涌現能力,它指的是模型規模超過某個參數閾值后,AI效果將不再是隨機概率事件。在通用領域,參數量越大,智能通常涌現的可能性就越大,AI準確率也會更高。在專用垂直領域,基礎模型裁剪優化后更容易獲得精確的效果;

      其次是適用場景廣泛。人工智能大模型通過在海量、多類型的場景數據中學習,能夠總結不同場景、不同業務下的通用能力,擺脫了小模型場景碎片化、難以復用的局限性,為大規模落地人工智能應用提供可能;

      最后是研發效率提高。傳統小模型研發普遍為手工作坊式,高度依賴人工標注數據和人工調優調參,研發成本高、周期長、效率低。大模型則將研發模式升級為大規模工廠式,采用自監督學習方法,減少對特定數據的依賴,顯著降低人力成本、提升研發效率。

      此外,基礎大模型還具有同質化特性,即基礎模型的能力是智能的中心與核心,它的任何一點改進會迅速覆蓋整個社區,反之隱患在于大模型的缺陷也會被所有下游模型所繼承。而這又從反面證明了基礎大模型作為小模型基礎的重要性。

      以當下流行的GPT-4為例,其實它就是一個能力強大的基礎大模型,沒有行業屬性,通用智能是其最核心的部分,對于所謂的小模型或者面向行業場景的行業模型來說,基礎大模型結合行業數據和行業知識庫,就可以在行業中實現更高效的落地,這里最典型的例子就是微軟推出的基于GPT-4平臺的新Bing和Copilot應用。而其背后揭示的則是通過發展基礎大模型,構建技能模型,進而落地行業模型,符合大模型自身技術發展規律的必由之路。

      所謂心急吃不了熱豆腐。當我們在基礎大模型這塊基石尚不牢固,盲目追求所謂落地的技能和行業模型的速度,很可能是重復造輪子,同時,鑒于目前以GPT為代表的基礎模型迭代很快,性能提升明顯,屆時,我們的技能和行業模型還面臨技術過時(行業和技能模型還不如基礎模型)的風險而事倍功半。

      夯實基礎模型,面臨高質量數據與算法創新挑戰

      既然我們理解了基礎模型基石的技術邏輯和作用,夯實基礎模型自然是重中之重。但對于國內來說,夯實基礎大模型卻面臨不小的新挑戰。

      首先是缺少多樣化、高質量的訓練數據。

      以GPT為例,在數據多樣化方面,GPT-1使用的訓練語料以書籍為主、如BookCorpus等;GPT-2則使用了如Reddit links等新聞類數據,文本規范質量高,同時又包含了部分人們日常交流的社交數據;進入GPT-3,模型的數據規模呈數十倍增長,Reddit links、Common Crawl、WebText2、Wikipedia等數據集的加入,大大提高了數據的多樣性;GPT-4階段更引入了GitHub代碼、對話數據以及一些數學應用題,甚至增加了多模態數據。

      在數據質量方面,以GPT-3模型為例,其訓練需要的語料75%是英文,3%是中文,還有一些西班牙文、法文、德文等語料集,這些學習語料可通過公開數據(如維基百科、百度百科、微博、知乎等)、開源數據集、網頁爬取(訓練GPT-3爬取了31億個網頁,約3000億詞)、私有數據集(如OpenAI的WebText數據集,收集了Reddit平臺上的800萬篇高贊文章,約150億詞)等方式獲取。這些語料中,英文語料公開數據更多、質量更高。

      需要說明的是,盡管上述已是高質量的數據,但其來源于維基百科、書籍及學術期刊等的高質量數據也僅占其數據集的17.8%,但其在模型訓練中的權重卻占到了40%,數據質量精益求精和重要性可見一斑。



      對此,有業內分析認為,當高質量數據量到達一定臨界值的時候,將會無限拉近不同算法帶來的準確率差距,某種程度上會決定模型訓練的質量,不僅讓訓練變得更加高效,同時可以大幅削減訓練成本。

      相比之下,中文開源高質量數據少,特別是構建基礎大模型的百科類、問答類、圖書文獻、學術論文、報紙雜志等高質量中文內容。同時,國內專業數據服務還處于起步階段,可用于人工智能模型訓練的經過加工、清洗、標注的高質量數據集還相對匱乏。

      由此可見,缺少高質量、多樣化的訓練數據已成為國內基礎模型訓練的核心痛點之一,也是最大的挑戰。

      除了高質量的數據之外,縱觀當前國內的大模型,基本都是基于Transformer架構,技術原理業內都相當清楚,但為什么ChatGPT就是比其他大模型表現得更好?由于GPT-3之后,OpenAI的所有模型沒有再開源,GPT-4的運行機制是什么,國內企業仍無從得知,但在業內看來,其核心理應是算法的創新和優化。

      這里以Transformer架構為例,如上述,目前學術界大部分的工作都是圍繞如何提升Transformer的效率展開,硬件結構也都是圍繞如何優化Transformer的方式而設計,雖然其為業內帶來了創新突破,但仍然存在某些局限性。例如,對于長序列的處理和對序列中的順序信息的處理算法,會增加算力消耗和成本,而這為改進注意力機制、剪枝和量化等這些當前未曾突破的瓶頸與值得創新的發展方向提出了挑戰,即想從架構上對Transformer進行創新,需要的是勇氣與探索能力。

      對癥下藥,開源、開放的源2.0帶來了什么?

      俗話說:挑戰與機遇并存,而將挑戰化為機遇的方法就是對癥下藥。而在這方面,浪潮信息日前發布的源2.0基礎大模型頗值得我們拿來探究。

      例如在應對我們前述的缺少多樣化、高質量的訓練數據挑戰方面,源2.0的數據來源包含三個部分,分別是業界的開源數據、從互聯網上清洗的數據和模型合成的數據。浪潮信息的模型團隊不僅對2018年至2023年的互聯網數據進行了清洗,從總量12PB左右的數據中僅獲取到約10GB的中文數學數據,而為進一步彌補高質量數據集的匱乏,還基于大模型構建了一批多樣性的高質量數據,為此,浪潮信息提出了基于主題詞或Q&A問答對自動生成編程題目和答案的數據集生成流程,大幅提高了數據集問題的多樣性。同時,輔以基于單元測試的數據清洗方法,讓高質量數據集的獲取更加高效,進一步提高訓練效率。



      具體來說,在構建高質量的數學和代碼數據時,團隊會隨機選取一批種子數據,然后對其進行擴充,讓大模型生成一批合適的問題,再把它們送到模型里,從而產生合適的答案。并將其補充到訓練數據集當中。

      不僅如此,即便是基于大模型構建的高質量數據,浪潮信息還會通過額外構建的數據清洗流程,力求將更高質量的社群、代碼數據應用到模型的預訓練過程中。可見源2.0對于數據的質量也是精益求精。而未來,浪潮信息的模型團隊還會利用自己的模型生成更高質量的數據,形成數據循環,持續迭代并提升大模型的能力。

      同樣在應對算法挑戰方面,源2.0也進行了重大創新,在我們上述的Transformer結構中完全替換了自注意力層,創新性地提出新型Attention結構,即局部注意力過濾增強機制LFA(LocalizedFiltering-based Attention),通過先強化相鄰詞之間的關聯性,然后再計算全局關聯性的方法,模型能夠更好地處理自然語言的語序排列問題,對于中文語境的關聯語義理解更準確、更人性,提升了模型的自然語言表達能力,進而提升了模型精度。



      而消融實驗的結果顯示,相比傳統注意力結構,LFA模型精度提高了3.53%;在最終的模型訓練上,基于LFA算法的源2.0-102B模型,訓練288B token的train loss為1.18,相比之下,源1.0 245B模型訓練180B token的train loss為1.64。也就是說,從源1.0到源2.0,train loss降低了28%。

      除上述之外,在算力上,源2.0采用了非均勻流水并行的方法,綜合運用流水線并行+優化器參數并行+數據并行的策略,讓模型在流水并行各階段的顯存占用量分布更均衡,避免出現顯存瓶頸導致的訓練效率降低的問題,該方法顯著降低了大模型對芯片間P2P帶寬的需求,為硬件差異較大訓練環境提供了一種高性能的訓練方法。

      值一提的是,從當前大模型算力建設、模型開發和應用落地的實際需求出發,浪潮信息還開發出了全棧全流程的智算軟件棧OGAI,以提供完善的工程化、自動化工具軟件堆棧,幫助更多企業順利跨越大模型研發應用門檻,充分釋放大模型創新生產力。

      所謂眾人拾柴火焰高,這很好地詮釋了開源、開放的理念。

      具體基礎大模型,不可否認的事實是,當前中國做大模型的公司與OpenAI仍存在較大差距,而開源能夠釋放整個社區的智慧,一起進行生態和能力的建設,這也是我們除了上述數據和算法的創新外,盡快追趕國外領先公司基礎大模型的可行路徑。

      以浪潮信息近期公布的源大模型共訓計劃為例,其針對開發者自己的應用或場景需求,通過自研數據平臺生成訓練數據并對源大模型進行增強訓練,訓練后的模型依然在社區開源。開發者只需要提出需求,說清楚具體的應用場景、對大模型的能力需求以及1~2條示例,由源團隊來進行數據準備、模型訓練并開源。

      由此可見,這種共享底層數據、算法和代碼的共訓計劃,有利于打破大模型孤島,促進模型之間協作和更新迭代,并推動AI開發變得更加靈活和高效。同時,開源開放有利于推進“技術+行業”的閉環,以更豐富的高質量行業數據反哺模型,克服數據分布偏移可能造成的基礎大模型性能下降,打造更強的技術產品,加速商業化進程。

      寫在最后:綜上,我們認為,“百模大戰”,基礎大模型為基,構建技能模型,進而落地行業模型,理應成為國內大模型現在和未來發展的共識,更是具有中國特色的大模型發展之路,而開源、開放的源2.0基礎大模型的探索與實踐只是開始!

      聲明:個人原創,僅供參考

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      心臟最怕的4件事,你可能每天都在做!快停下

      心臟最怕的4件事,你可能每天都在做!快停下

      大象新聞
      2026-02-19 07:52:05
      無錫惠山,突發緊急一幕!

      無錫惠山,突發緊急一幕!

      江南晚報
      2026-02-19 10:10:31
      林徽因落選的國徽方案,網友看后感嘆:審美確實一絕,但真不合適

      林徽因落選的國徽方案,網友看后感嘆:審美確實一絕,但真不合適

      抽象派大師
      2026-01-03 02:13:54
      楊絳:記住,和周圍人搞好關系的秘訣就是,不要和他們分享任何成功的喜悅,和任何開心的事兒

      楊絳:記住,和周圍人搞好關系的秘訣就是,不要和他們分享任何成功的喜悅,和任何開心的事兒

      四行書
      2025-12-14 17:37:10
      笑不活!米蘭冬奧名場面:3800人領手機,唯獨俄選手拿到洗護套裝

      笑不活!米蘭冬奧名場面:3800人領手機,唯獨俄選手拿到洗護套裝

      老馬拉車莫少裝
      2026-02-19 14:27:02
      你在體制內捅過的最大簍子是啥? 網友:人怎么能捅這么大的簍子

      你在體制內捅過的最大簍子是啥? 網友:人怎么能捅這么大的簍子

      帶你感受人間冷暖
      2026-02-13 10:06:39
      英偉達的天塌了,AI芯片果然被動了手腳!外媒:真有“后門”?

      英偉達的天塌了,AI芯片果然被動了手腳!外媒:真有“后門”?

      瘋狂小菠蘿
      2026-02-18 20:03:53
      追趕谷愛凌?萊爾丹被曝年收入或破千萬 英媒預測她將成冬奧第二人

      追趕谷愛凌?萊爾丹被曝年收入或破千萬 英媒預測她將成冬奧第二人

      勁爆體壇
      2026-02-19 06:54:06
      宋小寶小品“翻車”!上臺自言自語搭檔以為沒開始全體罷工

      宋小寶小品“翻車”!上臺自言自語搭檔以為沒開始全體罷工

      韓小娛
      2026-02-18 07:05:24
      公務員因公落下殘疾無法勝任工作會被開除嗎?網友分享解開謎底!

      公務員因公落下殘疾無法勝任工作會被開除嗎?網友分享解開謎底!

      帶你感受人間冷暖
      2026-01-25 00:15:06
      “女排之父”袁偉民,造就了一番輝煌后,晚年生活卻過成如此

      “女排之父”袁偉民,造就了一番輝煌后,晚年生活卻過成如此

      小兔子的快樂
      2026-02-18 20:26:11
      負債57億沒垮,70歲重新上路,他憑什么三年造出新能源獨角獸

      負債57億沒垮,70歲重新上路,他憑什么三年造出新能源獨角獸

      青眼財經
      2026-02-18 23:52:00
      “我作為猶太人很光榮。”回以色列認祖歸宗,等待她的卻是噩夢

      “我作為猶太人很光榮。”回以色列認祖歸宗,等待她的卻是噩夢

      有書
      2026-02-16 22:40:03
      匈牙利、斯洛伐克宣布暫停向烏克蘭出口柴油

      匈牙利、斯洛伐克宣布暫停向烏克蘭出口柴油

      財聯社
      2026-02-18 23:58:05
      蘇翊鳴奪冠后,日本網友第一句話讓韓國媒體很尷尬

      蘇翊鳴奪冠后,日本網友第一句話讓韓國媒體很尷尬

      科學發掘
      2026-02-19 01:39:28
      陳慧琳曬過年全家福,老公劉建浩謝頂變光頭,倆兒子身高都超180

      陳慧琳曬過年全家福,老公劉建浩謝頂變光頭,倆兒子身高都超180

      樂悠悠娛樂
      2026-02-19 13:29:09
      被日軍當眾凌辱5小時后,她為何從不逃跑,也不求死

      被日軍當眾凌辱5小時后,她為何從不逃跑,也不求死

      馬蹄燙嘴說美食
      2026-02-12 18:59:18
      委內瑞拉再生變!特朗普也沒想到,當初留下這條命,會有這么一天

      委內瑞拉再生變!特朗普也沒想到,當初留下這條命,會有這么一天

      標體
      2026-02-18 21:49:14
      北京一男房東因聯系不上女租客,擔心出事,直接開鎖進了房間。

      北京一男房東因聯系不上女租客,擔心出事,直接開鎖進了房間。

      南權先生
      2026-01-12 16:44:03
      2-5到6-5!斯諾克球員錦標賽:趙心童極限逆轉,中國軍團1勝4負!

      2-5到6-5!斯諾克球員錦標賽:趙心童極限逆轉,中國軍團1勝4負!

      劉姚堯的文字城堡
      2026-02-19 07:18:34
      2026-02-19 16:12:49
      孫永杰的ICT評論 incentive-icons
      孫永杰的ICT評論
      專注獨家、獨立的觀點
      406文章數 6234關注度
      往期回顧 全部

      科技要聞

      怒燒45億,騰訊字節阿里決戰春節

      頭條要聞

      日本挖到含稀土泥漿 高市稱"下一代、下下代都用不完"

      頭條要聞

      日本挖到含稀土泥漿 高市稱"下一代、下下代都用不完"

      體育要聞

      首金!蘇翊鳴唱國歌落淚 自信比1吶喊

      娛樂要聞

      明星過年百態!黃曉明等現身三亞

      財經要聞

      面條火腿香菇醬!上市公司這些年請你吃

      汽車要聞

      量產甲醇插混 吉利銀河星耀6甲醇插混版申報圖

      態度原創

      游戲
      家居
      本地
      親子
      公開課

      《戰神》三部曲新爆料!奎爺演員親自透露消息

      家居要聞

      本真棲居 愛暖伴流年

      本地新聞

      春花齊放2026:《駿馬奔騰迎新歲》

      親子要聞

      韓國近半產后女性深陷身心雙重壓力 經濟壓力并非首位

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版