<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      大模型的五個環(huán)節(jié)和十大難題

      0
      分享至



      作者 | 山竹

      出品 | 鋅產(chǎn)業(yè)

      在生成式AI進入全球視野的第四年,大模型競賽在2025年正式進入下半場,下半場考驗的能力從模型訓(xùn)練轉(zhuǎn)向工程能力

      或者說,工程實踐能力推動的大模型應(yīng)用落地,在這時成了繼模型訓(xùn)練后的第二戰(zhàn)場。

      在這一新戰(zhàn)場,模型推理的重要性開始凸顯,“模型算子化”、“模型即服務(wù)”逐漸成為常態(tài),大模型正在由此規(guī)模化邁入企業(yè)AI,并藉由此改變著社會運轉(zhuǎn)的底層邏輯。

      這時,沒有人再懷疑大模型的重要性,就像沒有人會懷疑互聯(lián)網(wǎng)改變了人類生活方式一樣。

      而就在大模型又一次改變?nèi)祟惿罘绞街埃總€人都值得花幾分鐘對這項顛覆性技術(shù)有一個基本認知。

      我是在最近的阿里云PolarDB數(shù)據(jù)庫開發(fā)者大會上,又一次聽到了鄭緯民院士的演講。

      這一次,鄭緯民院士在演講中通過五個環(huán)節(jié)總結(jié)了大模型全生命周期——數(shù)據(jù)獲取、數(shù)據(jù)預(yù)處理、模型訓(xùn)練、模型微調(diào)、模型推理。



      這五個環(huán)節(jié),也是我們認清大模型的開始。

      01數(shù)據(jù)獲取

      “大模型是數(shù)據(jù)喂出來的”。

      關(guān)于大模型,這是我這兩年聽到最多的解釋。

      所謂大模型,就是先有大數(shù)據(jù)、再有大算力,然后才有大模型。

      大模型在訓(xùn)練過程中首先需要收集海量的多模態(tài)數(shù)據(jù),這些數(shù)據(jù)來自世界各地,通過將這些數(shù)據(jù)收集上來并放到一個系統(tǒng)中,這是“造”出大模型的第一步。



      在此過程中,這些海量數(shù)據(jù)涉及到的文件數(shù)量多達數(shù)百億,這數(shù)百億個小文件要存儲在硬盤中,這其中,哪個小文件放在硬盤的哪個位置需要被記住,這就是元數(shù)據(jù)。

      海量小文件存儲過程中面臨著一個挑戰(zhàn),那就是元數(shù)據(jù)的管理

      首先,存儲100億個小文件需要管理7TB元數(shù)據(jù),這就要求數(shù)據(jù)庫有足夠的擴展性,也就是要讓數(shù)據(jù)能“放得下”;

      其次,典型大模型要求訪問延時在百微秒級,這對系統(tǒng)的延時提供了很高的要求,也就是讓數(shù)據(jù)能“讀得快”。

      現(xiàn)有的諸如HDFS、Lustre元數(shù)據(jù)集中式管理架構(gòu)訪問延時低(讀得快),但無法橫向擴展(放不下),而CephFS這樣的元數(shù)據(jù)分布式管理架構(gòu)可橫向擴展(放得下),但訪問延時高(讀不快)。



      我們現(xiàn)在需要一個方法,既讓數(shù)據(jù)能“放得下”,也要能被“讀得快”。

      鄭緯民院士團隊研發(fā)的分布式文件系統(tǒng)SuperFS,在國產(chǎn)超算鵬城云腦II上特別針對海量小文件場景進行了優(yōu)化,從而實現(xiàn)了快速讀寫和可擴展性。

      02數(shù)據(jù)預(yù)處理

      數(shù)據(jù)預(yù)處理是第二環(huán)節(jié)。

      在拿到數(shù)據(jù)后,模型在訓(xùn)練之前,還需要對這些數(shù)據(jù)進行預(yù)處理,以獲得高質(zhì)量的樣本數(shù)據(jù)。

      由于從兩個不同地方獲取到的數(shù)據(jù)可能存在數(shù)據(jù)重復(fù)等問題,這就需要對這些數(shù)據(jù)進行預(yù)處理,需要去除重復(fù)數(shù)據(jù)、需要去除數(shù)據(jù)中的廣告內(nèi)容,還需要數(shù)據(jù)格式統(tǒng)一



      以O(shè)penAI的GPT-4訓(xùn)練為例:

      業(yè)界推測,GPT-4參數(shù)量高達1.8萬億,模型訓(xùn)練過程中,使用了約2.5萬塊A100 GPU,模型訓(xùn)練周期為90-100天(3-4個月),然而整個數(shù)據(jù)預(yù)處理耗時預(yù)計在半年左右。

      在這方面,GPT-4并不是獨一份。

      據(jù)谷歌數(shù)據(jù)中心統(tǒng)計,在大模型訓(xùn)練過程中,30%的時間花在了數(shù)據(jù)預(yù)處理上。

      與此同時,微軟也分析了9種常見模型,據(jù)悉,在分析的這些模型中,數(shù)據(jù)預(yù)處理最多占用了65%的模型訓(xùn)練時間

      因而,數(shù)據(jù)預(yù)處理是一件相當耗時耗力的事兒。

      那么,為什么數(shù)據(jù)預(yù)處理這么慢呢?

      這是因為如今的數(shù)據(jù)處理面臨著兩方面的挑戰(zhàn):

      第一,已有數(shù)據(jù)處理方法通常以計算為中心,將需要預(yù)處理的數(shù)據(jù)搬移到進行計算任務(wù)的節(jié)點上;

      第二,需要處理的數(shù)據(jù)往往分散在多個節(jié)點上,讀取遠端節(jié)點的數(shù)據(jù)往往又會引入很大的網(wǎng)絡(luò)開銷。



      有沒有什么方法可以解決這兩個問題呢?

      答案是,有的。

      那就是將數(shù)據(jù)處理方法改為以數(shù)據(jù)為中心,將計算任務(wù)搬到數(shù)據(jù)節(jié)點上

      將計算任務(wù)動態(tài)地根據(jù)其需要的數(shù)據(jù)調(diào)度到數(shù)據(jù)所在的節(jié)點上,從分布系統(tǒng)的數(shù)據(jù)讀入轉(zhuǎn)換為從本地文件系統(tǒng)讀入。

      具體到生產(chǎn)環(huán)境中,目前業(yè)界在進行數(shù)據(jù)處理時使用最多的是Spark軟件,由于用的人多,生態(tài)就好,在可擴展性、容錯性上都有不錯的表現(xiàn),然而,Spark依然存在兩個缺點:

      第一 ,Spark是在2009年誕生于加州伯克利大學(xué)分校AMP實驗室,軟件以Java語言編寫,處理速度較慢

      第二,大數(shù)據(jù)處理為內(nèi)存計算模式,需要將數(shù)據(jù)放在內(nèi)存上,這些內(nèi)存大小往往是被處理數(shù)據(jù)大小的20倍,內(nèi)存往往很貴,這直接導(dǎo)致數(shù)據(jù)處理過程往往開銷很大。

      基于以數(shù)據(jù)為中心的執(zhí)行模式,鄭緯民院士團隊研發(fā)了諸葛弩大數(shù)據(jù)處理引擎,通過基于C++ RDD編程接口,供性能工程師編寫高性能計算模塊,并將此嵌入到PySpark預(yù)處理管線中,兼容PySpark編程接口和生態(tài)。

      03模型訓(xùn)練

      第三個環(huán)節(jié)是模型訓(xùn)練。

      模型訓(xùn)練過程涉及諸多算法和技術(shù),這其中普遍存在兩個問題:

      第一,GPU的存儲容量難以滿足大模型訓(xùn)練的存儲需求

      GPU已經(jīng)成為大模型訓(xùn)練的主要硬件,但GPU存儲容量小且增長緩慢,與此同時,GPU存算資源強耦合,存算資源只能等比擴展,當存儲容量不足時,就需要買卡,這就會導(dǎo)致算力冗余、存力不足的問題。



      第二,GPU大規(guī)模集群的容錯問題

      大模型訓(xùn)練需要的算力難以通過單一GPU提供,萬卡集群、十萬卡集群已經(jīng)成為基礎(chǔ)大模型訓(xùn)練的必備條件。

      然而,即便是業(yè)界領(lǐng)先的神威平臺,十萬卡組成的集群訓(xùn)練萬億參數(shù)量模型時,訓(xùn)練過程中,平均每小時也會發(fā)生一次軟硬件錯誤。



      這已經(jīng)是世界先進水平。

      那么,這個問題又該如何解決呢?

      這就需要在模型訓(xùn)練過程中設(shè)置模型參數(shù)檢查點

      在模型訓(xùn)練到40分鐘時主動停下來,將當前的軟硬環(huán)境存儲到系統(tǒng)中,然后繼續(xù)進行模型訓(xùn)練。

      當模型訓(xùn)練到1小時報錯時,將此前在40分鐘時存儲下來的軟硬件環(huán)境提取出并繼續(xù)進行模型訓(xùn)練。

      以此類推。

      這一模式看似邏輯簡單,但卻存在另一個問題——寫檢查點需要耗費大量時間,未經(jīng)優(yōu)化時,一次檢查點的存儲需要3小時

      這就需要通過分布式檢查點存儲,將數(shù)據(jù)均勻分布到所有參與并行計算的節(jié)點,每個節(jié)點只需要存儲分配到該節(jié)點的部分數(shù)據(jù)

      經(jīng)過這樣的架構(gòu)調(diào)整,十萬億參數(shù)量模型一次檢查點存儲的時間就被縮短到了10分鐘。

      04模型微調(diào)

      第四個環(huán)節(jié)是模型微調(diào)。

      經(jīng)過模型訓(xùn)練后,訓(xùn)練出的就是傳說中的基礎(chǔ)大模型,相當于現(xiàn)在的DeepSeek V3,拿到基礎(chǔ)大模型對于大多數(shù)商業(yè)場景而言,并不意味著就可以直接使用,還需要進行模型微調(diào)才能真正被應(yīng)用到產(chǎn)業(yè)中。

      如果直接將基礎(chǔ)大模型應(yīng)用到諸如醫(yī)療、金融等場景中,實際使用效果并不如人意,這是因為訓(xùn)練基礎(chǔ)大模型用到的數(shù)據(jù)是來自互聯(lián)網(wǎng)的通識數(shù)據(jù),這些數(shù)據(jù)無法形成某一行業(yè)的專業(yè)知識,因而無法處理專業(yè)領(lǐng)域的問題。

      以醫(yī)療場景為例,基礎(chǔ)大模型要應(yīng)用到醫(yī)院場景,就需要收集醫(yī)院場景的數(shù)據(jù),對基礎(chǔ)大模型進行第二次訓(xùn)練,由此才能得到醫(yī)院大模型。



      如果還要應(yīng)用到更垂直的應(yīng)用領(lǐng)域,例如B超檢測,還可以基于B超檢測的數(shù)據(jù)進行第三次訓(xùn)練,第四次訓(xùn)練……

      依次類推,我們就可以得到一個垂直細分領(lǐng)域應(yīng)用的大模型。

      05模型推理

      第五個環(huán)節(jié),也是最后一個環(huán)節(jié)是模型推理。

      GPU顯存容量往往難以滿足大模型推理需求,為此,業(yè)界也出現(xiàn)了針對推理場景特別研發(fā)的推理芯片。

      例如2024年2月,谷歌前員工創(chuàng)立的AI芯片創(chuàng)企Groq,就曾憑借基于自研LPU芯片運行的大模型推理任務(wù),速度堪比英偉達GPU的10倍。



      推理卡對存儲同樣有著很高的要求,推理卡的存儲器主要會存放兩類數(shù)據(jù),一類是模型訓(xùn)練完的參數(shù),另一類是模型推理過程KV-cache。

      這其中,尤以KV-cache占用存儲空間大。

      以萬億參數(shù)規(guī)模模型為例:

      模型(參數(shù))大小為2TB,需要26張GPU存儲參數(shù);

      模型KV-cache大小為7TB,需要86張GPU存儲相關(guān)推理過程。

      推理卡的存儲器如果不夠大,將會直接影響模型推理效果。

      那么,如何提升模型推理過程中的存儲容量,進而提升模型效果?

      由于推理卡是插在服務(wù)器上,服務(wù)器原本就有CPU和存儲器,在推理過程中,服務(wù)器上的CPU和存儲器通常處于閑置狀態(tài)。

      如果能將這些處于閑置狀態(tài)的CPU和存儲器利用起來,來存儲KV-cache,自然就能提升模型推理效果,模型推理性能至少能因此提升2倍。



      這就是存儲一體的分離式KV-cache設(shè)計邏輯。

      Kimi作為2024年國內(nèi)大模型創(chuàng)業(yè)公司中跑出的一匹黑馬,一經(jīng)破圈,曾連續(xù)五次算力擴容卻仍經(jīng)歷了服務(wù)器過載宕機。

      那么,Kimi后來是如何進行模型推理架構(gòu)調(diào)整,進而平穩(wěn)承載流量洪峰的呢?

      這其中的核心邏輯是以存換算。

      以大模型輔助讀論文場景為例:

      第一個用戶向Kimi提問:請總結(jié)一下這篇論文。

      第二個用戶向Kimi提問:這篇論文的關(guān)鍵創(chuàng)新點是什么?

      依次類推,這樣一篇論文可能會有10-20萬用戶查詢和提問。



      如果以傳統(tǒng)推理過程來看,這就意味著這10-20萬用戶的KV-cache都要存起來。

      這時,如果僅僅是將共享可復(fù)用部分的KV-cache存下來進行多次復(fù)用,不同部分不再存儲,而是改由實時計算,這樣就實現(xiàn)了以存換算,大幅降低了算力開銷。

      數(shù)據(jù)獲取——數(shù)據(jù)預(yù)處理——模型訓(xùn)練——模型微調(diào)——模型推理,這五個環(huán)節(jié)構(gòu)成了大模型的全生命周期。

      對于中國算力產(chǎn)業(yè)而言,這其中的萬卡集群構(gòu)建異構(gòu)卡聯(lián)合訓(xùn)練,是如今我們面臨的兩大難題。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      大年初一都是好消息:烏軍獲兩年半來最大戰(zhàn)果、基輔供電恢復(fù)95%

      大年初一都是好消息:烏軍獲兩年半來最大戰(zhàn)果、基輔供電恢復(fù)95%

      鷹眼Defence
      2026-02-17 10:30:12
      春晚機器人被外國媒體這么宣傳,我才發(fā)現(xiàn)事情并不簡單!

      春晚機器人被外國媒體這么宣傳,我才發(fā)現(xiàn)事情并不簡單!

      青青子衿
      2026-02-17 03:28:56
      突然火了,壓歲錢給多少合適?網(wǎng)友:這做法可全國推廣

      突然火了,壓歲錢給多少合適?網(wǎng)友:這做法可全國推廣

      環(huán)球網(wǎng)資訊
      2026-02-16 19:38:17
      伊朗談判新策略曝光:與美聯(lián)合開發(fā)油氣田、礦區(qū),采購美飛機,“讓美國能快速獲得高額經(jīng)濟回報”!特朗普最新表態(tài),美軍大舉增兵

      伊朗談判新策略曝光:與美聯(lián)合開發(fā)油氣田、礦區(qū),采購美飛機,“讓美國能快速獲得高額經(jīng)濟回報”!特朗普最新表態(tài),美軍大舉增兵

      每日經(jīng)濟新聞
      2026-02-17 09:45:04
      郭富城曝馬年春晚節(jié)目結(jié)束后,請王一博出來團建被拒,理由超搞笑

      郭富城曝馬年春晚節(jié)目結(jié)束后,請王一博出來團建被拒,理由超搞笑

      娛最資訊
      2026-02-16 20:52:24
      陳偉霆一家北京過春節(jié),何穗曬照別墅擺滿各色蝴蝶蘭,年味十足

      陳偉霆一家北京過春節(jié),何穗曬照別墅擺滿各色蝴蝶蘭,年味十足

      柒佰娛
      2026-02-17 10:30:30
      從戚家軍到星鏈干擾器,文明從來不是固步自封,而是對世界的鏈接。

      從戚家軍到星鏈干擾器,文明從來不是固步自封,而是對世界的鏈接。

      問道求真
      2026-02-17 00:10:44
      說實話,王菲今年唱的歌不是不好聽,也不是聽不懂,而是難度太高

      說實話,王菲今年唱的歌不是不好聽,也不是聽不懂,而是難度太高

      小染說臺球
      2026-02-17 12:33:20
      刷屏!馬麗“單飛”,沈騰緊張到說錯詞?這個小品諷刺拉滿,網(wǎng)友:尺度不小!秦嵐、王楚然、李沁古裝“美到詞窮”,王一博回應(yīng)打滑

      刷屏!馬麗“單飛”,沈騰緊張到說錯詞?這個小品諷刺拉滿,網(wǎng)友:尺度不小!秦嵐、王楚然、李沁古裝“美到詞窮”,王一博回應(yīng)打滑

      每日經(jīng)濟新聞
      2026-02-17 11:08:38
      馬年春晚帶火了機器人,機器人賣爆了,就連售價63萬元的機器人也秒光

      馬年春晚帶火了機器人,機器人賣爆了,就連售價63萬元的機器人也秒光

      極目新聞
      2026-02-17 11:03:42
      越南高鐵已經(jīng)拖不起了,中國始終不肯出手,河內(nèi)開始病急亂投醫(yī)

      越南高鐵已經(jīng)拖不起了,中國始終不肯出手,河內(nèi)開始病急亂投醫(yī)

      番外行
      2026-02-11 16:29:35
      小卡與杜蘭特手掌對比驚人!看起來相當于KD兩倍大 歷史排名第9

      小卡與杜蘭特手掌對比驚人!看起來相當于KD兩倍大 歷史排名第9

      羅說NBA
      2026-02-17 08:14:09
      馬年春晚槽點比亮點多,機器人泛濫,王菲難聽,沈騰演了個廣告劇

      馬年春晚槽點比亮點多,機器人泛濫,王菲難聽,沈騰演了個廣告劇

      荒野老五
      2026-02-17 00:36:43
      收視率破36!央視馬年春晚首波口碑出爐,觀眾的評價“一針見血”

      收視率破36!央視馬年春晚首波口碑出爐,觀眾的評價“一針見血”

      八卦南風(fēng)
      2026-02-16 23:11:18
      歐洲小偷,都傳瘋了,達成了一個行業(yè)共識,中國人的錢包,隨便拿

      歐洲小偷,都傳瘋了,達成了一個行業(yè)共識,中國人的錢包,隨便拿

      西樓知趣雜談
      2026-02-14 18:35:51
      女子拒給弟弟20萬彩禮,父母告上法庭索賠5倍養(yǎng)育費,節(jié)前收到傳票

      女子拒給弟弟20萬彩禮,父母告上法庭索賠5倍養(yǎng)育費,節(jié)前收到傳票

      觀世記
      2026-02-16 14:14:58
      我看完今年的馬年春晚后,說幾句肺腑之言,都是自己的真感受

      我看完今年的馬年春晚后,說幾句肺腑之言,都是自己的真感受

      神牛
      2026-02-16 23:55:46
      NFT大崩盤!賈斯汀?比伯130萬美元買的 “無聊猿猴”,如今僅值1.2萬美元

      NFT大崩盤!賈斯汀?比伯130萬美元買的 “無聊猿猴”,如今僅值1.2萬美元

      回旋鏢
      2026-02-17 15:49:15
      春晚飄過40載,今年春晚尤其難看

      春晚飄過40載,今年春晚尤其難看

      鳳眼論
      2026-02-16 22:50:18
      看了觀眾對王菲馬年春晚的評價,龔琳娜的話,終于有人信了!

      看了觀眾對王菲馬年春晚的評價,龔琳娜的話,終于有人信了!

      社會日日鮮
      2026-02-17 08:03:46
      2026-02-17 16:23:01
      鋅產(chǎn)業(yè) incentive-icons
      鋅產(chǎn)業(yè)
      用技術(shù)范式,給未來一個解釋。
      184文章數(shù) 30關(guān)注度
      往期回顧 全部

      科技要聞

      春晚這些機器人是怎樣做到的?

      頭條要聞

      易烊千璽提醒:境外勢力滲透手法極具欺騙性

      頭條要聞

      易烊千璽提醒:境外勢力滲透手法極具欺騙性

      體育要聞

      谷愛凌:'不小心"拿到了銀牌 祝大家馬年大吉

      娛樂要聞

      春晚三大感人瞬間:周深于和偉上榜

      財經(jīng)要聞

      大年初一,這三件事很不尋常

      汽車要聞

      問界M6更多信息:乾崑智駕ADS4.0+鴻蒙座艙5.0

      態(tài)度原創(chuàng)

      手機
      家居
      房產(chǎn)
      健康
      教育

      手機要聞

      馬年快樂!蘋果CEO庫克給大家拜年了

      家居要聞

      中古雅韻 樂韻伴日常

      房產(chǎn)要聞

      三亞新機場,又傳出新消息!

      轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

      教育要聞

      高考紅包數(shù)字揭秘!這樣送才吉利

      無障礙瀏覽 進入關(guān)懷版