近日,英偉達(dá)在2024 GTC大會上發(fā)布了多款芯片、軟件產(chǎn)品,引得國內(nèi)媒體一通兒追捧,什么“核彈”、“炸裂”,總之一個比一個驚悚。同樣的追捧也出現(xiàn)在了對于OpenAI的身上,尤其是其Sora問世之時更是如此。殊不知,在我們追趕的過程中,極有可能陷入后發(fā)劣勢的陷阱。
![]()
AI的“Wintel效應(yīng)”顯現(xiàn):英偉達(dá)給的,OpenAI們就會拿走
“安迪給的,比爾就會拿走(What Andy giveth, Bill taketh away)”。這句源于1990年代在計算機(jī)會議上的一句小笑話形象地詮釋了“Wintel效應(yīng)”,即指新軟件總將耗盡新硬件所提高的任何計算能力。正是借此,直到今天,Wintel不僅依然牢牢控制著PC產(chǎn)業(yè),且雙方依然是全球科技產(chǎn)業(yè)中不可或缺的角色。
那么進(jìn)入現(xiàn)在的AI,尤其是炙手可熱的生成式AI時代,又當(dāng)如何呢?
眾所周知,生成式AI模型的訓(xùn)練是一個計算極為密集的過程。這些模型包含數(shù)百萬乃至數(shù)十億個參數(shù),需要在龐大的數(shù)據(jù)集上進(jìn)行多輪迭代訓(xùn)練。在訓(xùn)練過程中,涉及大量矩陣運(yùn)算和梯度計算等計算密集型操作。因此,為確保訓(xùn)練過程的順利進(jìn)行,必須依賴強(qiáng)大的計算資源來加速。
不同模型訓(xùn)練一輪所需算力
![]()
資料來源:《language Models are Few-Shot Learners》,中國銀河證券研究院
以最近大火的Sora為例,據(jù)銀河證券研究院基于大語言模型推導(dǎo)算力需求方法,對Sora單次訓(xùn)練算力需求進(jìn)行推演后推測,Sora參數(shù)規(guī)模估算在30B(待確認(rèn)),如果按此參數(shù)測算,推演出Sora訓(xùn)練單次算力需求或可達(dá)到8.4×10^23Flops,相當(dāng)于GPT-3 175B的2.7倍。而且該研究院認(rèn)為,目前Sora還在初級階段,仍然存在如能以準(zhǔn)確模擬物理運(yùn)動規(guī)律及場景、混淆左右方向、混淆空間細(xì)節(jié)等,而伴隨Sora不斷迭代調(diào)優(yōu),訓(xùn)練數(shù)據(jù)集規(guī)模增大,未來算力需求將呈現(xiàn)指數(shù)級爆發(fā)式增長。
國泰君安則認(rèn)為,Sora大模型延續(xù)了此前GPT模型“源數(shù)據(jù)-Transformer-Diffusion-涌現(xiàn)”的技術(shù)路徑,這意味著其發(fā)展成熟同樣需要“海量數(shù)據(jù)+大規(guī)模參數(shù)+大算力”作為基座,且由于視頻訓(xùn)練所需數(shù)據(jù)量遠(yuǎn)大于文本訓(xùn)練的數(shù)據(jù)量,預(yù)計Sora大模型將進(jìn)一步拉大算力缺口。
問題來了,如此大的算力需求或者說缺口,誰來補(bǔ)?無疑業(yè)內(nèi)首先想到的就是英偉達(dá)。
說到英偉達(dá),就不得不提及剛剛結(jié)束的,備受業(yè)內(nèi)關(guān)注的英偉達(dá)2024 GTC大會。雖然相關(guān)的報道很多,但我們還是要借此看下英偉達(dá)在滿足AI算力需求的技術(shù)和商業(yè)邏輯是什么。
作為GTC大會的核心,英偉達(dá)發(fā)布了新一代計算架構(gòu)Blackwell,以及采用Blackwell架構(gòu)的GPUB200及GB200,在FP4精度下,Blackwell 架構(gòu)的AI計算性能達(dá)到前代Hopper 架構(gòu)的5倍。Blackwell系列GPU采用臺積電4NP工藝,集成了2080億顆晶體管,且升級了 Transformer引擎、NVLink等以提升算力。相對上一代Hopper架構(gòu),Blackwell架構(gòu)的集群化計算降低了能源消耗及所需的GPU數(shù)量,有望降低計算成本。
![]()
例如在標(biāo)準(zhǔn)的1750億參數(shù)GPT-3基準(zhǔn)測試中,GB200的性能是H100的7倍,提供的訓(xùn)練算力是H100的4倍。過去,在90天內(nèi)訓(xùn)練一個1.8萬億參數(shù)的MoE架構(gòu)GPT模型,需要8000個Hopper架構(gòu)GPU,15兆瓦功率;如今,在Blackwell架構(gòu)下進(jìn)行訓(xùn)練,同樣90天時間的情況下只需要2000個GPU,以及1/4的能源消耗,是不是很摩爾定律。
這里請注意,英偉達(dá)算力創(chuàng)新和發(fā)展的邏輯是降本增效,而這個并非是指芯片成本本身,而是AI訓(xùn)練和推理的整體TCO(其實英偉達(dá)CEO黃仁勛在接受媒體采訪時提到了),而給外界的感覺越來越貴,是因為被OpenAI不斷更迭的大模型們“吃掉”了。
需要說明的是,在演講中,老黃還特別提到2016年贈送OpenAI的DGX-1,那也是史上第一次8塊GPU連在一起組成一個超級計算機(jī),當(dāng)時只有0.17PFlops。從此之后便開啟了訓(xùn)練最大模型所需算力每6個月翻一倍的增長之路,并一直延續(xù)到今天,甚至有過之而無不及。
到這里,看出點兒門道沒?至少在我們看來,也許早在8年前,不管是有意還是無意,英偉達(dá)和OpenAI就已達(dá)成了類似“Wintel效應(yīng)”式的默契。而我們到今天才看到這種效應(yīng)浮出水面(因為英偉達(dá)和OpenAI彼此間的技術(shù)更迭速度太快、步子太大),由此看來,以后“吃掉”芯片算力的就是大模型了,而根據(jù)MIT的相關(guān)研究,大模型以后根本“吃不飽”,這意味著算力還需增加,而英偉達(dá)與OpenAI的“Wintel效應(yīng)”將繼續(xù)正循環(huán)下去。
追趕GPT國內(nèi)掀百模大戰(zhàn) 知其然不知所以然
也許正是由于英偉達(dá)和OpenAI跑得太快,中國的AI,尤其是生成式AI掀起了“比學(xué)趕幫超”的熱潮,這點在大模型方面體現(xiàn)得尤為充分。
自O(shè)penAI的GPT問世,全球沒有哪一個國家像我們,在極短的時間內(nèi)出現(xiàn)了各行各業(yè)都推自己類GPT大模型、中模型、小模型以及各種所謂的行業(yè)模型,甚至有媒體用“百模大戰(zhàn)”形容當(dāng)下國內(nèi)大模型數(shù)量之多,競爭之慘烈。
實際的情況是,人工智能大模型研發(fā)的關(guān)鍵因素之一是算法,而算法的進(jìn)步又依賴于持之以恒的前沿研究投入。在當(dāng)下國內(nèi)企業(yè)快節(jié)奏的競爭和盈利壓力下,企業(yè)難以做到不計短期回報的投入。因而,在這些高風(fēng)險的創(chuàng)新技術(shù)領(lǐng)域,國內(nèi)企業(yè)更傾向于采取復(fù)制和追隨策略,國內(nèi)大模型大多基于國外公開論文和開源模型的基礎(chǔ)上進(jìn)行模仿和復(fù)制,結(jié)果總是“慢人一步”,最典型的表現(xiàn)就是Sora的出現(xiàn),讓我們又是一驚。
除了“慢人一步”,我們認(rèn)為最為致命的是,上述基于國外公開論文和開源模型的基礎(chǔ)上進(jìn)行模仿和復(fù)制造成的后果是我們國內(nèi)企業(yè)對于大模型會陷入知其然不知所以然的尷尬。
例如近日,南加州大學(xué)的研究團(tuán)隊通過一種攻擊方法,成功破解了OpenAI最新版 ChatGPT模型(gpt-3.5-turbo)的參數(shù)規(guī)模,結(jié)果發(fā)現(xiàn)其參數(shù)規(guī)模可能只有70億,而非此前外界猜測和傳聞的數(shù)百億甚至上千億。
![]()
那么隨之而來的是,最初的200億參數(shù)數(shù)據(jù)是否來自誤傳?還是OpenAI之后又對模型進(jìn)行了壓縮?亦或是OpenAI一直在刻意隱藏ChatGPT的真實參數(shù)規(guī)模?無論真相如何,都表明OpenAI在模型優(yōu)化或者算法方面擁有著強(qiáng)大的技術(shù)實力,它才是GPT的核心。
反觀國內(nèi)的大模型,以現(xiàn)在排名靠前,用戶最大的百度前文心一言為例,據(jù)新浪科技的報道,近日,多位文心一言4.0付費(fèi)用戶表示,“買了文心一言4.0會員,問了幾組問題后發(fā)現(xiàn)質(zhì)量不達(dá)預(yù)期,跟免費(fèi)的版本沒有太多區(qū)別,想要退費(fèi)又聯(lián)系不上客服,覺得有點虧。”在黑貓投訴“投訴入口”平臺上,目前文心一言也是國內(nèi)唯一一款收到多位用戶投訴的對話式AI產(chǎn)品。而新浪科技實測發(fā)現(xiàn),目前這些版本功能相對單一,除了滿足基本的嘗鮮要求外,確實難以與其他相似的免費(fèi)工具拉開差距,甚至于在交互體驗和內(nèi)容即時性上,也開始落后于國內(nèi)同行。
又如創(chuàng)新工場董事長兼CEO李開復(fù)創(chuàng)辦的AI大模型創(chuàng)業(yè)公司“零一萬物”去年11月推出的Yi-34B和Yi-6B兩個開源大模型“抄襲 LLaMA”事件,雖然其始終沒有承認(rèn)抄襲,但也承認(rèn)做法不妥,承諾將修改爭議張量名。
號稱國內(nèi)領(lǐng)先和AI領(lǐng)軍人物創(chuàng)辦公司的大模型尚且如此,至于其他所謂大模型,相信人們都會有自己的判斷。
AI算力芯片挑戰(zhàn)英偉達(dá) 陷入純算力PK誤區(qū)
如果上述是我們國內(nèi)在生成式AI“軟”(大模型)方面與GPT的競爭是知其然不知所以然,那么在“硬”(AI芯片)方面表現(xiàn)又如何呢?
目前,具有國產(chǎn)AI加速芯片(等同于英偉達(dá)的GPU)的企業(yè)包括阿里巴巴(含光系列)、百度(昆侖系列)、華為(昇騰系列)、寒武紀(jì)(思元系列)、海光信息(深算系列)、燧原科技、天數(shù)智芯、壁仞科技、摩爾線程等。此外,景嘉微、龍芯中科也在研發(fā)云端AI加速芯片。
這里我們以媒體近期報道最多、最具代表性,同時也被認(rèn)為最具挑戰(zhàn)英偉達(dá)的華為昇騰和海光信息的深算為例來予以說明。
先看華為昇騰系列,據(jù)相關(guān)媒體報道,經(jīng)過測試,目前在大模型推理方面,國內(nèi)AI芯片910B僅能達(dá)到A100的60%-70%左右,集群的模型訓(xùn)練難以為繼;同時,910B在算力功耗、發(fā)熱等方面遠(yuǎn)高于英偉達(dá)A100/H100系列產(chǎn)品,且無法兼容CUDA,很難完全滿足長期智算中心的模型訓(xùn)練需求。對此,有大型國企客戶評價,華為昇騰確實夠用,但不好用。原因何在?
![]()
![]()
其實不要說華為910B,其在2019年8月發(fā)布的昇騰910在某些媒體曝光的紙面數(shù)據(jù)上,就與英偉達(dá)在2020年5月發(fā)布的A100性能相當(dāng),但是華為不具備深度學(xué)習(xí)框架生態(tài)掌控力,導(dǎo)致Tensorflow/Pytorch兩大主流深度學(xué)習(xí)訓(xùn)練框架沒有基于華為昇騰910做特定的優(yōu)化,相反,PyTorch、TensorFlow等主流的深度學(xué)習(xí)框架均提供了基于CUDA的英偉達(dá)GPU的運(yùn)算支持,同時還有更高層、更抽象的調(diào)用方式,方便用戶編程。所以算法結(jié)合上述兩大訓(xùn)練框架在昇騰910上實際跑出來的性能其實不如英偉達(dá)A100,而目前僅華為自研的深度學(xué)習(xí)框架MindSpore對昇騰910和昇騰310做了特別優(yōu)化,但由于華為MindSpore大部分精力都是放在對昇騰芯片的算子支持和優(yōu)化上,對英偉達(dá)GPU的支持還不夠,只有同時使用華為的深度學(xué)習(xí)框架和昇騰芯片才能同時發(fā)揮出兩者的最佳性能。
而要想在深度學(xué)習(xí)訓(xùn)練框架要想打破Tensorflow和Pytorch的壟斷必須要靠原始創(chuàng)新,但目前包括華為基于開源的MindSpore等在內(nèi)的國產(chǎn)深度學(xué)習(xí)框架尚未很好解決上述兩大訓(xùn)練框架的痛點。
說到深度學(xué)習(xí)框架,回望Caffe,其之所以能夠在早期獲得開發(fā)者歡迎是因為解決了深度學(xué)習(xí)框架從0到1的過程,Tensorflow之所以可以取代Caffe是因為解決了其不夠靈活、不能自動求導(dǎo) 、對非計算機(jī)視覺任務(wù)支持不好等問題,Pytorch之所以明顯搶奪Tensorflow的份額是因為Pytorch引入了動態(tài)圖解決了Tensorflow是靜態(tài)圖設(shè)計調(diào)試?yán)щy的問題。
相比之下,不僅是華為MindSpore,目前國產(chǎn)的深度學(xué)習(xí)框架百度Paddle Paddle、曠視Megengine等均還沒有完美解決開發(fā)者在用Tensorflow和Pytorch所遇到的痛點。
此外,將AI芯片作為訓(xùn)練和推理,構(gòu)建集群的能力至關(guān)重要,而這又和互聯(lián)技術(shù)密切相關(guān)。
而提及互聯(lián)技術(shù),英偉達(dá)的NVlink通訊模組是目前市場上最先進(jìn)的技術(shù)。盡管華為聲稱自己的卡間互聯(lián)技術(shù)(模仿NVlink模式)也不錯,但在進(jìn)行8卡同時算力的訓(xùn)練模型訓(xùn)練時,與英偉達(dá)的技術(shù)相比仍存在差距。樂觀地估計,要達(dá)到英偉達(dá)的技術(shù)水平,可能還需要兩到三年的時間。不過,日前英偉達(dá)第五代NVLink,可為每個GPU提供了1.8TB/s雙向吞吐量,確保多達(dá)576個GPU之間的無縫高速通信,適用于復(fù)雜大語言模型的發(fā)布,恐怕又會將華為甩開距離。
![]()
至于服務(wù)器與服務(wù)器之間的互聯(lián),目前大部分通用AI服務(wù)器之間的互聯(lián),英偉達(dá)推薦使用其IB交換機(jī),因為這種交換模式在數(shù)據(jù)損失量方面表現(xiàn)最佳,技術(shù)成熟且經(jīng)過20多年的市場驗證,至今連模仿者都未能出現(xiàn)。
需要補(bǔ)充說明的是,由于華為受到非市場因素的影響越來越大,即便未來性能與英偉達(dá)產(chǎn)品在實際使用中相近,但由于制造工序等問題,未來差距可能會擴(kuò)大。有部分報道稱,昇騰的成品率僅為20%左右。這無疑使得上述類似國企的用戶們,在不好用的同時,還會抬高他們使用昇騰的成本。
接下來,我們在看海光信息的深思DCU。
追根溯源,海光的DCU源自AMD的MI100芯片,這在其此前的招股說明書有描述。從源頭可以看出,海光DCU是AMD Mi100的裁剪版,裁剪了50%的性能。最關(guān)鍵的痛點是,海光DCU從Mi100授權(quán)過來時,把GPU的互聯(lián)接口(類似NVlink)從AMD的Infinity Fabric縮減成了xGMI接口(顯卡場景),導(dǎo)致最多只能兩顆GPU直聯(lián)。因此無法組成大規(guī)模陣列(Nvidia A100可以16GPU集群,H100 256GPU集群),基本上喪失了訓(xùn)練能力(浮點性能低和無法集群組網(wǎng));至于推理能力,場景性價比很低,大概是2022年代主流專用推理芯片的10%—15%性能。
另外,深思屬于兼容“類 CUDA”生態(tài),但由于CUDA的閉源特性和快速迭代,后來者很難通過指令翻譯等方式完美兼容,即使部分兼容也會有較大的性能損失,導(dǎo)致在性價比上會持續(xù)落后英偉達(dá)。
更不利的是,近日有消息稱,英偉達(dá)可能禁止第三方硬件,也就是非英偉達(dá)的GPU,通過使用模擬層運(yùn)行CUDA軟件,而之前英偉達(dá)只是在在線EULA用戶協(xié)議中提出警告而已。雖然對此業(yè)內(nèi)持有不同的看法,但不管最后是否會付諸于行動,都暴露出所謂兼容CUDA所蘊(yùn)含的巨大和未知的風(fēng)險。
當(dāng)然,隨著深思的更新迭代,尤其是今年可能發(fā)布的深思三,希望上述短板可以有所改觀。
綜上,我們認(rèn)為,在生成式AI中“硬”的AI芯片方面,我們的真實實力遠(yuǎn)非某些媒體報道的那么樂觀,而這又和我們相關(guān)企業(yè)缺乏原始創(chuàng)新、走模仿(技術(shù))和兼容(生態(tài))的路線密切相關(guān)。
寫在最后:不可否認(rèn),在AI,尤其是生成式AI方面,我們已經(jīng)失去了先發(fā)優(yōu)勢,但更可怕的是,從目前的發(fā)展路徑看,為了追趕英偉達(dá)和OpenAI這一新的“Wintel效應(yīng)”和借助被制裁而出現(xiàn)新的爭奪國內(nèi)AI芯片市場的所謂機(jī)會,我們有可能被人家?guī)牒蟀l(fā)劣勢中,即借鑒和依賴往往無法標(biāo)定涇渭分明的界限,在學(xué)習(xí)借鑒過程中形成“模式依賴”“路徑依賴”“技術(shù)依賴”。只“借”不“鑒”、抑或是只借鑒不創(chuàng)新,知其然而不知其所以然,形成依賴性而不自知,甚至還沾沾自喜,進(jìn)而使得我們在付出更大資源和社會成本、與人家科技創(chuàng)新和發(fā)展的邏輯是降本增效背道而馳的同時,導(dǎo)致差距會越來越大。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.