面對全球以ChatGPT為代表的新一代人工智能的飛速發展,構建高質量的基礎大模型基座,快速將大模型能力轉換為新質生產力,進而帶動算力產業的快速發展,是引領下一步全球人工智能發展方向的重要抓手,也是我們追趕當下最新GPT-4的機會所在,而這背后需要的是我們相關產業,無論在技術創新,還是商業模式的選擇上,不能一味地跟隨,而是要結合國情及產業自身的特點獨辟蹊徑才能實現。
![]()
GPT-4:核心還是基礎大模型能力的強大
日前,引發全球科技界高度關注的OpenAI創始人、“ChatGPT之父”山姆?奧特曼(Sam Altman)被OpenAI董事會解雇的亂局,最終以山姆?奧特曼重回OpenAI繼續擔任首席執行官而塵埃落定。
而就在此次亂局發生之前,山姆?奧特曼曾在本月初舉辦的首屆OpenAI開發者大會上宣布,每周有一億用戶使用ChatGPT。自今年3月發布ChatGPT的API功能以來,該公司已擁有200多萬開發者,其中包括92%以上的財富500強企業。
以微軟為例,Bing聊天是最早使用GPT-4的平臺之一。通過GPT-4,Bing聊天可以對用戶的查詢提供更正確和相關的回復。
此外,微軟還發布了GPT-4平臺支持的新AI功能,名為Copilot,它將適用于Word,、PowerPoint、Excel、Outlook這些微軟熱門的Microsoft 365商業軟件。微軟聲稱,Copilot的功能比簡單地“將OpenAI的ChatGPT嵌入到Microsoft 365中”更強大。Microsoft 365的主管、微軟現代工作和商業應用副總Jared Spataro介紹,Copilot與用戶一起工作,嵌入數以百萬用戶日常使用的Word、Excel、PowerPoint、Outlook、Teams等App中,是“一種全新的工作方式”。
對此,浪潮信息高級副總裁劉軍認為:“上述其實是在應用層面業內看到的GPT的能力,而這些應用層面的落地最終是由其底層的基礎大模型能力所支撐和決定的,這就是為什么我們認為國內大模型發展的核心還是應該聚焦在基礎大模型能力的提升上,因為唯有這樣,才能夠支撐在用戶端應用水平的提升,就像我們對人才的教育,最終從學校里面培養出來的是一個高素質,綜合能力強的人才,你把他放到什么樣的專業和行業,都會有更好的表現。但如果綜合能力是小學水平,你把他放到不同的專業和行業中,不是說不能干,可能也能干,但最大的可能就是照貓畫虎,指望其展現出很高的水平,這個概率是比較低的“。
事實的確如此。與此前的GPT-3、GPT-3.5模型相比,GPT-4具備了多模態功能,支持接收圖像和文本輸入并輸出文本。
![]()
例如在圖像文字、復雜推理任務領域展現出的優秀能力方面,GPT-4可根據圖像信息識別圖像中包含的信息,并生成文字反饋;在論文理解方面,可以智能識別論文截圖中包含的文字以及圖表內容并進行匯總分析,實現論文的總結歸納功能;在復雜問題推理上,可準確解答數學題,并根據題目要求輸出推理計算過程,相比于GPT-3和GPT-3.5進步顯著。而這些無一不是基礎大模型能力強大的體現。
夯實基礎大模型底座,算力、數據、算法挑戰猶存
說到基礎大模型,業內自然就會聯想到通用人工智能。
與狹義的人工智能相比,通用人工智能通過跨領域、跨學科、跨任務和跨模態的大模型,能夠滿足更廣泛的場景需求、實現更高程度的邏輯理解能力與使用工具能力,這些能力的背后,所蘊藏的則是通用大模型智力水平的高低。
以大模型的“涌現”為例(大模型的涌現能力可以為基礎大模型提供基礎,通過在大規模數據上學習,模型可能會涌現出在多個任務上都有用的特性,使得它在通用性上表現更好),2021年8月,李飛飛和100多位學者聯名發表一份200多頁的研究報告《On the Opportunities andRisk of Foundation Models》,深度地綜述了當前大規模預訓練模型面臨的機遇和挑戰。
在該文中,AI專家將大模型統一命名為FoundationModels,可以翻譯為基礎模型或者是基石模型,論文肯定了Foundation Models對智能體基本認知能力的推動作用,同時也指出大模型呈現出“涌現”特性,即在系統的各個部分相互作用中出現的一些新的、不可預測的特性或行為。例如在大模型的上下文中,涌現通常指的是模型在訓練過程中產生了一些意想不到的、具有價值的特性或能力。但隨之而來的則是除了數據、算法之外,對于算力需求的增加。
以ChatGPT模型為例,公開數據顯示,其所使用的GPT-3大模型所需訓練參數量為1750億,算力消耗為3640PF-days(即每秒運算一千萬億次,運行3640天),需要至少1萬片V100 GPU提供支撐。據統計,當模型參數擴大十倍,算力投入將超過十倍,這之中,模型架構、優化效率、并行處理能力以及算力硬件能力等因素均會影響具體增加的倍數。
![]()
由此可見,基礎大模型的算力系統并非算力的簡單堆積,其需要解決諸如低時延海量數據交換;多臺機器均衡計算、避免冷熱不均、消弭算力堵點;解決在幾個月漫長的計算過程中,當單一硬件出現故障時,訓練中斷、梯度爆炸、算法重新走一遍等一系列的挑戰,是一項復雜的系統工程,需要從系統層面加以創新,從算力效率、線性擴展、長效穩定等多個方面進行探索,進而為高質量的基礎大模型筑基立法,搶贏研發與應用落地的時間窗口。
在算法層面,大模型訓練不僅依賴高質量數據,同時也要解決算法收斂、斷點續訓、參數優化、模型微調等挑戰,數據質量、代碼調優、執行效率等關乎訓練質量的因素。特別是在大模型預訓練過程中,使用大量且多樣化的文本數據可能導致模型在特定任務數據集上無法準確捕捉分布特性等,進而影響訓練的效率和成本。
以Transformer架構為例,目前學術界大部分的工作都是圍繞如何提升Transformer 的效率展開,硬件結構也都是圍繞如何優化Transformer的方式而設計,雖然其為業內帶來了創新突破,但仍然存在一些局限性。例如,對于長序列的處理和對序列中的順序信息的處理算法,會增加算力消耗和成本,而這為改進注意力機制、剪枝和量化等這些當前未曾突破的瓶頸與值得創新的發展方向提出了挑戰。
在數據層面,以預訓練階段的數據集為例,高質量的訓練數據越大,大模型的推理能力越強。例如GPT-3,來源于維基百科、書籍及學術期刊等高質量數據僅占其數據集的17.8%,但其在模型訓練中的權重占到了40%,但不幸的是,大模型訓練所需要的數據集的增速遠大于高質量數據生成的速度,導致高質量數據逐漸面臨枯竭,而這無疑對于高質量訓練數據的提取提出了更高的創新要求。
對此,浪潮信息人工智能軟件研發總監吳韶華稱,我們在做大模型時,從2018年到2023年把互聯網上所有的中文網頁,包括社群數據的網頁全都提取出來,數據源差不多有12PB左右,清洗之后的中文社群數據只有不到10GB,體量非常之小,卻花了巨大的努力,即便如此,這不到10GB的中文社群數據的質量,經我們分析后依然認為是不夠高的。可見提取高質量訓練數據,即數據既要多樣性,同時也要保持高質量的挑戰之大。
追趕與落地,技術與商業模式應獨辟蹊徑
針對上述挑戰,國內大模型可謂是百花齊放,以期望在追趕GPT-4的同時,加速大模型的應用落地。據《2023—2024年中國人工智能計算力發展評估報告》顯示,截至2023年10月,中國累計發布兩百余個大模型,發布地主要集中在北京,其中以科研院所和互聯網企業為開發主力軍。
對此,劉軍認為,在產業發展初期,中國大模型的“百花齊放”是利好的,很大程度它可以促進產業生態的繁榮發展。依托通用大模型的能力,從垂直場景應用有針對性地切入,構建技能模型,進而落地行業模型,從長遠的發展路徑來看,它是我們走向通用人工智能的必經之路。
盡管如此,面對國內當下泥沙俱下的“百模大戰”,業內還是亟待從大模型的技術創新和商業模式上,針對我們前述存在的挑戰,能夠獨辟蹊徑,走出與GPT-4殊途同歸之路,并在未來盡快趕超GPT-4,加速大模型的應用落地,促進更多性能強大的基礎大模型的出現,以讓國內的大模型產業,無論是在現在和未來的發展洞察,還是技術與商業模式的實踐中都有參考的價值及意義。
可喜的是,國內已有廠商開始進行大膽的嘗試。
以浪潮信息最新發布的源2.0基礎大模型為例,其在包括與基礎大模型密切相關的算法、數據和算力的技術層面均進行了有別于GPT-4的大膽創新和嘗試。
例如在算法創新上,源2.0提出并采用了一種新型的注意力算法結構,即局部注意力過濾增強機制(LFA:LocalizedFiltering-based Attention)。LFA通過先學習相鄰詞之間的關聯性,然后再計算全局關聯性的方法,能夠更好地學習到自然語言的局部和全局的語言特征,對于自然語言的關聯語義理解更準確、更人性,提升了模型的自然語言表達能力,進而提升了模型精度。
![]()
據浪潮信息對模型結構進行的有效性消融實驗顯示,相比傳統注意力結構,LFA模型精度提高了3.53%。
“在最終的模型訓練上,最大參數只有1026億的源2.0,在LFA算法的加持下,也能比用2457億參數的源1.0,訓練同樣大小Token數的Train Loss降低28%。而訓練的損失曲線越小,意味著大模型對于訓練集的特征學習得越好”。吳韶華進一步解釋了LFA算法因創新而給基礎大模型帶來的能力提升。
在數據創新方面,源2.0通過使用中英文書籍、百科、論文等高質量中英文資料,降低了互聯網語料內容占比,結合高效的數據清洗流程,為大模型訓練提供了高質量的專業數據集和邏輯推理數據集。此外,為了更高效地獲得相對匱乏的高質量中文數學及代碼數據集,源2.0還采用了基于大模型的數據生產及過濾方法,在保證數據的多樣性的同時,也在每一個類別上提升數據質量,獲取了一批高質量的數學與代碼預訓練數據。
在算力方面,源2.0采用了非均勻流水并行的方法,綜合運用流水線并行+優化器參數并行+數據并行的策略,讓模型在流水并行各階段的顯存占用量分布更均衡,避免出現顯存瓶頸導致的訓練效率降低的問題,該方法顯著降低了大模型對芯片間P2P帶寬的需求,為硬件差異較大訓練環境提供了一種高性能的訓練方法。
“相當于給你一條高速公路時,能跑到200公里的時速,但給你一條羊腸小道,也能跑起來,并把最終的結果也能跑到。”劉軍如此比喻在算力資源有限或配置不均的條件下,上述高性能訓練方法所帶來的同等算力效率的提升。
而說到算力效率的提升,這里我們需要補充說明的是,如何提升大規模分布式訓練的計算效率一直是大模型預訓練的一個核心挑戰。特別是在實際的AI集群環境中,會存在GPU之間的互聯帶寬受限或者AI服務器之間的網絡互聯帶寬有限,進而影響大模型預訓練的計算效率。
為此,浪潮信息基于“源”大模型的研發經驗,2022年以來,其AI團隊協助多個客戶將大模型訓練的GPU峰值效率從30%左右提升到50%,從而大幅加速了模型訓練過程,助力千億參數規模的自然語言AI單體大模型在淮海智算中心計算平臺上的訓練算力效率達53.5%,刷新了業內AI大模型訓練算力效率新高。
正是基于上述在基礎模型的技術創新和以往的積淀,源2.0在業界公開的,包含有代碼生成、數學問題求解、事實問答方面等多項能力的多項模型評測中展示出了較為先進的能力表現。
![]()
同樣,在商業模式上,不同于GPT-4的閉源,源2.0采用了全面開源的商業模式。
說到閉源與開源,從計算機科學與人工智能的發展歷程來看,開源始終對軟件技術乃至IT技術發展有著巨大的推動作用。
以目前全球移動產業和市場中閉源的蘋果iOS與開源的谷歌安卓生態比肩為例,試想一下,面對蘋果封閉的iOS生態,當時后發的谷歌,如果效仿蘋果,采用同樣閉源的方式與其競爭結果會怎樣?至少當時強大如微軟,因采用閉源的Windows Phone與iOS硬剛,但最終鎩羽而歸就已經很說明問題。
同理,在大模型領域,面對GPT-4的閉源,開源開放應是國內促進AI技術發展和商業落地的重要手段,因為大模型的開源開放可以使不同的模型之間共享底層數據、算法和代碼,有利于打破大模型孤島,促進模型之間協作和更新迭代,并推動AI開發變得更加靈活和高效。同時,開源開放還有利于推進“技術+行業”的閉環,以更豐富的高質量行業數據反哺模型,打造更強的技術產品,加速商業化進程。
此外,在11月29日的AICC 2023人工智能計算大會上,浪潮信息還公布了源大模型共訓計劃:針對開發者自己的應用或場景需求,通過自研數據平臺生成訓練數據并對源大模型進行增強訓練,訓練后的模型依然在社區開源。開發者只需要提出需求,說清楚具體的應用場景、對大模型的能力需求以及1~2條示例,由源團隊來進行數據準備、模型訓練并開源。
對此,劉軍將大模型的開源開放模式通俗地形容為:人人為我,我為人人。而具體到浪潮信息,早在源1.0發布的時候,就通過開源,將大量相關的課程、視頻會議以及相應的案例、代碼等貢獻出來,供業內參考、學習和使用。據不完全統計,今天國內的大模型中,有超過50家的大模型,實際上使用的浪潮信息開源的數據集。
至于大模型落地行業方面,此前浪潮信息推出的開放的元腦生態,目前也已經聚合了眾多國內做大模型的左手伙伴和賦能到最終行業用戶的右手伙伴(例如SV集成商)。此外,今年8月,浪潮信息還發布了大模型智算軟件棧OGAI“元腦生智”(Open GenAI Infra),其秉承全棧全流程、算力充分釋放、實戰驗證提煉的設計原則,為大模型研發與應用創新全力打造高效生產力,加速生成式AI產業創新步伐。
看未來,鑒于目前業內仍沒有完全開源可商用的千億大模型,業內認為,隨著源2.0的發布,其有望以繁榮的開源模型生態、優越的開源大模型性能和優秀的指令微調策略(微調算法、微調框架等),化解大模型落地的算力、算法、數據挑戰,從而為全球開發者、研究機構、科技企業提供堅實的底座和成長的土壤,釋放生產力,激發無限創新力。
寫在最后:IDC預測,到2026年,全球AI計算市場規模將增長到347億美元,生成式AI計算占比從2023年的11.9%增長到31.7%。為此,從國家到地方,關注通用人工智能的系統建設,探索通用人工智能新路徑,推動創新場景應用,把大模型下沉對接到廣闊的垂直市場,以需求拉動供給端技術進步,并加速大模型向生產力和實體商業價值的轉化已經成為產業各界的共識。
接下來就是大模型相關產業界所面臨的Know How的挑戰,而上述源2.0的發布,無疑為如何應對這些挑戰提供了很好的示范和借鑒,更讓業內看到了國內企業,以算力系統+算法基座創新,筑基“高智商”通用大模型基座算力之道,在未來追趕GPT-4,加速大模型行業落地的信心。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.