![]()
在Scaling Law的發(fā)現(xiàn)和研究中,百度和OpenAI實(shí)際又各自扮演了什么角色
原創(chuàng)|科技考拉
外網(wǎng)最近超熱鬧的。多位AI大佬在社交媒體下場(chǎng)爆料,稱(chēng)大模型預(yù)訓(xùn)練第一性原理Scaling Law最早的原始研究來(lái)自百度,而非外界一直以為的OpenAI。
南華早報(bào)則發(fā)表了報(bào)道《Did China’s Baidu discover scaling laws before OpenAI? A debate rekindles in AI circles》,稱(chēng)「盡管美國(guó)在AI模型創(chuàng)新方面一直被視為領(lǐng)先者,但最新的討論顯示,中國(guó)在探索這些概念上可能更為超前」,進(jìn)一步把視野和格局拉升到了中美AI競(jìng)賽的高度。
這到底是怎么回事?在Scaling Law的發(fā)現(xiàn)和研究中,百度和OpenAI實(shí)際又各自扮演了什么角色?
誰(shuí)貢獻(xiàn)了最早的Scaling Law研究?
在過(guò)去幾年中,業(yè)界的普遍認(rèn)知是,關(guān)于Scaling Law的第一篇有效論文,是OpenAI在2020年發(fā)表的《Scaling Laws for Neural Language Models》。
第一個(gè)公開(kāi)聲明百度對(duì)Scaling Law貢獻(xiàn)的,是Anthropic創(chuàng)始人兼CEO Dario Amodei。Anthropic被熟知的產(chǎn)品是Claude,和GPT、Gemini并稱(chēng)美國(guó)模型界「三巨頭」,Dario Amodei本人的履歷則顯示,2014年11月- 2015年10月期間,他在百度硅谷人工智能實(shí)驗(yàn)室(SVAIL)工作。
按照Dario Amodei的說(shuō)法,2014年與吳恩達(dá)在百度研究語(yǔ)音識(shí)別的時(shí)候,他們就非正式觀察到了Scaling Law,「給這些模型的數(shù)據(jù)越多、計(jì)算越多、訓(xùn)練越多,它們的表現(xiàn)就越好」,不過(guò)當(dāng)時(shí)沒(méi)有精確衡量。
![]()
隨后,越來(lái)越多行業(yè)人士開(kāi)始發(fā)聲爆料。
Meta研究員、康奈爾大學(xué)博士候選人Jack Morris稱(chēng),「大多數(shù)人不知道,關(guān)于縮放定律的原始研究來(lái)自 2017 年的百度,而不是 2020 年的 OpenAI。他們描述了模型參數(shù)和數(shù)據(jù)集標(biāo)記對(duì)損失的影響。還對(duì)圖像和音頻進(jìn)行了測(cè)試。他們只是用 LSTM 代替了 Transformers,而且沒(méi)有將他們的發(fā)現(xiàn)命名為定律」。
他提到的,是2017年發(fā)表的論文《DEEP LEARNING SCALING IS PREDICTABLE, EMPIRICALLY》,文章討論了機(jī)器翻譯、語(yǔ)言建模等領(lǐng)域的Scaling現(xiàn)象,第一作者為Joel hestness。公開(kāi)資料顯示,2017年-2019年,Joel hestness在百度工作。
有爆料稱(chēng),曾在Open AI參與了GPT-3等項(xiàng)目開(kāi)發(fā)的AI專(zhuān)家Gwern Branwen經(jīng)常提起,「這篇論文的重要性是相當(dāng)被忽視的」。
然后有人發(fā)現(xiàn),OpenAI的《Scaling Laws for Neural Language Models》中,其實(shí)還引用了Joel Hestness2019年的論文《Beyond human-level accuracy: computational challenges in deep learning》。
![]()
時(shí)間線捋明白后,事情就變得非常清晰了。
在OpenAI之前,百度已經(jīng)更早貢獻(xiàn)了對(duì)Scaling Law的原始研究。事實(shí)上在Scaling Law最初被觀察到的自然語(yǔ)言處理領(lǐng)域,百度也是最早下場(chǎng)的玩家之一,并一直在堅(jiān)持投入。
百度的深度學(xué)習(xí)研究院成立于2013年1月,據(jù)說(shuō)是全球企業(yè)界第一家用深度學(xué)習(xí)來(lái)命名的研究院。圖靈獎(jiǎng)得主、Meta首席AI科學(xué)家楊立昆在《科學(xué)之路》中文版的自序中稱(chēng),「百度是最早部署商業(yè)化深度學(xué)習(xí)系統(tǒng)的大型公司之一,領(lǐng)先于谷歌和微軟」。
AI競(jìng)賽,新一輪技術(shù)博弈
眾所周知,百度在國(guó)內(nèi)一向有「AI人才的黃埔軍校」之稱(chēng),走出了許多知名的AI賽道創(chuàng)業(yè)者。Dario Amodei這次的發(fā)聲,則讓外界意識(shí)到,即使把視角放到國(guó)際AI領(lǐng)域,這一結(jié)論也仍然成立。
百度同樣走出了不少?lài)?guó)際AI大拿,包括美國(guó)頭部AI企業(yè)的一些核心人物。
![]()
在百度硅谷AI實(shí)驗(yàn)室(SVAIL)做研究員,是Dario Amodei從斯坦福博士畢業(yè)后的第一份工作,后來(lái)他曾加入谷歌和OpenAI,2021年創(chuàng)立了Anthropic。
在百度任職期間,Dario Amodei招募Jim fan進(jìn)入SVAIL工作。Jim fan現(xiàn)在是英偉達(dá)高級(jí)科學(xué)家、人工智能一號(hào)位。
更被人熟知的是曾在百度擔(dān)任首席科學(xué)家的吳恩達(dá)。李彥宏曾在采訪中提到,當(dāng)時(shí)吳恩達(dá)在谷歌做Google brain,他想買(mǎi)更多的GPU,但谷歌認(rèn)為成本太高了,「我們說(shuō)你來(lái),隨便買(mǎi),他就來(lái)了」。
不論是技術(shù)理念、資源投入、人才挖掘,還是在戰(zhàn)略視野上,百度都展現(xiàn)出了在AI領(lǐng)域的高度前瞻性。
一個(gè)既定趨勢(shì)是,AI已經(jīng)成為新的技術(shù)博弈賽場(chǎng)。芯片、算力、模型性能、人才儲(chǔ)備等,都將是這一輪AI競(jìng)賽的關(guān)鍵賽點(diǎn)。
前谷歌CEO Eric Schmidt將這場(chǎng)競(jìng)賽稱(chēng)作「史詩(shī)般的較量」,并表示,中國(guó)推出了一些與美國(guó)最先進(jìn)模型相似的模型,還學(xué)會(huì)了用更少的芯片完成工作,「這表明了他們工程師的能力」。
值得注意的是,盡管百度貢獻(xiàn)了對(duì)Scaling Law的原始研究,但李彥宏很早就提出了預(yù)訓(xùn)練模式的局限性。Scaling Law之所以有「暴力美學(xué)」之稱(chēng),就是因?yàn)轭A(yù)訓(xùn)練對(duì)算力和經(jīng)濟(jì)投入的極高要求,在國(guó)內(nèi)的商業(yè)環(huán)境下,這種模式注定只適合頭部大廠。
因此,李彥宏一直在倡導(dǎo)「中國(guó)AI的發(fā)展特色應(yīng)該是應(yīng)用驅(qū)動(dòng)」。百度則希望為AI應(yīng)用打造一套全新的大模型基礎(chǔ)設(shè)施。根據(jù)2024百度世界大會(huì)上的規(guī)劃,這套基礎(chǔ)設(shè)施應(yīng)當(dāng)包括智能體平臺(tái)、無(wú)代碼工具、智能云計(jì)算等在內(nèi)。
或許,在中美AI競(jìng)賽中,這樣的中國(guó)特色思路也會(huì)推動(dòng)產(chǎn)生一些變化。畢竟,如果復(fù)盤(pán)移動(dòng)互聯(lián)網(wǎng)所帶來(lái)的上一輪產(chǎn)業(yè)變遷,也可以找到非常明顯的中國(guó)特色。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.