<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      燒2萬億美元卻難用?Gary Marcus狂噴AI賽道不靠譜:推理模型只是“模仿秀”,OpenAI一年后倒閉?

      0
      分享至


      整理 | 華衛

      “一圈又一圈的循環融資,投資回報率卻不盡如人意,這些 AI 系統實際用起來也遠沒有想象中好用,或許方向本身就站不住腳。”

      近日,知名 AI 專家、認知科學家 Gary Marcus 在一場訪談中憤憤表示,“整個世界都在全力押注神經網絡,還在這個我始終覺得毫無道理的理念上投入了巨資,但大語言模型根本無法帶我們抵達 AGI 這一終極目標。”

      這場對話由曾因成功預測 2008 年金融危機而聞名的傳奇投資人、華爾街最具影響力人物之一 Steve Eisman 發起,他與 Marcus 共同探討了當下 AI 進展的方方面面,包括商業路徑、社區現狀和未來方向等。Marcus 認為,大語言模型已經達到了收益遞減的階段。并且,他指出,現在 AI 領域根本沒有技術壁壘了,所有 AI 企業的研發思路基本一致。

      對于大量人才從大廠離職去辦初創公司的現象,Marcus 直言道,“如果 OpenAI 真的能在下周推出 AGI,誰會在這個即將改變世界的關鍵節點離職,去創辦一家可能要花四年時間才能做出成果的小公司?顯然沒人會這么做,大家都會想留在公司見證這個時刻?!痹谒磥恚@些企業內部的人也清楚,他們根本沒有做出宣稱的那種突破性成果。

      值得一提的是,他認為,OpenAI 最終會成為 AI 領域的 WeWork,這家公司原本計劃以 500 億美元的巔峰估值風光上市、卻在一夕之間破產?!拔矣X得最終 OpenAI 可能會被微軟這樣的企業收購。OpenAI 每個月的虧損大概有 30 億美元,一年就是 300 多億美元,即便最近完成了 400 億美元的融資,也只夠支撐一年的運營?!?/p>

      談及各家模型的未來,Marcus 的預測是,“大語言模型會成為一種標準化商品,各家的模型只會比上一年的版本稍有提升,差距微乎其微,最終品牌差異會變得無關緊要。當產品變成商品后,價格必然下跌。”

      以下是詳細對話內容,我們在不改變原意的基礎上進行了翻譯和刪減,以饗讀者。

      1 2 萬億美元押注 Transformer,根本“毫無道理”?

      Steve Eisman:大家好,我是 Steve Eisman。今天我們請到了一位特別的嘉賓,他就是 Gary Marcus。他是大語言模型的堅定質疑者,而大語言模型正是整個 AI 領域的核心根基。接下來,Gary 會和我們分享他的觀點,聊聊大語言模型到底是什么。

      Gary Marcus:謝謝你的邀請,也感謝一兩個月前你在 CNBC 對我的盛贊。

      Steve Eisman:不客氣,這都是你應得的。在正式開始之前,我的觀眾大多還不了解你,不如先和大家說說你的背景,讓大家知道你在這個領域發表觀點是完全有底氣的。

      Gary Marcus:我這輩子幾乎都在研究智能相關的問題。我 10 歲學會編程后,就開始涉足 AI 領域了。我的職業生涯中,很大一部分精力都用在研究自然智能上,比如人類的智能、還有孩子是如何學習語言這類問題。我在 MIT 的博士論文圍繞兩個方向展開,一個是兒童的語言學習機制,另一個就是神經網絡。神經網絡是 AI 領域的一種特定研究方法,也被用于人類思維的建模,它的設計靈感可以說和大腦有一點松散的關聯。這其實是個很巧妙的營銷說法,會讓人覺得它是完全基于大腦研究的,但事實并非如此,二者只是淺層關聯。早年間神經網絡就曾風靡一時,我在上世紀 90 年代就研究過這類模型,發現它們并不能很好地模擬人類的思維方式,但我還是投入了大量精力,想弄清楚它們的實際工作原理。

      2012 年深度學習重新興起時,我當時就覺得,這些東西我早就研究過了,和我博士論文里的內容高度相似。我在 2001 年寫過一本名為《The Algebraic Mind》的書,在書里我其實就預判到了如今大語言模型出現的幻覺問題,還有一些推理層面的缺陷,這些都是我們今天要探討的話題。所以當深度學習再次成為熱點時,我一眼就看出了其中的諸多問題,對我來說這些問題都很熟悉。2012 年,我在《The New Yorker》上發表了一篇文章,標題是《Is Deep Learning a Revolution in Artificial Intelligence?》,我在文中寫道:“深度學習確實很有意思,我很佩服 Jeff Hinton,他能長期堅持自己的研究方向?!?/p>

      Steve Eisman:Jeff Hinton 是誰?

      Gary Marcus:他是去年諾貝爾生理學或醫學獎的得主,也是深度學習領域的核心奠基人之一。

      Steve Eisman:原來如此。

      Gary Marcus:他的一些學生,最近也開始認同我的觀點了。Jeff Hinton 確實是這個領域的大人物,在神經網絡一度無人問津的時期,是他一直堅守,這份堅持值得肯定。但當然,他的研究并非全無可議之處,我們這里就不細談了。他讓神經網絡重獲關注,而更值得你的聽眾了解的是,真正讓這個領域迎來爆發的,是他的學生 Ilya Sutskever,或許還有另外幾位研究者。他們找到了方法,能讓這套研究了許久的系統落地應用。要知道,神經網絡的研究最早能追溯到上世紀 40 年代,Jeff Hinton 也在上世紀 80 年代中期做出了不少重要貢獻。而這些研究者發現,借助英偉達研發的圖形處理器(GPU),就能實現神經網絡的高效運行。

      彼時的英偉達,生產 GPU 主要是為了滿足電子游戲的需求。這些原本為游戲設計的 GPU,核心優勢在于并行計算,簡單來說,就是能同時處理多個計算任務,而非按順序逐個完成。傳統的中央處理器(CPU),運行軟件程序時基本是逐行執行的,雖然現在的技術已經有了改進,但這仍是計算機科學入門課程里會教的基礎原理。而 GPU 能把一個復雜問題拆解成無數個小任務,同時進行處理,它的設計初衷就是為了計算機圖形處理。比如要渲染電子游戲的下一幀畫面,如果逐行處理,耗時會非常久,而用 GPU 的話,能同時處理整個畫面,一個子處理器負責一個像素點,以此類推。不得不說,GPU 在圖形處理上的表現堪稱完美,我偶爾也玩電子游戲,深知 GPU 的算力有多驚人。

      Ilya Sutskever,還有另一位我一時想不起名字的論文合作者,他們證明了 GPU 是運行神經網絡的絕佳載體,至于神經網絡的具體定義和實際意義,我們之后可以再聊。他們的這一發現,讓神經網絡的運行實現了兩大突破:一是速度大幅提升,二是能處理海量數據。在此之前,六十多年的神經網絡研究做出的基本都是些玩具級的模型,而他們證明,借助 GPU 這項技術能真正實現規?;膶嶋H應用,能在更大的維度上落地。可以說,我們如今看到的所有深度學習成果,都源于 2012 年的這次突破。

      而在這一突破出現后,兩件事接踵而至:《The New York Times》刊發了文章,盛贊深度學習的驚人潛力;第二天,我就在《The New Yorker》的博客上發表了文章。我在文中表示,深度學習固然出色,但也存在諸多問題,它注定會在一些領域表現優異,卻在另一些領域束手無策。它擅長模式識別和統計分析,這一點毋庸置疑,但人類的認知活動中還有大量的抽象思維過程。比如我們能理解家譜的邏輯,進而對現實世界的相關問題進行推理,而深度學習模型永遠無法擅長這類任務,它的架構本身就不適合做抽象推理。從早年對神經網絡的研究以及對人類認知機制的研究中,我早就看清了這一點。你應該讀過 Daniel Kahneman 的經典著作《Thinking, Fast and Slow》吧?

      Steve Eisman:我讀過。

      Gary Marcus:Daniel Kahneman 在書中提出了雙系統認知理論,他將人類的認知分為系統一和系統二。系統一的思考速度快,是無意識的、基于統計的、本能的反應;而系統二的思考速度更慢,更具思辨性,核心是邏輯推理。神經網絡本質上就相當于人類的系統一,這本身沒問題,系統一也是人類認知的重要組成部分,但人類的認知還有系統二的部分。尤其是在理性思考時,我們會依賴系統二,進行更審慎、更有邏輯的推理。而神經網絡模型,從始至終都不擅長系統二的這類任務,直到現在依然如此。我在 2012 年就指出,深度學習模型只能實現系統一的功能,卻無法完成系統二的思考。

      而在這之后的 14 年里,整個世界都在全力押注神經網絡。這里要說明的是,我們所說的神經網絡,就是如今的大語言模型,大語言模型是神經網絡的一種形式,抱歉,我之前沒明確說明這一點。事實上,2012 年時大語言模型還未出現,后續又有不少技術突破,其中關鍵的就是 2017 年發表的 Transformer 論文,這也是大語言模型的起源。而全世界在這一領域的投資規模達到了天文數字,據我粗略估算,已經有 1 到 2 萬億美元了,全都投在了這個我始終認為毫無道理的理念上。這些研究者的想法是,只要持續發展神經網絡,就能實現智能所需的一切能力,抵達 AGI 的目標,但他們卻忽視了系統二的核心價值。

      一開始,他們只是把神經網絡當成一個巨大的黑箱,直到現在,還有很多人抱著這樣的想法。他們覺得,只要把海量數據喂進去,就能得到一個擁有智能的系統,卻從未從科學的角度深入思考過真正的智能究竟該具備怎樣的架構。我認為這些人太過天真,我也一直試圖指出這一點,這也讓我成了這個領域里的“孤行者”。很長一段時間里,人們對我的觀點不屑一顧,甚至不只是不屑,而是鄙夷。

      Steve Eisman:沒錯,他們對你的態度遠不止是不屑,而是赤裸裸的鄙夷。

      Gary Marcus:我們還能舉出很多這樣的例子。我對他們的這種態度感到失望,這個話題我們可以聊很久。他們甚至對我公開表現出敵意,比如我了解到,OpenAI 內部還為我做了專屬的表情包。

      Steve Eisman:我也看到過這個消息。

      Gary Marcus:某種程度上,這也算是一種認可吧,既覺得榮幸,又覺得有些離譜,你能看出來,我一直試圖用平常心看待這件事。但這也能從側面說明問題,Sam Altman 還在推特上稱我為“噴子”。他們就是不想聽我的觀點,而我核心的觀點,都寫在了 2022 年發表的論文《Deep Learning is Hitting a Wall》里。我在這篇論文中指出,當時“規?;瘮U張”的理念已經開始流行,也就是通過不斷投入更多數據、更多 GPU,把模型做得越來越大,他們認為只要模型足夠大,就會擁有超乎想象的能力。

      我先暫停一下,和大家解釋下這個“規?;瘮U張”的理念。他們確實有一些數據能支撐這個觀點,但這種想法依然太過天真。我把這種理念稱作“萬億磅嬰兒謬誤”,道理很簡單:一個嬰兒出生時 8 磅重,一個月后長到 16 磅,并不意味著他會一直這樣翻倍增長,到上大學時長成萬億磅的巨人。他們就是做出了這樣天真的推斷,我相信你在商業領域也經常見到這種情況。很多手握巨資的聰明人,都押注了這個理念,他們說,“我們從數據中看到了這樣的發展規律,只要投入足夠多的數據,就能實現真正的智能?!?/p>

      2 “大模型不會思考,重構信息碎片致幻”

      Steve Eisman:先稍停一下,我們倒回去說。大語言模型到底能做什么?這些研發者又認為它們本該實現什么功能?我真想把這個問題徹底講清楚。

      Gary Marcus:你這個問題問得特別好。大語言模型的核心工作原理,就是預測序列中的下一個內容。你可以想想蘋果手機的自動校正功能,原理差不多,雖說那功能有時候能把我逼瘋,你繼續說。這個功能并非總能生效,核心邏輯就是你在輸入句子時,它會預判接下來可能要打的內容。比如你打出“在……見我”,它大概率會推測你想說“在餐廳見我”。它會對人類的語言表達做統計分析,效果還算過得去,但絕非完美,偶爾還會出錯,讓人惱火,這就是我們說的自動補全。

      而我把大語言模型稱作“超級版自動補全工具”,它們只是用一種特殊的方式完成這種預測,這就是其最本質的功能。它們的運作方式里還有些有意思的點,其中一個就是會把所有信息拆解成細碎的片段,之后再重新整合,這就導致信息之間的關聯會被切斷。也正是因此,它們才會時不時出現幻覺現象,憑空編造內容。

      Steve Eisman:我們稍后再細說幻覺這個問題。

      Gary Marcus:好,回頭再聊。幻覺是這類模型的典型錯誤之一,早在 2001 年,大語言模型甚至還沒被發明出來的時候,我就指出過這個問題。我當時就說,如果一直沿著這個方向研究下去,必然會出現這個問題,而事實也確實如此。大語言模型把信息拆分成碎片,再通過這些碎片預測后續內容。如果用整個互聯網的內容對它們進行訓練和數據投喂,它們的表現會好得讓人意外,因為幾乎任何你能想到的問題,注意,這里的“幾乎”是關鍵,幾乎所有問題,此前都有人提出過,也有人給出過答案。從某種程度來說,這些模型就是功能強大的記憶機器。

      就在前幾天,《大西洋月刊》還刊發了相關的文章,而且一直以來都有大量證據能證明這一點。比如你輸入《哈利·波特》的部分內容,它能直接補完整段文字,本質上就是因為它記住了這些內容。如果一個模型能記住整個互聯網的信息,那確實算得上很厲害。比如你問“道奇隊在搬到洛杉磯之前,主場在哪”,網上有大量相關表述,它會告訴你是布魯克林,大概率能給出正確答案。但僅僅依靠這種方式,模型根本無法形成抽象的概念和思想,還會因為信息碎片的拆解和錯誤整合出現各種問題。

      Steve Eisman:那我們現在聊聊幻覺吧。到底什么是 AI 幻覺?舉個例子,再說說出現這種情況的原因。

      Gary Marcus:幻覺就是模型憑空編造內容,還無比篤定地呈現出來,但這些內容根本不符合事實。

      Steve Eisman:那給我們舉個例子。

      Gary Marcus:我最喜歡的一個例子和 Harry Shearer 有關,你可能聽過他的名字,看過《搖滾萬萬歲》嗎?

      Steve Eisman:當然看過。

      Gary Marcus:他在這部影片里飾演貝斯手,巧的是,他還是我的朋友。他出演了《搖滾萬萬歲》,還和 Christopher J. Guest 合作了多部影片,參演了《楚門的世界》,還為《辛普森一家》里的伯恩斯先生等多個角色配音,他的知名度還挺高的,這點對接下來的故事很重要。先倒回說個題外話,我之前遇到的最典型的幻覺案例,主角是我自己。有人發給我一份我的人物簡介,里面說我養了一只叫 Henrietta 的寵物雞,但我根本沒養過,這就是個很典型的幻覺案例,純粹是憑空編造的。后來發現,有位插畫師大概叫 Gary Oswald,寫過一本關于 Henrietta 去上學的書,模型不過是把這些碎片化的信息胡亂拼湊在了一起。

      Steve Eisman:那為什么會出現這種幻覺呢?

      Gary Marcus:這就和我剛才說的信息碎片化拆解有關了。我再給你講講 Harry Shearer 的那個例子。我總拿寵物雞 Henrietta 的事舉例,有一天他給我發消息,說他沒遇到過寵物雞這種事,卻遇到了和自己相關的幻覺案例。他比我有名多了,至少以前是。我當時也算小有名氣,而模型給出的信息里,說他是英國的配音演員和喜劇演員,但他根本不是英國人。你只要花兩秒看一下維基百科,就會發現他出生在洛杉磯。他名氣不小,你也能在爛番茄、互聯網電影數據庫上查到他的資料,他接受過很多采訪,也聊過自己的成長經歷,他小時候還在洛杉磯的《杰克·本尼秀》里當過童星,想找到正確的信息一點都不難。

      我們會錯誤地把大語言模型當成和人類一樣擁有智能的個體,但實際上,它們所做的只是重構信息碎片之間統計層面的大概率關聯,所以難免會出錯,這種重構過程也常會出現偏差。Harry Shearer 這個案例就是如此,模型其實就是在構建一個信息集群,用統計學的方式預測各類信息之間的關聯。而現實中確實有很多英國的配音演員和喜劇演員,比如 Ricky Gervais、Don Cleeve 等等。模型就把這些信息混為一談了,這種信息融合的方式整體來看效果還算不錯,但你永遠無法確定它給出的某一個具體信息是準確的,所以幻覺現象才會頻繁出現。

      有人專門追蹤過相關的法律案件,發現律師提交的辯護狀里,有很多引用的判例都是模型編造的,根本不存在。我第一次關注這件事時,他已經發現了約 300 起這樣的案件,三個月后再看,數量漲到了 600 起。這些律師不僅用 ChatGPT 這類工具代寫文書,還因此被法官發現,受到了處罰。模型會出錯,而最危險的是,這些錯誤還很容易被忽略,人們根本發現不了。還有一個例子,CNET 是最早用 AI 寫稿的媒體之一,他們首批用 AI 寫的 75 篇文章里,有近一半都存在錯誤,編輯們卻沒發現。因為這些文章語法通順、格式規范,也沒有拼寫錯誤,人們很容易就放松了警惕。

      我把這種現象稱作“看著沒問題效應”。大語言模型帶來的這種效應,還催生了一個新詞匯,我真后悔不是我發明的,叫“低效工作產物”。這個詞大概是去年由幾位教授提出的,指的是人們用 AI 寫報告、提交給雇主,表面上看沒什么問題,實則漏洞百出,因為大語言模型根本不具備真正的理解能力。

      Steve Eisman:你的意思是,大語言模型并不會思考。

      Gary Marcus:它們確實不會思考,只是把統計學上大概率關聯的內容拼湊在一起。

      Steve Eisman:只是簡單拼湊。

      Gary Marcus:沒錯。我還喜歡用“黏合”這個詞,它們只是把信息黏合在一起。從統計學角度來說,大部分內容的拼湊是合理的,但總有一部分是錯誤的,而這些模型根本無法區分對錯,也不會主動告知你。它們永遠不會說,“維基百科顯示 Harry Shearer 出生在洛杉磯,但作為大語言模型,我感覺他可能出生在倫敦,你可以去核實一下”。它們從來不會給出這樣的提示,只會把所有內容都當作百科全書里的標準答案呈現出來,無論真假,這也是這類模型的危險之處。

      Steve Eisman:確實是這樣。

      Gary Marcus:這類問題其實有很多,這個案例屬于另一種情況,但也和模型的本質缺陷有關。這個問題的根源在于,所有大語言模型都有數據截止日期,它們的訓練都是在某個特定時間點完成的,核心模型所掌握的信息,也只到這個時間點為止。研發者會給它們加各種補救措施,比如接入網絡搜索功能,但這些補救措施和核心模型的融合效果都很差,不同系統的表現略有差異而已。這類模型最大的問題就是無法應對新事物、新情況,也是它們最根本的缺陷。早在 1998 年,我就通過研究早早發現了這一點。如果一個模型本質上只是個功能強大的記憶機器,當你向它輸入一個超出其訓練數據范圍的內容時,它就會失靈。

      有個例子特別能說明問題,具體細節我不太清楚,但特斯拉的 AI 系統也大量采用了這種記憶式的運作方式,而且其系統的復雜程度并不高。有人用過特斯拉的召喚功能,你應該記得馬斯克說過,未來可以從紐約遠程召喚洛杉磯的特斯拉,但現在顯然做不到,不過據說能在停車場里召喚車輛。有人在一場航空展上試過這個功能,你能在油管上找到相關視頻。這個人召喚自己的特斯拉,想在航空展上秀一下,結果車子徑直撞上了一架價值 350 萬美元的私人飛機。

      原因就是,特斯拉的訓練數據里,根本沒有教系統如何應對飛機,畢竟誰會專門訓練汽車躲避飛機呢?系統對世界沒有形成通用的認知,比如“不要撞上擋路的大型貴重物體”,它根本不懂這些,只會識別訓練數據里的自行車、行人等目標,它的識別分類里根本沒有“飛機”這一項,所以才會直接撞上去。

      3 所有 AI 企業都變了:悄悄復用經典符號式工具

      Steve Eisman:那你有沒有了解到,隨著這場爭論的風向轉變,各大企業內部現在的情況如何?

      Gary Marcus:我了解到的情況主要有幾點。首先,我一直都在說,單純的大語言模型行不通,必須結合傳統的符號式 AI 技術。但之前他們都對此嗤之以鼻,覺得這套技術早就過時了,沒必要用,還說人腦的工作模式本就不是這樣。而現在,他們都悄悄在一定程度上采用了這項技術,比如引入代碼解釋器來運行 Python 代碼,這些都是經典的符號式工具。說白了,他們正在偷偷把系統二的相關能力融入模型中,只是沒有大肆宣揚,但這一改變確實帶來了不小的提升。

      馬斯克發布 Grok 4 時的演示就很能說明問題,我還為此寫過一篇文章,標題是《為何 GPT-3 和 Grok 4 無意間印證了神經符號 AI 的正確性》。文章里放了當時的演示圖表,能清晰看到,正是那些他們不愿提及的符號式工具的加入,讓模型的表現變得更好。如今模型的些許提升,絕大部分都來自這個原因,而非單純的大語言模型優化,他們其實已經悄悄放棄了純大語言模型的研發思路。而這對你所關注的商業領域來說意義重大,因為這些符號式工具根本不需要在 GPU 上運行,普通的 CPU 就足夠了。

      Steve Eisman:原來如此。

      Gary Marcus:對我而言,從技術角度來說,這印證了我一直以來倡導的研發思路是正確的。這是第一個變化。第二個變化是,各大企業的很多人都離職去創辦自己的初創公司了。你可以想想,如果 OpenAI 真的能在下周推出 AGI,誰會在這個即將改變世界的關鍵節點離職,去創辦一家可能要花四年時間才能做出成果的小公司?顯然沒人會這么做,大家都會想留在公司見證這個時刻。

      所以,大量人才離職的事實就說明,這些企業內部的人也清楚,他們根本沒有做出宣稱的那種突破性成果。還有一個變化,就是谷歌正在迎頭趕上。就像我幾年前在 Substack 專欄里預測的那樣,因為現在所有企業的研發思路基本一致,這個領域根本沒有技術壁壘。

      Steve Eisman:沒錯,完全沒有技術壁壘。

      Gary Marcus:你和其他一些人都認為,如果所有人都在做大語言模型的規模化擴張,那么最終的贏家就是最有實力承擔這筆擴張成本的企業。而放眼整個行業,誰的資金實力能超過谷歌?根本沒有。

      Steve Eisman:確實。

      Gary Marcus:我其實也表達過類似的觀點,只是表述略有不同,你的這個說法其實也沒錯。我當時的觀點是,行業頭部企業會逐漸趨同,而隨著大語言模型成為標準化商品,行業內會引發價格戰,服務定價會大幅下降。事實也確實如此,現在大語言模型的按 token 計費價格,已經暴跌了 99%。價格戰確實爆發了,而最終的受益者自然是谷歌,這一點我當初雖然沒有直接點明,但也有所預判。我大概是在 2024 年 3 月,也可能是 2023 年 8 月開始寫相關文章,當時就說,所有企業都在遵循同一種研發思路,沒人掌握什么獨門絕技,這就意味著頭部企業的產品會越來越趨同。

      大語言模型會成為一種標準化商品,各家的模型只會比上一年的版本稍有提升,差距微乎其微,最終品牌差異會變得無關緊要。這一趨勢帶來的結果就是,谷歌迎頭趕上了,中國的企業也追上來了,Anthropic 同樣不甘落后。就像你說的,當產品變成商品后,價格必然下跌。這對終端消費者來說是好事,但對企業的商業模式來說卻是巨大的打擊。畢竟企業原本的設想是,花巨資采購 GPU,然后靠模型服務賺回巨額利潤。

      4 推理模型進行不了邏輯分析,再升級也沒價值?

      Steve Eisman:我們能不能聊聊推理模型?先給我的觀眾解釋一下,推理模型和大語言模型有什么區別?推理模型是基于大語言模型研發的嗎?

      Gary Marcus:推理模型是在大語言模型的基礎上運作的,但它不會像大語言模型那樣直接給出第一個想到的答案,而是會反復迭代、花費時間去推敲,試圖得出最優解。至于具體的研發細節,各家企業都沒有公開太多。傳統的神經網絡模型,在某種意義上都是一次性輸出結果的,當然現在行業內對“一次性”的定義有所不同。簡單來說,就是把數據輸入模型后,神經網絡會立刻完成一次正向傳播,粗略來講,模型中的每個神經元都會處理信息并生成對應的結果。而推理模型則會進行多次傳播,這是本質上的區別。

      我有個朋友把傳統模型的輸出方式稱為“恒時推理”,意思是模型生成答案的時間基本固定,無論什么問題,耗時都相差無幾:把數據輸入模式識別器,模型會根據現有的模式給出最優解。而推理模型采用的是全新的“變時推理”模式,我之后會聊聊它的適用場景和短板,這種模式的特點是,處理不同的問題,耗時會有所不同。目前還沒有企業能完全解決推理模型的所有技術難題,但在一些場景下,它的表現確實不錯。

      據我了解,推理模型的研發思路之一,就是讓模型模仿人類解決問題的思考過程,畢竟這些模型本質上都是模仿系統。比如在解決幾何題或代數題時,模型會刻意模仿人類的解題步驟。人類解決這類問題需要一步步推導,融合了推理能力的神經網絡模型,同樣需要分步驟完成。

      Steve Eisman:那推理模型的優勢是什么?又有哪些明顯的短板?

      Gary Marcus:在回答這個問題之前,我想先提一點:推理模型的成本天生就更高,因為它需要占用 GPU 更長的時間來生成答案。

      Steve Eisman:好的。

      Gary Marcus:那我來說說它的適用場景和短板。推理模型最擅長的,是那些能生成形式規范、可驗證的數據來訓練模型的領域。比如數學和計算機編程,我們可以編寫程序生成各種不同的代碼片段來訓練模型,也能生成各類幾何證明題的解題思路。這類領域之所以適合推理模型,是因為它們都屬于封閉領域,相關的知識邊界是明確的。

      Steve Eisman:沒錯,數據庫中的知識量和相關的有效知識量都是有限的。

      Gary Marcus:對,就是這個意思。所以推理模型在幾何、編程這類領域的表現最好,而在開放式的現實世界中,它的表現就差強人意了。我總會從你所熟悉的金融領域舉例子,當然你肯定有更貼切的案例,比如長期資本管理公司的破產。其實那也是一種模型失效的情況,只是模型的原理不同,當時沒人考慮到俄羅斯債券市場崩盤的可能性,最終導致美國金融市場出現了大幅動蕩。這是因為當時的金融模型,其參數設定根本沒有覆蓋這類極端情況。

      而現在的推理模型,也面臨著類似的問題:它其實并不具備真正的思考能力,哪怕是關于債券的基本問題,它也無法進行真正的邏輯分析。如果用它處理的問題,和訓練數據中的內容高度相似,那一切都順理成章;但一旦超出了它的認知范圍,就像我們之前聊到的特斯拉的例子,模型就會立刻失效。

      Steve Eisman:也就是它依然無法應對新事物、新情況。

      Gary Marcus:沒錯,即便升級到了新的推理模型,核心問題依然是無法處理未知信息。它只是在原有基礎上做了些許改進,但本質上還是受限于對新事物的適配能力。而關鍵問題在于,現實世界中,大多數有價值的問題都包含著一定的新要素、新情況,并非全是已知的問題。當然,也有例外,我們確實可以用這種不擅長處理新事物的技術,在一些狹窄的領域做出成績,比如國際象棋和圍棋。這些領域的規則千百年間基本沒有太大變化,有海量的歷史數據可供參考,模型還能通過自我對弈生成更多訓練數據。

      但在開放式的現實世界中,比如政治、軍事戰略領域,永遠會出現訓練數據中沒有的新情況。比如,如何應對一位總統授意將軍用飛機偽裝成民用飛機,去襲擊另一個國家的行為?這種情況此前從未發生過,想要分析這類問題,根本無法依靠過往的數據,必須依靠抽象的概念思考,比如權力、外交規則、國際格局的構建邏輯等,這些都是相關領域的學者更擅長的內容。要做到這一點,模型需要接受正確的訓練,具備抽象思維能力,而不是單純依賴數據。即便是在商業應用中,比如看似簡單的客戶服務,也會遇到類似的問題:用戶總會用全新的方式提出問題,而一旦出現這種情況,模型就會因為無法應對新情況而失效。

      5 OpenAI 只夠支撐一年,要么倒閉、要么求救微軟?

      Steve Eisman:假設我任命你為 AI 領域的總負責人,由你掌控所有相關企業,指導整個行業的研發方向。如果你把這些企業的負責人都召集到一起,你會告訴他們,想要實現真正的突破,需要做些什么?

      Gary Marcus:我會告訴他們,整個行業需要更多的學術思維多樣性。就像在你的金融領域,你會告訴人們不要把所有雞蛋放在一個籃子里,要做資產配置,分散投資股票、債券、黃金、房地產等。而 AI 領域在過去這些年,就是把所有的精力都押在了一個思路上,大語言模型的規?;瘮U張,這是行業唯一的研發方向。不可否認,這個思路確實帶來了一些成果,模型并非毫無用處,我們也確實能利用它解決一些問題,但它終究無法帶我們實現所謂的通用人工智能(AGI)這一終極目標,而且這還是一種成本極高、效率極低的研發方式。你可以對比一下,我的孩子只需要少量的信息和學習,就能理解這個世界,而大語言模型卻需要學習整個互聯網的海量數據,二者的效率差距簡直可笑。

      這些企業花費巨資,做出的卻是效率低下、可靠性堪憂,但又有一定使用價值的模型。我們需要的是其他更高效、更經濟、更可靠的研發思路,企業應該投入資金去探索這些新方向。但問題的根源,其實也來自你所熟悉的金融領域:風險投資家能從那些聽起來合理的投資項目中,賺取 2% 的管理費。我很好奇你對這個觀點的看法,因為這畢竟是你的專業領域。試想一下,作為風險投資家,如果有一個項目能讓你管理一萬億美元的資金,哪怕你根本不在乎項目最終的結果,也能賺到 2% 的管理費,這足以讓你成為億萬富翁。我并不是說所有的風險投資家都是這樣想的,我見過很多投資人,他們確實真心想推動技術進步。

      但就像任何行業一樣,很多投資人都帶著功利的心態。對這些功利的投資人來說,最理想的投資標的,就是那些聽起來前景廣闊、無需真正落地、成本極高的項目,這樣他們就能賺取巨額的管理費。我認為,這就是整個行業都沉迷于規?;瘮U張的原因:投資人能從中賺取不菲的管理費,而且數額極其可觀。但從學術研究的角度來說,這絕不是正確的選擇,最終也沒有帶來理想的結果,反而造成了巨額的資金浪費。風險投資家賺走了管理費,而那些有限合伙人,最終會損失大量的資金。

      Steve Eisman:你是不是覺得,這個行業的泡沫快要破裂了,還是說現在根本沒法判斷?

      Gary Marcus:其實炒股的那句老話你我都懂,市場保持非理性的時間,可能比你保持償付能力的時間還要長。

      Steve Eisman:沒錯。

      Gary Marcus:我去年用一個比喻形容當下的情況,就像《兔八哥》里的歪心狼跑到了懸崖邊,它不往下看,就不會掉下去。當然這不符合物理規律,但很有意思。而現在,你所在的投資圈里,已經有人開始往下看了。我覺得從去年 11 月開始,就不斷有投資人說,他們看到了一圈又一圈的的循環融資,投資回報率卻不盡如人意,這些 AI 系統實際用起來也遠沒有想象中好用,或許這個賽道本身就不靠譜。我個人覺得,英偉達的產品做得非常出色,生態體系也很完善,不只是芯片本身,配套的軟件等方方面面都很好。我見過黃仁勛,他給我留下了很深的印象,英偉達的產品確實很棒。

      但問題的關鍵是,他們最終能賣出多少芯片?我認為,目前的芯片銷售全靠市場投機,大家都在賭,我稍后再說說其他人的看法。所有人都在投機,認為這類芯片的需求會無限大,而這種投機的底層邏輯,是相信這些 AI 模型最終能實現 AGI。真正的 AGI 能完成人類能做的所有事,其商業價值不可估量,每年創造數萬億美元的價值都有可能。但《華盛頓郵報》幾天前報道了一項一個月前完成的研究,研究顯示,人類日常的工作中,只有 2.5% 的工作能真正由 AI 系統完成。所以人們幻想中 AI 能完成的大部分工作,其實它都做不到,也根本做不好。這就意味著,最終所有在芯片上的投資,都會變得毫無意義。

      而在這些企業里,OpenAI 可能是最脆弱的那個。OpenAI 有超過一萬億美元的未兌現承諾,卻從未實現過盈利,如今又身處一個產品高度同質化的市場。它最大的競爭對手谷歌已經迎頭趕上,甚至可以說實現了反超,還拿下了和蘋果的合作大單,這可是筆大生意。所以我覺得 OpenAI 現在已經手忙腳亂了,實在看不出它的估值有任何合理性。

      Steve Eisman:對我所在的投資圈來說,如果投資人開始從 OpenAI 撤資,而它又融不到新的資金,那會給整個生態系統帶來連鎖反應。

      Gary Marcus:沒錯,這正是我認為即將發生的事。我覺得最終 OpenAI 可能會被微軟這樣的企業收購。我這幾年一直說,OpenAI 最終會成為 AI 領域的 WeWork。未來人們都會疑惑,它當初怎么會有那么高的估值,這完全不合邏輯。OpenAI 的年收入只有幾十億美元,卻每個月虧損數十億美元,還有眾多競爭對手,這樣的企業根本撐不下去。如果投資人撤資,或者不再繼續注資,OpenAI 就會陷入巨大的危機。它每個月的虧損大概有 30 億美元,一年就是 300 多億美元,即便最近完成了 400 億美元的融資,也只夠支撐一年的運營。

      Steve Eisman:沒錯,也就一年的時間。

      Gary Marcus:而且現在很多人都在持觀望態度,他們會覺得,谷歌才是更適合這場競爭的玩家,畢竟谷歌已經追上來了。如果這場競爭只拼規模,那贏家必然是谷歌,這是毋庸置疑的。谷歌有能力做出巨額投入,甚至根本不需要英偉達的芯片,因為他們自研了張量處理單元,能實現類似的功能,所以谷歌的抗風險能力更強。他們有穩定的財務支撐,最終一定會贏。

      Steve Eisman:沒錯。

      Gary Marcus:只要有一部分人意識到,OpenAI 想要活下去,需要的資金量是天文數字,它的處境就會變得岌岌可危。它下一輪可能需要 1000 億美元的融資,而全世界能拿出這么多錢的人,可能也就五個。就算其中四個愿意投資,只要有一個拒絕,就會出問題;而如果五個都拒絕,它要么倒閉,要么只能去找微軟求救。

      6 “脫離世界模型做 AI,根本行不通”

      Steve Eisman:Gary,在我們結束訪談前,還有什么我該問卻沒問的問題嗎?

      Gary Marcus:我覺得這次訪談特別棒。要說還有什么重要的點沒聊到,那應該就是“世界模型”這個概念。

      Steve Eisman:沒錯,我本來也想聊這個。你一直說我們需要構建世界模型,這個概念完全超出了我的專業領域,不如你給大家解釋一下,到底什么是世界模型?

      Gary Marcus:不同的人對世界模型有不同的定義,簡單來說,它就是在計算機系統中,構建一個能表征外部現實世界的體系。我說說我認為我們需要的世界模型是什么樣的:軟件內部需要有一個結構,能對應現實世界中的各種事物。比如導航系統的世界模型,需要能表征道路的分布、連接方式,以及不同路段的通行時間。在傳統的 AI 領域,世界模型是研發的起點,所有的研究都基于此,沒人會想過脫離世界模型做研發。Herbert Alexander Simon 是上世紀 50 年代 AI 的奠基人之一,他寫過一本自傳叫《Models of My Life》,他一生都在研究各類模型和世界模型,并且認為,做好 AI 的關鍵就是構建正確的世界模型。

      而大語言模型卻試圖脫離世界模型運作。構建一個針對特定事物的世界模型,尤其是復雜事物,需要付出巨大的努力。比如過去研發專家系統時,研究者需要構建能模擬醫生思考方式的模型,能表征病人身體機能、生理結構的模型,這個過程非常繁瑣。當時還有一個專門的領域叫知識工程,做這項工作成本極高,沒人愿意做。大語言模型和其他類型的神經網絡出現后,研發者宣稱,不用再做這些繁瑣的工作,只需要讓系統從數據中自主學習就行。

      但事實證明,這根本行不通。就像大語言模型會把出生在洛杉磯的 Harry Shearer 說成是倫敦人,原因就是它沒有一個完善的世界模型,無法像設計精良的軟件那樣,精準調取正確的信息。所以我們必須在 AI 系統中融入世界模型,才能避免幻覺現象的發生。

      Steve Eisman:我還是不太理解世界模型到底是什么。

      Gary Marcus:用非專業的語言解釋確實有難度,簡單說,它就是對世界的一種表征,而且這個“世界”不一定是現實世界。比如我們對《星際迷航》《星球大戰》《哈利·波特》這些虛構世界,也會有對應的世界模型。這也是人類和當前 AI 系統最本質的區別:當我們看一部電影、讀一本書時,會在腦海中構建出這個世界的運行規則,并且能判斷情節是否符合這個世界的邏輯,會不會有不合理的設定。比如看了《哈利·波特》,我們會知道里面的人能騎著掃帚飛,但不會把這個設定和現實世界混淆,不會回家后跳上掃帚就想從窗戶飛出去。

      人類能快速構建并同時掌握多個世界模型,就算看一部新的科幻劇,20 分鐘左右就能理解這個全新世界的規則,這是人類的天賦。但在 AI 領域,無論是傳統的符號式 AI,還是現在的大語言模型,都做不到這一點。傳統 AI 的優勢是可以人工構建世界模型,你可以雇一群學者花六周時間,把一個問題的相關規則梳理清楚,構建成模型。最近離世的頂級研究者 Doug Lenat 就做過這樣的研究,他為《羅密歐與朱麗葉》構建了世界模型,他的系統能真正理解這部劇的關鍵情節,而非從網上的讀書筆記中獲取二手信息,表現非常驚艷。但問題是,我們不知道該如何讓傳統 AI 自主學習、構建世界模型。而大語言模型則完全做不到構建世界模型,只是在假裝自己能做到。

      我有個很經典的例子,就算用整個互聯網的內容訓練大語言模型,讓它接觸海量的國際象棋規則和對局記錄,它依然會走出違規的棋步,因為它從未真正抽象出國際象棋的運行邏輯。這一點就足以說明問題了。試想一下,一個人看了一百萬盤象棋對局,讀了維基百科、象棋網站上的所有規則,還看了 Robert James Fischer 的象棋著作,不可能連基本的棋規都掌握不了,但 AI 就是做不到。

      所以我們需要研發能自主歸納出世界模型的 AI 系統,這類系統能從數據中挖掘因果規律,識別其中的核心要素。這是一個難題,不是說有人明天回家鼓搗一下就能解決的。長期以來,無論是傳統 AI 還是大語言模型,都在回避這個問題,而現在,我們必須直面它。

      Steve Eisman:看來這需要很長的時間來研究。

      Gary Marcus:確實需要很久。我想說的是,AI 確實會以我們難以想象的方式改變世界,但絕不是現在,靠當下的這項技術根本做不到。我們需要把這一點考慮進去,做出合理的投資決策。現在的問題是,我們到底是在投資基礎研究,還是在為一項已經成熟的技術做規?;度耄看鸢革@然是后者。而當下的市場,大多是在投機,賭那些目前行不通的技術,只要做得更大,就能憑空實現突破。

      但事實上,單純的規模化根本解決不了這些核心問題,我們真正需要的是扎實的基礎研究。這是我過去五年一直強調的觀點,也是 SSG 在去年 11 月提出的觀點,而 Ilya Sutskever 也表達了類似的看法。當我們這些背景截然不同的人,都達成了這樣的共識,行業內的人其實應該認真聽一聽。

      https://www.youtube.com/watch?v=aI7XknJJC5Q

      聲明:本文為 InfoQ 翻譯整理,不代表平臺觀點,未經許可禁止轉載。

      會議推薦

      InfoQ 2026 全年會議規劃已上線!從 AI Infra 到 Agentic AI,從 AI 工程化到產業落地,從技術前沿到行業應用,全面覆蓋 AI 與軟件開發核心賽道!集結全球技術先鋒,拆解真實生產案例、深挖技術與產業落地痛點,探索前沿領域、聚焦產業賦能,獲取實戰落地方案與前瞻產業洞察,高效實現技術價值轉化。把握行業變革關鍵節點,搶占 2026 智能升級發展先機!

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      中國正加速拋售美債,美專家:中國用了新拋售方式,完全無法干預

      中國正加速拋售美債,美專家:中國用了新拋售方式,完全無法干預

      泠泠說史
      2026-01-27 13:27:02
      李瑋峰指出,王鈺棟面對日本后衛對抗成功率低,對歐洲后衛更不行

      李瑋峰指出,王鈺棟面對日本后衛對抗成功率低,對歐洲后衛更不行

      足球分析員
      2026-01-27 11:05:03
      反制升級!49條中日航線取消全部航班,外交部:春節避免前往日本

      反制升級!49條中日航線取消全部航班,外交部:春節避免前往日本

      標體
      2026-01-27 13:56:00
      球員錦標賽:吳宜澤鎖定名額,周躍龍危險,丁俊暉、趙心童需努力

      球員錦標賽:吳宜澤鎖定名額,周躍龍危險,丁俊暉、趙心童需努力

      老骾體育解說
      2026-01-27 14:24:25
      得分“業余”卻成籃板怪物!火箭最被低估的殺招,被他一人扛起!

      得分“業余”卻成籃板怪物!火箭最被低估的殺招,被他一人扛起!

      田先生籃球
      2026-01-27 13:01:19
      難以相信!41歲詹姆斯創造NBA77年紀錄,沒想到雷迪克會這么說

      難以相信!41歲詹姆斯創造NBA77年紀錄,沒想到雷迪克會這么說

      劉哥談體育
      2026-01-27 13:37:06
      600877,垂直漲停!商業航天概念,異動拉升!

      600877,垂直漲停!商業航天概念,異動拉升!

      證券時報e公司
      2026-01-27 10:12:51
      豪取14連勝晉級!中國女網15歲天才新星閃耀:一項榮譽超鄭欽文

      豪取14連勝晉級!中國女網15歲天才新星閃耀:一項榮譽超鄭欽文

      李喜林籃球絕殺
      2026-01-27 11:39:05
      我買了5600元的年貨,被二婚丈夫扇了一巴掌:就你會花錢

      我買了5600元的年貨,被二婚丈夫扇了一巴掌:就你會花錢

      船長與船1
      2026-01-27 09:41:38
      馬筱梅回應不和倆娃住,踢爆婆婆張蘭住富人區,意外透露二月行程

      馬筱梅回應不和倆娃住,踢爆婆婆張蘭住富人區,意外透露二月行程

      好賢觀史記
      2026-01-27 09:31:54
      你永遠不知道游戲里隊友的現實職業有多離譜!網友:我隊友是道士

      你永遠不知道游戲里隊友的現實職業有多離譜!網友:我隊友是道士

      夜深愛雜談
      2026-01-15 20:22:21
      強得可怕!奪冠熱門踢瘋了,狂攬11連勝+賽季不敗,高居榜首

      強得可怕!奪冠熱門踢瘋了,狂攬11連勝+賽季不敗,高居榜首

      烏龍球OwnGoal
      2026-01-27 13:35:38
      字母因傷無限期休戰!暫未考慮賽季報銷 或打完雄鹿生涯最后一戰

      字母因傷無限期休戰!暫未考慮賽季報銷 或打完雄鹿生涯最后一戰

      羅說NBA
      2026-01-27 06:05:14
      小酒窩和親爸天津團聚!高云翔帶妻女逛街,小酒窩和繼母關系很好

      小酒窩和親爸天津團聚!高云翔帶妻女逛街,小酒窩和繼母關系很好

      金風說
      2026-01-27 13:27:36
      《太平年》劇情復雜看不懂?一口氣帶你看完五代十國的歷史

      《太平年》劇情復雜看不懂?一口氣帶你看完五代十國的歷史

      爆史君帶你讀歷史
      2026-01-25 19:31:42
      軍隊腐敗,終至帝國崩潰!

      軍隊腐敗,終至帝國崩潰!

      鈞言堂
      2026-01-26 13:02:03
      牢A為什么突然爆紅?因為他說出了楊振寧不敢明說的后半段!董明珠早就看透了一切

      牢A為什么突然爆紅?因為他說出了楊振寧不敢明說的后半段!董明珠早就看透了一切

      小魚愛魚樂
      2026-01-26 17:39:17
      同樣5499元,當然是買iPhoneAir,不買iPhone17,只有一個例外

      同樣5499元,當然是買iPhoneAir,不買iPhone17,只有一個例外

      互聯網.亂侃秀
      2026-01-27 10:35:18
      一部分養狗的人真奇怪,說是出來遛狗,實際是讓狗出來上廁所的

      一部分養狗的人真奇怪,說是出來遛狗,實際是讓狗出來上廁所的

      千秋文化
      2026-01-26 22:01:51
      上海左后衛傳奇,娶編導嬌妻生3女,退役后定居香港,如今怎樣了

      上海左后衛傳奇,娶編導嬌妻生3女,退役后定居香港,如今怎樣了

      一娛三分地
      2026-01-26 20:07:39
      2026-01-27 15:12:49
      InfoQ incentive-icons
      InfoQ
      有內容的技術社區媒體
      11988文章數 51717關注度
      往期回顧 全部

      科技要聞

      理想開始關店“過冬”,否認“百家”規模

      頭條要聞

      特朗普突然宣布對韓關稅升至25% 青瓦臺緊急派人赴美

      頭條要聞

      特朗普突然宣布對韓關稅升至25% 青瓦臺緊急派人赴美

      體育要聞

      帶著母親遺愿戰斗12年,交易添頭成了隊魂

      娛樂要聞

      張雨綺被曝代孕,春晚被拒,代言跑路

      財經要聞

      金價狂飆 “牛市神話”未完待續

      汽車要聞

      標配華為乾崑ADS 4/鴻蒙座艙5 華境S體驗車下線

      態度原創

      數碼
      時尚
      健康
      本地
      房產

      數碼要聞

      蘋果M3 Mac現已成功啟動Asahi Linux 但暫不具備實際可用性

      降溫了!羽絨服這樣穿顯瘦又時髦

      耳石脫落為何讓人天旋地轉+惡心?

      本地新聞

      云游中國|格爾木的四季朋友圈,張張值得你點贊

      房產要聞

      實景兌現在即!綠城,在海棠灣重新定義終極旅居想象!

      無障礙瀏覽 進入關懷版