編輯|Panda
Transformer 是當前 LLM 大發(fā)展的核心基礎,但也有不少頂尖研究者更愿意探索其它道路。在這其中,甚至包括 Transformer 的創(chuàng)造者之一、Sakana AI 創(chuàng)始人聯(lián)創(chuàng)兼 CTO Llion Jones。他今天還在 Sakana 的官推上發(fā)了一篇博客,題目便赫然是《為什么 Transformer 的這位創(chuàng)造者受夠了 Transformer》。
![]()
https://x.com/SakanaAILabs/status/2016844349188034922
「我不是說我們應該扔掉 Transformer。但就我個人而言, 我正在大幅減少研究它們的時間。我明確地在尋找下一個目標。」他寫道,「讓我們一起加大探索力度。別再糾纏于同一個地方,去尋找下一座高峰吧。」
也恰在今天,The Information 報道揭示了前 OpenAI 研究 VP Jerry Tworek 創(chuàng)立的一家正在探索「下一座高峰」的新創(chuàng)業(yè)公司Core Automation。
![]()
在效力 OpenAI 期間,Tworek 曾擔任研究副總裁,負責強化學習領域的工作。此外,他還是 OpenAI 推理模型、編程工具和 AI 智能體開發(fā)的關鍵貢獻者。
據(jù)知情人士透露,Core Automation 剛成立幾周時間,目前正尋求 5 億至 10 億美元的融資。
報道說,根據(jù)向潛在投資者展示的材料,Tworek 計劃采用一種與 OpenAI、Anthropic 等大廠截然不同的路徑來開發(fā) AI 模型。知情人士稱,他希望打造具備「持續(xù)學習」(Continual Learning)能力的模型,即能夠從現(xiàn)實世界的實踐中即時獲取知識。而現(xiàn)有的 AI 模型尚不具備這種「邊練邊學」的能力。
目前,這位研究員的創(chuàng)業(yè)計劃尚處于早期階段,其融資規(guī)模和產品路徑仍可能發(fā)生變動。如果成功,或許我們可將 Core Automation 與 Safe Superintelligence 和 Thinking Machines Lab 并稱為探索非 Transformer 方向的「OpenAI 三子」。
事實上,Core Automation 不是孤例,而是代表了業(yè)內一個規(guī)模雖小但日益壯大的群體。這些研究人員認為 AI 領域需要一場「徹底的變革」。
在他們看來,當前主流的模型開發(fā)技術雖然流行,但很難讓 AI 在生物、醫(yī)學等領域取得重大突破,且無法根除 AI 經常犯低級錯誤的頑疾。
據(jù)了解,Tworek 本月初離開 OpenAI,并在 X 上寫道,此舉是為了「探索那些在 OpenAI 內部難以推進的研究方向」。
![]()
在融資材料中,Core Automation 表示仍會使用大型神經網絡 —— 這是當今前沿模型底層的數(shù)學基礎。但公司將重新審視模型開發(fā)的每一個環(huán)節(jié),甚至包括訓練神經網絡的最基本方法「梯度下降」(Gradient Descent)。
知情人士表示,Tworek 計劃開發(fā)一種對數(shù)據(jù)量和計算資源需求更低的模型。他們將通過構建全新的架構來取代目前統(tǒng)治市場的 Transformer 架構。此外,Tworek 還希望將原本割裂的模型訓練步驟整合為單一的流程。
![]()
Transformer 架構
在追求「持續(xù)學習」這一目標上,Core Automation 與另一家實驗室 Safe Superintelligence(由前 OpenAI 首席科學家 Ilya Sutskever 共同創(chuàng)立)不謀而合。Sutskever 此前也表達過類似的愿景,即希望模型能夠通過在現(xiàn)實世界中的部署來不斷進化。此外,從 Meta 離職的 Yann LeCun 也在探索類似的方向。
當然,OpenAI 和 Anthropic 等巨頭也并未忽視「持續(xù)學習」。
一些研究者認為,通過對現(xiàn)有基于 Transformer 的模型進行微調,同樣可以實現(xiàn)類似的學習特性,而無需徹底推倒重來。
媒體表示,Tworek 宏大的融資目標反映了資本市場對「新實驗室」的持續(xù)狂熱。近幾個月來,盡管許多此類公司尚無收入甚至沒有產品,但動輒就能拿到數(shù)億美元的投資。
例如:初創(chuàng)公司 Humans& 本月以 44.8 億美元的估值拿下了 4.8 億美元種子輪融資,投資者包括英偉達和貝佐斯;Mira Murati 的 Thinking Machines Lab 最近也在洽談一筆 40 億至 50 億美元的融資,投后估值預計超過 500 億美元。不過相比之下,Thinking Machines 進展更快,去年已推出了模型定制產品并產生了部分收入。
Tworek 早在 2019 年就加入了 OpenAI。在他的構想中,Core Automation 的研究團隊將圍繞一個名為「Ceres」(取自羅馬谷物女神及矮行星之名)的單一算法和模型展開工作。這與主流廠商的做法大相徑庭。通常,大型模型的訓練會分為預訓練(使用海量互聯(lián)網數(shù)據(jù))、中期訓練和針對編程、醫(yī)療等領域的后期微調。
按照 Tworek 的目標,這款模型所需的數(shù)據(jù)量將比現(xiàn)有最先進模型少 100 倍。
模型研發(fā)成功后,公司將開發(fā) AI 智能體來自動化生產自己的產品。其遠景規(guī)劃首先是工業(yè)自動化,最終目標甚至包括建造「自我復制工廠」、研制自動生成定制設計的生物機器,乃至于改造地外行星的生態(tài)。
你看好這些新方向的探索嗎?
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.