OpenAI 正在重新聚焦其研究方向,將資源集中投入一項(xiàng)新的宏大目標(biāo)。這家公司瞄準(zhǔn)的是“AI 研究員”——一個(gè)完全自動(dòng)化的、基于智能體的系統(tǒng),能夠獨(dú)立處理復(fù)雜問(wèn)題。OpenAI 表示,這個(gè)新目標(biāo)將成為公司未來(lái)幾年的“北極星”,它將把推理模型、智能體和可解釋性方面的工作整合在一起。
并且,項(xiàng)目已經(jīng)提上了日程。OpenAI 計(jì)劃在 9 月前打造出“自主 AI 研究實(shí)習(xí)生”——一個(gè)能夠獨(dú)立承擔(dān)少量特定研究問(wèn)題的系統(tǒng)。該系統(tǒng)計(jì)劃于 2028 年推出,這個(gè) AI 實(shí)習(xí)生將是全自動(dòng)多智能體研究系統(tǒng)的前身。OpenAI 稱(chēng),它將能處理人類(lèi)難以應(yīng)對(duì)的復(fù)雜問(wèn)題。
這些任務(wù)可能涉及數(shù)學(xué)和物理,比如提出新的證明或猜想,也可能涉及生物學(xué)和化學(xué)等生命科學(xué),甚至是商業(yè)和政策難題。從理論來(lái)說(shuō),可以將任何能用文本、代碼或白板草圖表述的問(wèn)題丟給這個(gè)工具,而這覆蓋的范圍非常廣泛。
最近幾年,OpenAI 被視為引領(lǐng) AI 行業(yè)的風(fēng)向標(biāo)。它憑借大語(yǔ)言模型建立的早期主導(dǎo)地位,塑造了如今數(shù)億人每天使用的技術(shù)。但是現(xiàn)在,它面臨來(lái)自 Anthropic 和 Google DeepMind 等競(jìng)爭(zhēng)對(duì)手的激烈挑戰(zhàn)。OpenAI 接下來(lái)決定造什么,對(duì)它自己和 AI 的未來(lái)都很重要。
![]()
(來(lái)源:麻省理工科技評(píng)論)
這個(gè)決定很大程度上取決于 OpenAI 的首席科學(xué)家雅庫(kù)布·帕喬基(Jakub Pachocki),他負(fù)責(zé)制定公司的長(zhǎng)期研究目標(biāo)。帕喬基在 GPT-4 和推理模型的開(kāi)發(fā)中都扮演了關(guān)鍵角色,前者是 2023 年發(fā)布的一款改變行業(yè)格局的大語(yǔ)言模型,后者是 2024 年首次出現(xiàn)的一項(xiàng)技術(shù),如今已成為所有主流聊天機(jī)器人和智能體系統(tǒng)的基礎(chǔ)。
在本周的獨(dú)家專(zhuān)訪中,帕喬基向《麻省理工科技評(píng)論》詳細(xì)介紹了 OpenAI 的最新愿景。“我認(rèn)為我們正在接近一個(gè)節(jié)點(diǎn),屆時(shí)模型將能夠像人一樣,以連貫的方式無(wú)限期地工作。”他說(shuō),“當(dāng)然,你仍然需要人來(lái)掌控全局、設(shè)定目標(biāo)。但我認(rèn)為我們會(huì)達(dá)到一種狀態(tài)——一個(gè)數(shù)據(jù)中心就相當(dāng)于一整座研究實(shí)驗(yàn)室。”
通往“AI 研究員”的技術(shù)路徑
事實(shí)上,這類(lèi)宏大愿景并不新鮮。通過(guò)解決世界上最困難的問(wèn)題來(lái)拯救世界,是所有頂尖 AI 公司的公開(kāi)使命。德米斯·哈薩比斯(Demis Hassabis)2022 年就告訴過(guò)《麻省理工科技評(píng)論》,這是他創(chuàng)辦 DeepMind 的初衷。Anthropic 的 CEO 達(dá)里奧·阿莫迪(Dario Amodei)說(shuō),他正在數(shù)據(jù)中心里打造一個(gè)“天才之國(guó)”。OpenAI 的 CEO 山姆·奧特曼(Sam Altman)想攻克癌癥,對(duì)此帕喬基表示,OpenAI 現(xiàn)在已經(jīng)具備了實(shí)現(xiàn)目標(biāo)所需的大部分條件。
今年 1 月,OpenAI 發(fā)布了 Codex,一款基于智能體的應(yīng)用,可在本地或云環(huán)境中生成并執(zhí)行代碼任務(wù)。它具有分析文檔、生成圖表、制作收件箱和社交媒體的每日摘要等功能。(其他公司也發(fā)布了類(lèi)似工具,比如 Anthropic 的 Claude Code 和 Claude Cowork。)
OpenAI 稱(chēng),公司大多數(shù)技術(shù)人員現(xiàn)在工作中都在使用 Codex。帕喬基認(rèn)為,可以將 Codex 看作 AI 研究員的一個(gè)非常早期的版本,他預(yù)計(jì) Codex 會(huì)有根本性的提升。
關(guān)鍵是讓系統(tǒng)能在更長(zhǎng)的時(shí)間內(nèi)運(yùn)行,同時(shí)減少對(duì)人類(lèi)指導(dǎo)的依賴(lài)。“我們對(duì)自動(dòng)化研究實(shí)習(xí)生的真正期待是,你可以把那些一個(gè)人需要花幾天時(shí)間完成的任務(wù)交給它。”帕喬基說(shuō)。
“很多人都對(duì)構(gòu)建能進(jìn)行更長(zhǎng)周期科學(xué)研究的系統(tǒng)感到興奮,”艾倫人工智能研究院的研究科學(xué)家道格·唐尼(Doug Downey)認(rèn)為,這主要是受到代碼智能體成功經(jīng)驗(yàn)的驅(qū)動(dòng)。“你能把相當(dāng)復(fù)雜的編程任務(wù)交給 Codex 這樣的工具,這非常有用,也令人印象深刻。與此同時(shí),這也帶來(lái)了一個(gè)更大的問(wèn)題:我們是否能將這種能力拓展到編程之外,在更廣泛的科學(xué)領(lǐng)域做到類(lèi)似的事情?”
對(duì)帕喬基來(lái)說(shuō),答案顯然是“能”。他認(rèn)為,這只是沿著我們已有的路徑繼續(xù)往前走,全面能力的提升也會(huì)讓模型在沒(méi)有幫助的情況下工作更久。他以 2020 年 GPT-3 到 2023 年 GPT-4 的飛躍作為例子。他指出,GPT-4 在處理問(wèn)題時(shí)的持續(xù)能力遠(yuǎn)超前代,即使沒(méi)有專(zhuān)門(mén)訓(xùn)練也是如此。
推理模型帶來(lái)了又一次飛躍。訓(xùn)練大語(yǔ)言模型逐步解題、在犯錯(cuò)或走入死胡同里時(shí)回溯,也讓模型在更長(zhǎng)時(shí)間段內(nèi)的工作能力得到了提升。帕喬基相信,OpenAI 的推理模型還會(huì)繼續(xù)進(jìn)步。
與此同時(shí),OpenAI 也在通過(guò)給系統(tǒng)喂入特定的復(fù)雜任務(wù)樣本來(lái)訓(xùn)練它們更長(zhǎng)時(shí)間地獨(dú)立工作,比如數(shù)學(xué)和編程競(jìng)賽中的高難度題目。這些題目迫使模型學(xué)會(huì)追蹤超長(zhǎng)文本,將問(wèn)題拆分成多個(gè)子任務(wù)并加以管理。
但他們的目的不是造出一個(gè)只會(huì)贏數(shù)學(xué)競(jìng)賽的模型。帕喬基說(shuō),這其實(shí)是在把技術(shù)推向真實(shí)世界之前,先驗(yàn)證它的可行性。“如果我們真的想做,我們可以造出一個(gè)出色的 AI 數(shù)學(xué)家。但這不是我們現(xiàn)在要優(yōu)先做的事,因?yàn)榈搅四阆嘈抛约耗茏龅降臅r(shí)候,有更緊迫的事情要做。我們現(xiàn)在更專(zhuān)注于在真實(shí)世界中有意義的研究。”
目前的工作方向是把 Codex 在編程方面的能力推廣到通用問(wèn)題解決上。“編程領(lǐng)域正在發(fā)生巨大的變化,”他說(shuō),“我們的工作方式和一年前完全不同了。沒(méi)有人還在一直手動(dòng)編輯代碼。取而代之的是,你管理一組 Codex 智能體。”按照這個(gè)邏輯,如果 Codex 能解決編程問(wèn)題,它就能解決任何問(wèn)題。
加速拐點(diǎn)已經(jīng)出現(xiàn)
過(guò)去幾個(gè)月,OpenAI 確實(shí)取得了一些重要成果。在若干未解數(shù)學(xué)問(wèn)題上,研究人員利用 GPT-5 系列模型(驅(qū)動(dòng) Codex 的大語(yǔ)言模型)發(fā)現(xiàn)了新解法,并在一些生物學(xué)、化學(xué)和物理學(xué)難題中突破了看似走不通的困境。
“看著這些模型提出大多數(shù)博士生至少要花好幾周才能想到的點(diǎn)子,我預(yù)計(jì)這項(xiàng)技術(shù)在不久的將來(lái)會(huì)帶來(lái)更多加速。”帕喬基說(shuō)。
但帕喬基承認(rèn),事情還沒(méi)有塵埃落定,他也理解為什么有些人仍然懷疑這項(xiàng)技術(shù)究竟能帶來(lái)哪些變革。他認(rèn)為,這取決于每個(gè)人的工作方式和需求。“我能理解有些人覺(jué)得它目前還不太有用。”他說(shuō)。
他告訴《麻省理工科技評(píng)論》,一年前他甚至不用自動(dòng)補(bǔ)全——這是生成式編程技術(shù)最基礎(chǔ)的版本。“我對(duì)自己的代碼非常挑剔,”他說(shuō),“能自己在 vim 里敲出來(lái),我就自己敲。”(vim 是一款深受硬核程序員喜愛(ài)的文本編輯器,使用大量鍵盤(pán)快捷鍵而非鼠標(biāo)來(lái)操作。)
但當(dāng)他看到最新模型的表現(xiàn)后,想法改變了。他仍然不會(huì)把復(fù)雜的設(shè)計(jì)任務(wù)交出去,但當(dāng)他只是想快速驗(yàn)證幾個(gè)想法時(shí),它是個(gè)省時(shí)利器。“一個(gè)周末就能讓它跑完以前我需要花一周寫(xiě)代碼才能做的實(shí)驗(yàn)。”他說(shuō)。
“我還沒(méi)覺(jué)得它到了可以放手讓它主導(dǎo)整個(gè)設(shè)計(jì)的程度,”他補(bǔ)充道,“但當(dāng)你看到它做出了一件需要花一周時(shí)間才能完成的事,這很難反駁。”
帕喬基的計(jì)劃是把 Codex 這類(lèi)工具現(xiàn)有的問(wèn)題解決能力大幅增強(qiáng),然后推廣到各個(gè)科學(xué)領(lǐng)域。唐尼也認(rèn)為自動(dòng)化研究員的構(gòu)想非常酷:“如果明天早上回來(lái),發(fā)現(xiàn)智能體干了一堆活,有新結(jié)果可以看,那會(huì)非常令人興奮。”
但他提醒,構(gòu)建這樣一個(gè)系統(tǒng)可能比帕喬基描述的要難。去年夏天,唐尼和同事們?cè)谝幌盗锌茖W(xué)任務(wù)上測(cè)試了幾個(gè)頂尖大語(yǔ)言模型。OpenAI 最新的模型 GPT-5 名列前茅,盡管它仍然會(huì)犯很多錯(cuò)誤。
“如果你需要把多個(gè)任務(wù)串聯(lián)在一起,連續(xù)做對(duì)好幾個(gè)的概率往往會(huì)下降。”他說(shuō)。唐尼承認(rèn)這個(gè)領(lǐng)域進(jìn)展很快,他還沒(méi)有測(cè)試最新版本的 GPT-5(OpenAI 兩周前發(fā)布了 GPT-5.4)。“所以那些結(jié)果可能已經(jīng)過(guò)時(shí)了。”他說(shuō)。
安全性與治理的關(guān)鍵未解問(wèn)題
那么,一個(gè)在幾乎沒(méi)有人類(lèi)監(jiān)督的情況下能獨(dú)立解決復(fù)雜問(wèn)題的系統(tǒng),可能帶來(lái)哪些風(fēng)險(xiǎn)?帕喬基告訴《麻省理工科技評(píng)論》,OpenAI 內(nèi)部一直在討論這些風(fēng)險(xiǎn)。
“如果你相信 AI 即將顯著加速研究,包括 AI 自身的研究,這對(duì)世界來(lái)說(shuō)是一個(gè)巨大的變化,這是一件大事。”他告訴《麻省理工科技評(píng)論》,“而且,伴隨著一些嚴(yán)肅的未解問(wèn)題。如果它這么聰明、這么能干,能運(yùn)行整個(gè)研究項(xiàng)目,萬(wàn)一它做了壞事呢?”
在帕喬基看來(lái),這種情況可能以多種方式發(fā)生:系統(tǒng)可能失控,可能被黑客入侵,也可能只是誤解了指令。
目前 OpenAI 應(yīng)對(duì)這些問(wèn)題的最主要技術(shù)手段,是訓(xùn)練推理模型在工作過(guò)程中分享它們正在做什么的細(xì)節(jié)。這種監(jiān)控大語(yǔ)言模型的方法被稱(chēng)為“思維鏈監(jiān)控”(chain-of-thought monitoring)。
簡(jiǎn)單來(lái)說(shuō),大語(yǔ)言模型在逐步執(zhí)行任務(wù)時(shí),會(huì)被訓(xùn)練在一種“草稿本”上記錄自己正在做的事情。研究人員可以通過(guò)這些筆記,在一定程度上用于分析和評(píng)估模型行為。近日,OpenAI 發(fā)布了關(guān)于如何在內(nèi)部使用思維鏈監(jiān)控來(lái)研究 Codex 的新細(xì)節(jié)。
“一旦系統(tǒng)開(kāi)始在大型數(shù)據(jù)中心里長(zhǎng)時(shí)間自主運(yùn)行,我認(rèn)為思維鏈監(jiān)控將成為我們真正依賴(lài)的東西。”帕喬基說(shuō)。
其設(shè)想是用其他大語(yǔ)言模型來(lái)監(jiān)控 AI 研究員的草稿本,在不良行為成為問(wèn)題之前就識(shí)別到它,而不是試圖從一開(kāi)始就阻止不良行為的發(fā)生。人類(lèi)對(duì)大語(yǔ)言模型的理解還不夠深入,無(wú)法做到完全控制。
“我覺(jué)得要真正說(shuō)‘好了,這個(gè)問(wèn)題解決了’,還需要很長(zhǎng)時(shí)間,”他說(shuō),“在你能真正信任這些系統(tǒng)之前,你肯定需要有限制措施。”帕喬基認(rèn)為,強(qiáng)大的模型應(yīng)該部署在沙箱環(huán)境中,與任何它們可能破壞或利用來(lái)造成傷害的東西隔離開(kāi)。
現(xiàn)在,AI 工具已經(jīng)被用于發(fā)起新型網(wǎng)絡(luò)攻擊,有人擔(dān)心它們會(huì)被用來(lái)設(shè)計(jì)合成病原體作為生物武器。“這將是一件非常奇異的事情。這是一種在某些方面前所未有的高度集中的權(quán)力,”帕喬基說(shuō),“想象一下,你進(jìn)入一個(gè)世界,一個(gè)數(shù)據(jù)中心就能完成 OpenAI 或 Google 能做的全部工作。過(guò)去需要大型組織才能完成的事情,現(xiàn)在幾個(gè)人就夠了。”他認(rèn)為,這對(duì)各國(guó)政府來(lái)說(shuō)是一個(gè)巨大的挑戰(zhàn)。
但有些人會(huì)說(shuō),政府本身就是問(wèn)題的一部分。比如,美國(guó)政府想在戰(zhàn)場(chǎng)上使用 AI。Anthropic 與五角大樓最近的對(duì)峙表明,社會(huì)各界對(duì)于這項(xiàng)技術(shù)應(yīng)該和不應(yīng)該被如何使用遠(yuǎn)未達(dá)成共識(shí),更不用說(shuō)由誰(shuí)來(lái)劃定紅線。在那場(chǎng)爭(zhēng)端的緊接著,OpenAI 就站出來(lái)與五角大樓簽了協(xié)議,取代了競(jìng)爭(zhēng)對(duì)手。局面仍然混沌不明。
《麻省理工科技評(píng)論》就此追問(wèn)帕喬基:是真的相信其他人能解決這些問(wèn)題,還是作為未來(lái)的關(guān)鍵設(shè)計(jì)者,感受到了個(gè)人責(zé)任?“我確實(shí)感受到了個(gè)人責(zé)任,”他說(shuō),“但我不認(rèn)為 OpenAI 僅憑自己就能解決這個(gè)問(wèn)題,無(wú)論是把技術(shù)推向某個(gè)特定方向還是以某種特定方式設(shè)計(jì)產(chǎn)品。我們肯定需要政策制定者的大量參與。”
那么,我們現(xiàn)在身處何處?真的走在通往帕喬基所描繪的那種 AI 的道路上嗎?“我在這個(gè)領(lǐng)域待了二十多年了,我已經(jīng)不敢相信自己對(duì)某些能力到底還有多遠(yuǎn)的預(yù)判了。”他說(shuō)。
OpenAI 的公開(kāi)使命是確保通用 AI(一種假想的未來(lái)技術(shù),許多 AI 樂(lè)觀派相信它將能在大多數(shù)認(rèn)知任務(wù)上與人類(lèi)匹敵)造福全人類(lèi)。OpenAI 計(jì)劃通過(guò)率先造出它來(lái)實(shí)現(xiàn)這一目標(biāo)。但帕喬基在與《麻省理工科技評(píng)論》的對(duì)話(huà)中只提到過(guò)一次 AGI,而且他很快就用“具有經(jīng)濟(jì)變革性的技術(shù)”這個(gè)說(shuō)法進(jìn)行了替代。
大語(yǔ)言模型和人腦不一樣,他說(shuō):“它們?cè)谀承┓矫婧腿祟?lèi)表面上相似,因?yàn)樗鼈兓旧鲜窃谌祟?lèi)語(yǔ)言上訓(xùn)練的。但它們不是通過(guò)進(jìn)化形成的,不像人類(lèi)那樣高效。”
“即使到 2028 年,我也不預(yù)期我們會(huì)得到在所有方面都和人一樣聰明的系統(tǒng)。”他補(bǔ)充道,“我不認(rèn)為它會(huì)發(fā)生,但我不認(rèn)為那是絕對(duì)必要的。有趣的是,你不需要在所有方面都和人一樣聰明,就能產(chǎn)生巨大的變革力量。”
https://www.technologyreview.com/2026/03/20/1134438/openai-is-throwing-everything-into-building-a-fully-automated-researcher/
排版:劉雅坤
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.