![]()
現代AI編碼工具已經徹底改變了軟件工程,開發者現在使用AI助手編寫大部分代碼,涉及各種應用領域。作為研究機器學習理論的科學家,我們已經看到基礎科學方法論發生了類似的轉變,特別是在數學性質的研究中。
更準確地說,AI工具現在能夠僅從提供高層證明草圖的提示中開發和編寫嚴格的數學證明。這些證明用詳述數學論證的長期存在的"語言"編寫,就像代碼用Python等正式編程語言編寫一樣。AI似乎已經熟練掌握了這兩種語言及其底層邏輯。
去年夏天,我們在三周內使用智能體AI工具撰寫了一篇數學論文,這通常需要幾個月時間。這篇50頁的論文描述并解決了一個基于圖論和機器學習概念的優化問題。我們給AI的典型提示是:"想象一個由線性最小二乘學習智能體組成的有向無環網絡,每個智能體共享一個通用數據集,但每個智能體只能看到特征的不同子集。"
定理陳述和證明的典型提示是:"我們相信,如果網絡包含一個足夠長的智能體鏈,其特征覆蓋整個數據集,鏈中的某個智能體應該快速收斂到全局最優線性模型。證明應該利用錯誤在鏈中單調遞減這一事實,這迫使長序列智能體在彼此特征方面具有多重準確性。"雖然這些表述對普通讀者來說可能很晦澀,但它們都有精確的標準數學解釋,AI通過訓練知道這些,并將非正式直覺轉化為精確定義和陳述。這種轉化并不完美,但產生了一個很好的初稿,然后可以進行修正和完善。
需要明確的是,對于這篇特定論文,我們已經知道心中證明的大致輪廓。AI所做的是自動化并大大加速填寫缺失細節并以正式精確性編寫它們的過程。但最近,我們撰寫的論文在沒有AI幫助的情況下會有本質不同,質量更好——AI貢獻了對最終結果至關重要的關鍵想法。
重要的是要注意AI工具發展很快,這使得未來難以預測。雖然它們的使用顯示出產生更快更好研究的潛力,但也為那些關心科學未來及其與更廣闊世界關系的人產生了嚴重問題。AI正在改變研究規范和工作流程,這引發了如何培訓未來幾代科學家的擔憂。
具體來說,當AI自動化許多歷史上用于培訓年輕研究人員的步驟時,如何培養科學研究中的直覺和"良好品味"?同行評議是另一個挑戰:AI生成的研究論文大規模快速產出,突顯了同行評議和現代出版結構的局限性,也加劇了科學成功激勵機制已經出現的挑戰。雖然我們不聲稱對這些擔憂有答案或解決方案,但我們正在親身經歷它們,并將逐一討論。
與AI協作的新范式
從我們夏季研究項目中得出的主要結論之一是,與基于證明的AI工具合作類似于與一個聰明、受過廣泛教育但偶爾出錯的同事合作。人們可以像對人類合作者一樣向AI智能體口頭描述數學論證,智能體可以將該草圖轉化為正式書面的引理或定理及其證明。
越來越多的AI智能體可以在沒有草圖的情況下自己找到證明,特別是當這些證明在某些數學領域是"標準"的時候。這比聽起來更有用:許多類型的論證在某個領域是"標準"的,但通常是人類作者不是專家的領域。AI工具的一個優勢是它們精通數學和其他科學學科的大量領域。
例如,在我們的案例中,在逐步證明我們提供草圖的主要結果過程中,AI自發地證明了一個我們不知道的簡單但有用的引理,這有意義地簡化了我們心中的論證。這種創造力的含義令人興奮,特別是在降低發現門檻方面:沒有多樣化合作者社區的科學家也可以以之前不可能的方式參與前沿研究。
然而,使用這些工具仍需要謹慎和專業知識。它們生成的證明大約只有四分之三的時間是正確的。但當它們錯誤時,如果你能識別錯誤,通常可以迭代到正確性,然后沿著有希望的路徑繼續。
如果錯誤仍未糾正,試圖繼續往往會走入死胡同。25%的錯誤率足夠低,使工具對專家極其有用,但也足夠高,在不小心或不加區分使用時,有時會退化為"AI研究垃圾"——看起來精美但最終有缺陷或無趣的工作。畢竟,模型仍然不知道什么是"有趣"或"有用"的。
我們還注意到使用AI工具產生的一些反復出現的失敗模式或"兔子洞"。在撰寫論文時,我們要求AI生成一個小的、自包含的結果,它在幾分鐘內完美完成,此時我們告訴它這個子項目已完成。然而,在接下來的幾天里,AI會自發主動建議回到這個話題,盡管被反復告知除非被要求否則不要這樣做。這令人惱火地提醒我們生成式AI沒有完美的回憶,只有上下文的不完整摘要或嵌入。在為實驗編寫代碼以說明我們的理論發現時,我們發現AI可以在快速編寫大量相當復雜的工作代碼和在瑣事上迷失幾個小時之間交替,比如簡單地打印出正在執行循環的哪次迭代。
培養下一代研究人員
歷史上,人們通過作為初級研究人員的艱難過程在數學科學中獲得專業知識。博士生花費數年時間研究技術論證的細節,以獲得關于證明方法何時有前景、何時被問題誤導或什么構成新穎有趣研究方向的來之不易的直覺。
但研究人員的這些方面正是AI工具正在"贈送"的。如果博士生可以簡單地向AI索要證明——這極其誘人,特別是當它有助于推進研究時——他們如何發展目前至少需要的經驗和技能,以便首先高效地使用AI工具?
我們可能需要更有意識地向年輕研究人員傳授這些基礎技能,也許采用在小學不使用計算器教算術的高級版本。直接建議是要求初級研究人員"老式地"撰寫論文,即使他們的工作可以通過AI加速。
也許在單獨的軌道上,學生將接受理解和使用新興AI工具的訓練。這是一個日益重要的領域,可能需要創造性的解決方案。雖然我們堅信AI工具將為科學做出驚人的事情,但重要的是要有意調節它們的使用,以便將研究人員培養到能夠明智和有品味地使用它們的程度,而不是簡單地作為二流研究的捷徑。
這些下一代培訓挑戰對使用AI的科學家來說并不獨特。我們在無數領域看到它們,包括工程、客戶服務、法律、寫作和設計——實際上,任何入門級任務(以前用于向年輕工作者介紹某個領域)現在使用AI完成的行業。為了找到這種技能培訓挑戰的創造性解決方案,或者更好地預測即將發生的變化,跨領域或時間類比可能會有所幫助。
在高級編程語言和編譯器在20世紀60年代早期廣泛引入后,大多數軟件工程師不再編寫機器代碼或匯編語言,這些直接向底層硬件提供指令但編程繁瑣。但最好的程序員仍然對編譯器如何將高級語言轉化為機器代碼有足夠的了解,以便對正確性和性能進行推理。我們希望使構造和檢查技術論證變得更容易,讓所有研究人員在更高的抽象級別操作并"思考更大的想法"。我們設想的文化將強調品味、問題選擇和建模技能,并貶低技術魔法本身的價值。
同行評議面臨的挑戰
從我們的角度來看,同行評議不僅僅是,甚至主要不是驗證研究正確性和質量的過程。相反,它的目的是將稀缺資源——研究社區的注意力——集中在正確的地方。科學隨著研究人員相互建立在彼此工作基礎上而進步,但已經有太多工作讓任何人都無法跟上。出版過程應該幫助識別最有趣和最有前景的方向,以便它們能夠更有效和徹底地發展。
AI如何影響這種社區注意力的集中?AI工具使產生看起來精美和正確的工作變得更容易,大大降低了生成可以提交給期刊和會議的"論文"的門檻。許多這些論文既不有趣也不真正正確——但發現這一點需要審稿人付出巨大努力。
這正在給已經不堪重負的機器學習出版生態系統帶來壓力,該系統正在努力應對每個會議數萬份投稿。我們看到減少產生"一篇論文"——不一定是好論文——所需的時間和努力正在開始破壞我們現有的同行評議機構。AI和機器學習會議的最新迭代看到投稿數量大幅增長,其中很大一部分論文由AI潤色,但最終質量很低,在被注意和揭發之前令人驚訝地通過了大部分評審過程。
這是各個研究領域的問題,部分因為它正在為AI生成的論文創造一個市場。這反過來產生了AI輔助檢測AI生成論文的反市場——很像圍繞垃圾郵件及其檢測等事物的熟悉技術軍備競賽,但科學出版的完整性受到威脅,而不僅僅是過濾煩人或欺詐性電子郵件。
作為短期修復,AI驅動的自動正確性檢查(例如,數學證明的正式驗證),這些工具已經在主要會議上部署,可能很有價值。將此視為數學而非代碼的單元測試形式。目標是過濾掉有非平凡錯誤的論文,同時將人類審稿人的工作重點放在他們最適合評估的科學重要部分:確定我們從新結果中學到關于世界的什么,以及它有多有用和有趣,而不是被檢查無數論文技術正確性的單調所淹沒。
如果沒有對同行評議進行認真的、社區范圍的重新評估,AI威脅在社區層面阻止科學進步,即使它在個人研究人員層面加速了進步。
擁抱變革,塑造未來
我們認為AI正在為科學研究方法論、培訓和同行評議帶來翻天覆地的變化;無法隱瞞即將到來的事情。但有機會主動適應并確保AI輔助研究實現其承諾。明年年底研究會是什么樣子?后年呢?我們在過去一年中看到的變化比前十年更多,所以我們能夠自信預測的只是"不同"。
我們的科學機構——同行評議、出版、研究生教育——經過數十年發展以匹配人類認知和努力的約束。這些約束正在快速變化,我們的機構需要與它們一起變化。我們的目標應該是引導走向一個世界,在這個世界中AI放大人類創造力和洞察力,加速發現,擴大誰可以參與研究事業——同時保持使科學有價值的快樂和嚴謹。
Q&A
Q1:AI如何幫助數學家進行證明?
A:AI工具能夠僅從高層證明草圖的提示中開發和編寫嚴格的數學證明。研究人員可以向AI智能體口頭描述數學論證,就像對人類合作者一樣,智能體可以將該草圖轉化為正式書面的引理或定理及其證明,大大加速了研究過程。
Q2:AI生成的數學證明準確率如何?
A:AI生成的證明大約只有四分之三的時間是正確的,存在25%的錯誤率。當證明錯誤時,如果能識別錯誤,通常可以迭代到正確性。這個錯誤率足夠低使工具對專家極其有用,但也足夠高,需要謹慎使用以避免產生有缺陷的研究。
Q3:AI對科學出版和同行評議有什么影響?
A:AI工具大大降低了生成看似精美論文的門檻,導致投稿數量大幅增長,但其中許多質量很低。這給同行評議系統帶來巨大壓力,威脅科學出版的完整性。需要引入AI驅動的自動正確性檢查等新機制來應對這一挑戰。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.