鷺羽 發自 凹非寺
量子位 | 公眾號 QbitAI
新年新氣象!AI大神吳恩達2026年目標公開:
要做一個新的圖靈測試,他稱之為圖靈-AGI測試
光看名字就知道,這個測試專為AGI而生。
![]()
去年是AGI水漲船高的一年,吳恩達在其年度總結中也曾表示:
- 2025年或許會被銘記為人工智能工業時代的開端
- 創新推動模型性能到達新的高度,AI驅動的應用變得不可或缺,頂尖企業人才爭奪激烈,基礎設施建設推動社會生產總值增長。
學術界和工業界頻繁提及AGI概念,硅谷的公司也會為搶先AGI定下季度目標。
但關于AGI的定義至今還沒有統一標準,現有基準測試還常常誤導大眾,使其高估當前的AI水平。
吳恩達注意到該趨勢,于是新的圖靈測試將試圖彌補這一空白。
![]()
正如網友所言:
- 要衡量智能首先要定義智能。
![]()
圖靈-AGI測試設想
傳統的圖靈測試在AGI時代顯然不夠用。
它由艾倫·圖靈在上世紀五十年代提出,提出用人機對話來測試機器的智能水平。
在測試過程中,人類評估者需要確定他們是在與人還是與機器交談。如果機器能夠成功騙過評估者,那么就算通過了測試。
但現在的AI顯然不再滿足于簡單的對話交互,而是要構建起經濟有用的系統,所以亟需一個能夠衡量AI工作能力的測試。
而這就是圖靈-AGI測試的核心,要讓AI像人類一樣智能,并完成大部分的知識型工作。
測試對象將會是AI系統或專業人士,他們將會被提供一臺可以訪問互聯網并配備瀏覽器和Zoom等軟件的計算機。
![]()
裁判將通過計算機為測試對象設計一個多日的體驗任務,比如作為客服,會先被培訓一段時間,然后要求執行接聽電話的任務,并需要提供持續的反饋。
只要AI能夠像人類一樣熟練完成工作任務,就會被認為通過測試。
該測試將聚焦AGI的經濟性和實際產出,更接近普世意義下對AGI的初始定義——可用于工作和生產場景的智能。
它也會比基準測試更考驗AI的通用能力
現在幾乎所有的AI基準測試,如GPQA、AIME、SWE-bench等,都會預先確定一個測試集。這意味著AI團隊都會直接針對已發布的測試集來調整他們的模型。
這就導致很多AI模型榜單排名靠前,但真實物理世界中又能力不夠。
去年鬧得沸沸揚揚的Llama 4刷榜丑聞就是其中一個典型,明明數據看起來都很不錯,但用戶真正上手后卻傻眼了。
![]()
此外,固定測試集只能衡量AI在某一狹窄領域的能力。相比之下,圖靈測試可以由評委自由提出任意問題,沒有提前限定范圍,更能判斷系統在通用任務上的表現。
在改進的圖靈-AGI測試中,延續了這一設定,裁判可以任意設計體驗任務,而受測試的AI或人類測試者均不會事先知道任務內容,這將比基準測試更能判斷AGI水平。
同時為了校準社會對AI的期望,吳恩達表示,或許他將舉辦一場圖靈-AGI測試,讓所有AI參與其中。
即便最后的結果會是所有AI系統均未能達到標準,但也能平息長期以來對AGI的過度炒作。
這種降溫將會為AI領域創造更穩健的環境,讓行業重新聚焦于非AGI級別的實際進步,比如開發有實用價值的應用,而不是沉迷于實現AGI的營銷噱頭。
從長期來說,圖靈-AGI測試也會為AI團隊設定一個具體的努力目標,而非模糊地實現人類級智能。
倘若真有某一家公司能夠通過測試,其成果也必定具備真實價值,圖靈-AGI測試將會為真正的AGI突破提供可信的判定依據。
所以接下來,只需拭目以待。
[1]https://x.com/AndrewYNg/status/2008578741312836009?s=20
[2]https://www.deeplearning.ai/the-batch/issue-334/
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.