![]()
2026年的AI圈現在有點熱鬧得過了頭,AGI這詞兒快被各家公司說爛了。
今天這家宣布"AGI近在咫尺",明天那家號稱"已突破通用智能",但真要問他們AGI到底是個啥,多數時候都含糊其辭。
![]()
更要命的是,現在評估AI能力的那些測試,越來越像應試教育的考場去年Llama4剛鬧出刷榜丑聞,說是在代碼測試里拿了高分,結果實際部署時連個簡單的系統漏洞都查不出來。
就在這時候,吳恩達突然扔出個重磅消息,他要搞個"圖靈-AGI測試",說是要給現在虛火旺盛的AGI賽道降降溫。
![]()
現在AI圈對AGI的定義簡直亂成一鍋粥。
硅谷那些公司把AGI當成季度KPI來喊,今天說"三年內實現",明天又改成"已完成50%",但問他們具體衡量標準,要么拿不出,要么就是自家定的"內部標準"。
![]()
斯坦福HAI研究院去年出過份報告,說全球差不多三分之一的AI企業,把"AGI"當營銷話術用,實際技術水平離真正的通用智能還差著十萬八千里。
老祖宗艾倫·圖靈1950年搞的那個測試也有點跟不上趟了。
那個測試就看AI能不能模仿人類對話,但會聊天不代表能干活啊。
![]()
2024年OpenAI用GPT-4通過了簡化版的圖靈測試,可真讓它搞醫療診斷,誤診率比實習醫生還高,讓它寫段復雜代碼,跑起來全是bug。
這就好比拿英語六級成績去招聘程序員,方向從根上就偏了。
更頭疼的是那些所謂的"基準測試",現在成了刷榜重災區。
![]()
就說GPQA、AIME這些測試吧,數據集都是公開的,AI團隊只要針對這些題猛練,成績肯定好看。
MIT技術評論去年做過調查,78%的AI模型在測試集上的表現,比真實場景里高出三成還多。
這跟學生熬夜背題庫應付考試有啥區別?考分再高,真到工作崗位上還是抓瞎。
![]()
既然老辦法不行,那吳恩達這次提出的新測試又是咋回事呢?簡單說,就是讓AI去"上班"。
測試的時候會給AI配個工作環境,有互聯網,有瀏覽器,還能開Zoom會議,然后讓它完成人類裁判設計的真實任務可能是給新員工做客服培訓。
![]()
也可能是跟進一個完整的項目管理流程,一搞就是好幾天,最后看它能不能達到人類員工的熟練程度,這才是判斷標準。
本來想這測試可能跟以前一樣搞些選擇題,后來發現完全不是。
跟傳統測試比,它有三個明顯的突破,任務沒范圍,今天讓你寫報告,明天可能讓你做PPT,環境跟真上班一樣。
![]()
還得跟人協作,評估維度也多,不光看結果,還得看效率、錯誤率,甚至有沒有創新想法。
吳恩達在自己博客里說得挺實在,"AGI的價值最終得看它能不能創造經濟效用,總不能老停留在聊天吹牛的階段。"
這測試的真正目的,怕是想給行業降降溫。
![]()
就算現在沒有AI能通過,至少能讓那些天天喊"AGI來了"的公司消停點,把精力放在真正有用的技術上。
有AI倫理學者就說,這玩意兒可能會成為AGI領域的"退燒藥",讓大家從概念炒作回到實際應用。
說起來,這測試也不是沒爭議。
![]()
有專家擔心,人類裁判的主觀判斷可能影響結果,畢竟每個人對"熟練程度"的理解不一樣。
有人建議得搞個多維度評分表,效率占多少,錯誤率占多少,創新能力占多少,還得找不同機構的人來監督,這樣才公平。
吳恩達這步棋走得挺有意思,短期看,能讓那些靠AGI概念騙融資的項目現原形。
![]()
Gartner預測說,如果這測試真能推廣開,AI行業里"AGI概念融資"占比能從現在的45%掉到20%,反倒是那些解決具體問題的實用型項目能多拿30%的投資。
長期來看,要是真有AI能通過這測試,那才是實打實的技術突破,比現在空喊口號有意義多了。
想想吳恩達以前干的事,從Coursera上的AI課程到推動深度學習普及,他好像總喜歡在行業跑偏的時候拉一把。
![]()
這次的圖靈-AGI測試,說不定真能成為AGI發展的指南針,讓技術往真正有用的方向走。
當然,這事兒還得行業、學術界和監管機構一起使勁,把測試規則打磨得更科學。
畢竟技術發展快不是壞事,但得走得穩,走得對,才能真的幫到人。
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.