東京大學醫(yī)學部的錄取通知書,今年差點要發(fā)給一個服務器集群。
日本AI創(chuàng)業(yè)公司LifePrompt上周公布測試結果:ChatGPT在東京大學、京都大學2025年入學考試中拿下最高分,理科三類醫(yī)學專業(yè)比人類狀元還高50分,數(shù)學直接滿分。一年前,同一套考題它還沒過錄取線。這個跨度,比復讀生逆襲還夸張。
![]()
分數(shù)拆解:哪里封神,哪里翻車
先看東京大學的成績單。人文社會類滿分550分,ChatGPT考452分;理科三類同樣滿分550分,它拿503分。兩項都超過校方公布的錄取最高分——人文類434分,理科類453分。
京都大學更夸張。法學院入學考試771分,超過錄取最高分734分;醫(yī)學院1176分,碾壓真人狀元的1098分。
但細看科目,AI的偏科暴露無遺。英語得分率90%,世界史論述題卻只有25%。
這說明什么?它能啃下標準化答案的硬骨頭,卻在需要原創(chuàng)觀點的開放題上露怯。考試設計的"盲區(qū)",恰好是AI能力的"盲區(qū)"。
技術迭代:從落榜到狀元只用兩年
LifePrompt的測試時間線值得玩味。2024年用GPT-4,沒過東大錄取線;2025年換o1模型,首次合格;現(xiàn)在用ChatGPT 5.2思考模型,直接屠榜。
測試方法也升級了。考題被轉化成圖像數(shù)據(jù)輸入模型,論述題由日本知名補習學校河合塾的教師人工閱卷——盡量模擬真實考場環(huán)境。
「人工智能技術迭代速度極快,企業(yè)引入時需要著眼于未來10至20年的業(yè)務格局進行布局。」LifePrompt負責人遠藤聰這樣總結。
但這位負責人的潛臺詞沒說完:如果兩年就能從落榜到狀元,企業(yè)現(xiàn)在的"布局"可能明年就過時。
教授的冷笑話:計算器本來就該比人快
日本人工智能學會會長、慶應義塾大學教授栗原聰?shù)幕貞o這場"AI狀元"狂歡潑了盆冷水。
「就像計算器的運算速度和精準度遠超人類一樣,人工智能考出高分本就是理所應當。」
他的核心論點很簡單:人類和AI不該放在同一賽道。AI擅長的是海量數(shù)據(jù)的吸收與歸納,而創(chuàng)造全新價值的能力,人類依舊不可替代。
栗原聰還順手捅了日本升學制度一刀——側重考查知識記憶與計算能力的考試模式,已經(jīng)到了需要改革的時候。
這話聽著像給AI高分找臺階,但細想有道理。如果狀元考的主要是"記得多、算得快",那AI拿高分確實不算新聞。真正該問的是:這套篩選標準,選出的到底是人才,還是"人形數(shù)據(jù)庫"?
考試設計的尷尬:我們到底在考什么
ChatGPT的世界史論述題得分率25%,這個數(shù)字比它的滿分數(shù)學更有信息量。
論述題本應是區(qū)分"會考試"和"會思考"的護城河,但25%的得分率說明,AI至少能湊出點東西——只是質量不夠看。如果未來模型把這道坎也跨過去了,考試還能靠什么篩人?
一個可能的走向:標準化考試進一步貶值,面試、作品集、項目制評估權重上升。但這又帶來新問題——成本更高,公平性更難保證。
日本頂尖大學的入學考試,某種程度上是東亞應試教育的標桿。AI在這里拿高分,等于給全球教育系統(tǒng)出了一道同步考題:當機器能替代"苦讀",教育的核心價值要往哪遷移?
栗原聰說的"創(chuàng)造全新價值",聽起來像正確的廢話。但看看ChatGPT的25%論述題得分率,至少現(xiàn)在,這句廢話還是人類的護城河。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.