《推理能力翻倍,Google這次不是在湊數》
——當得分從31.1%跳到77.1%,這已不是升級,而是換腦
![]()
AI發布會聽多了,大家早就免疫了。
但這次的數據,讓人不自覺坐直。
在第三方邏輯基準上,Gemini 3.1 Pro拿到77.1%,上一代只有31.1%。橫向看,Claude Opus 4.6約68.8%,GPT-5.2約52.9%。這不是“領先一點”,而是直接沖到第一梯隊。問題來了:它到底做對了什么。
關鍵不在分數,而在機制。
過去模型更像“背題家”,靠海量語料匹配答案;這次躍遷出現在“未見題”測試——也就是刻意屏蔽訓練數據后的邏輯難題。換句話說,它不只是記住套路,而是形成了可遷移的推理骨架。長鏈思考被拆解成分段驗證,像工程師在草稿紙上逐步排錯,而不是一次性豪賭輸出。這叫泛化,而不是刷題。
我見過一個場景:凌晨兩點,開發者把一段復雜函數丟進去,本來準備自己熬夜重寫,結果模型先給出思路分解,再附上改進版本。那一刻,他猶豫的不是“好不好用”,而是“要不要全面遷移”。
更“殺人誅心”的是——價格沒漲。
性能翻倍,定價持平。這相當于高配處理器按舊款賣。對開發者來說,性價比就是投票權。生態遷移,從來不靠口號,靠算賬。
很多人還在比參數規模,但趨勢已經很清晰:AI競爭正在從“誰更大”轉向“誰更會想”。
可帶走的判斷只有一句:推理能力,正在成為大模型時代真正的硬通貨。
(唐加文,筆名金觀平;本文成稿后,經AI審閱校對)
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.