Gemini 3 這么猛嗎,一個歷史學家測試了 Gemini 3 Pro 破譯歷史文件。
他能實現以前模型基本無法完成的歷史文件信息破譯和推理操作,這些手稿的字說實話沒經過學習和訓練根本不認識。
在涉及他沒見過的復雜手寫字體表格的識別時候,Gemini 3 的表現已經優于受過訓練的學生。
LLM 的“預測式”本質讓它在非常規拼寫、姓名、地名、日期、金額等低概率元素上易錯,而且歷史文件里面標點、大小寫、長 s(?)、度量單位等也高度含混。
作者測試了50 份、約 1 萬詞的英文學術手寫樣本,涵蓋多種書寫體與成像條件,用于評估 CER/WER。
到 Gemini?2.5?Pro,在嚴格計分下約 CER 4%、WER 11%;若排除標點與大小寫錯誤,降至 CER 2%、WER 4%,已逼近專業人工。
排除一些含混項后,新模型(Gemini 3)降至 CER 0.56%、WER 1.22%,接近或達到“專家人類水平”。與 Gemini?2.5?Pro 相比提升 50–70%。
作者說它似乎跨越了某些專家長期以來認為當前模型無法逾越的界限。
面對一個模糊的數字,它推斷出缺失的語境,進行了在歷史貨幣和重量體系之間的一系列多步換算,并得出了需要對文檔所描述世界進行抽象推理的正確結論。換句話說,它的表現好像能夠使用符號,盡管這些符號從未被明確定義。
看起來發生的是一種新出現的、隱含的推理形式——在一個統計模型內部感知、記憶和邏輯的自發結合。
詳情:generativehistory.substack.com/p/has-google-quietly-solved-two-of
![]()
![]()
![]()
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.