Gemini 3 這么猛嗎,一個(gè)歷史學(xué)家測(cè)試了 Gemini 3 Pro 破譯歷史文件。
他能實(shí)現(xiàn)以前模型基本無法完成的歷史文件信息破譯和推理操作,這些手稿的字說實(shí)話沒經(jīng)過學(xué)習(xí)和訓(xùn)練根本不認(rèn)識(shí)。
在涉及他沒見過的復(fù)雜手寫字體表格的識(shí)別時(shí)候,Gemini 3 的表現(xiàn)已經(jīng)優(yōu)于受過訓(xùn)練的學(xué)生。
LLM 的“預(yù)測(cè)式”本質(zhì)讓它在非常規(guī)拼寫、姓名、地名、日期、金額等低概率元素上易錯(cuò),而且歷史文件里面標(biāo)點(diǎn)、大小寫、長(zhǎng) s(?)、度量單位等也高度含混。
作者測(cè)試了50 份、約 1 萬詞的英文學(xué)術(shù)手寫樣本,涵蓋多種書寫體與成像條件,用于評(píng)估 CER/WER。
到 Gemini?2.5?Pro,在嚴(yán)格計(jì)分下約 CER 4%、WER 11%;若排除標(biāo)點(diǎn)與大小寫錯(cuò)誤,降至 CER 2%、WER 4%,已逼近專業(yè)人工。
排除一些含混項(xiàng)后,新模型(Gemini 3)降至 CER 0.56%、WER 1.22%,接近或達(dá)到“專家人類水平”。與 Gemini?2.5?Pro 相比提升 50–70%。
作者說它似乎跨越了某些專家長(zhǎng)期以來認(rèn)為當(dāng)前模型無法逾越的界限。
面對(duì)一個(gè)模糊的數(shù)字,它推斷出缺失的語境,進(jìn)行了在歷史貨幣和重量體系之間的一系列多步換算,并得出了需要對(duì)文檔所描述世界進(jìn)行抽象推理的正確結(jié)論。換句話說,它的表現(xiàn)好像能夠使用符號(hào),盡管這些符號(hào)從未被明確定義。
看起來發(fā)生的是一種新出現(xiàn)的、隱含的推理形式——在一個(gè)統(tǒng)計(jì)模型內(nèi)部感知、記憶和邏輯的自發(fā)結(jié)合。
詳情:generativehistory.substack.com/p/has-google-quietly-solved-two-of
![]()
![]()
![]()
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.