![]()
圖來源/數(shù)智時代古籍研究前沿論壇暨‘我用AI校古籍’(2025年)總結(jié)會
無論你是否身處AI行業(yè),近期總能頻繁刷到關(guān)于中國AI新物種的新聞。在美國拉斯維加斯會展中心舉辦的CES大會上,來自中國的AI產(chǎn)品遍布各個展館,成為全場關(guān)注的焦點,這也恰如其分地印證了2025年中國AI應(yīng)用落地的蓬勃發(fā)展態(tài)勢。
AI正在為萬物賦予新的可能性,過去一年里,各類軟硬件新產(chǎn)品層出不窮,AI教育、AI電商、AI家電、智能穿戴、AI健康、AI助手、AI陪伴等應(yīng)用遍地開花。AI 已經(jīng)成為一切產(chǎn)品的底層能力。
相比百億乃至千億賽道里的AI產(chǎn)品,在沒被更多人關(guān)注到的傳統(tǒng)文化領(lǐng)域,AI發(fā)揮的作用同樣耀眼。
古籍整理原本是一個專業(yè)門檻極高的工作,需要專家和學(xué)者逐字敲擊錄入電腦,過程中還得分辨版刻混用字、俗體字、異體字、底本錯字,工作可謂艱辛且繁瑣。現(xiàn)在AI 能夠把這些工作分層,大多數(shù)工作可以由機器和簡單的人工操作來完成。
這意味著AI重塑了古籍整理的新范式,很多人僅憑借興趣愛好就能參與古籍整理的工作,讓沉睡千年的古籍以更快的速度走出“深閨”。
古籍為什么重要?近現(xiàn)代歷史上,古籍文字憑借美感吸引著名家著書立言。朱光潛在《中國古代美學(xué)簡介》中提出,古籍不僅是文獻資料,其版式、字體等也具有極高的審美價值。
孔子校訂"六經(jīng)"是中國最早的系統(tǒng)性古籍整理實踐,奠定了后世古籍整理以校勘、注釋為核心的方法論基礎(chǔ)。兩千多年后,一幫古籍愛好者在AI 的輔助下踏上孔子走過的路,他們以技術(shù)為舟楫,渡向孔子曾渡過的河。
2024年,字節(jié)公益平臺識典古籍發(fā)起“我用AI校古籍”活動,上線僅一年半便吸引3.7萬人報名參與,累計整理2萬部共15億字。背后靠的正是識典古籍平臺里幾乎無處不在的AI。
古籍大眾智能化的春天已來,而這一切是如何發(fā)生的呢?
01
AI重塑了古籍整理的新范式
古籍是文化傳承的重要載體,承載著豐富的歷史信息、文化內(nèi)涵和思想智慧,千百年來古籍在流動的文明長河滋養(yǎng)著人們的精神世界。即便到了如今的AI時代,當(dāng)很多人以為這種艱澀難讀的古籍應(yīng)當(dāng)被束之高閣時,它卻依舊迸發(fā)著新的活力。
識典古籍團隊甚至都沒料想到,一場古籍整理活動能吸引數(shù)萬公眾參與。
劉爾君是上海大學(xué)中國古代文學(xué)專業(yè)研二的學(xué)生,自小喜歡文學(xué)。2025年4月,她偶然看到網(wǎng)上招募“我用AI校古籍”志愿者的消息,毫不猶豫報了名,“這既是我的專業(yè)也是我的熱愛。”
順利入選后,從“初階組”做到“進階組”,短短幾個月她累計校對近70卷古籍,其中包括7卷《永樂大典》。她參與的首批任務(wù)以佛經(jīng)為主,如《金剛經(jīng)》《楞嚴經(jīng)》《華法經(jīng)》等佛教經(jīng)典古籍,“佛經(jīng)用字繁復(fù),異體字多,初看如天書,但越難越有趣。”劉爾君稱,校對近70卷古籍不算什么,她有個同學(xué)校對了200多卷。
對很多不熟悉古籍的大眾而言,很容易被《永樂大典》這種類古籍大部頭嚇退,事實上并非只有文學(xué)愛好者才能校對古籍。在校對古籍的數(shù)萬參與者里,不僅有千余所高校的師生,也有上班族、退休老人,甚至青少年。
校對古籍的工作,正從“學(xué)人時代”進入到大眾智能化時代。這背后離不開識典古籍AI功能的迭代和進化。
2022年10月,字節(jié)跳動聯(lián)合北京大學(xué)共同打造了識典古籍?dāng)?shù)字化平臺,AI技術(shù)正式進入古籍整理全流程。依托AI,識典古籍還將哈佛燕京圖書館的7000部古籍轉(zhuǎn)化為高清數(shù)字資源,并免費向公眾開放,用戶登錄平臺可檢索宋刻《十誦律》、元刻《隋書》、明抄《永樂大典》等珍本。
隨著人工智能技術(shù)的突飛猛進,2024年識典古籍發(fā)起“我用AI校古籍”活動,旨在把古籍整理從專業(yè)性工作降到普通大眾均可參與的文化實踐。
過去古籍整理因?qū)I(yè)人才匱乏、生僻字識別難度大,整理效率長期偏低。AI的引入顯著改變了這一局面:AI可快速完成初步點校和基礎(chǔ)整理工作,再將任務(wù)拆解為多個簡單、標準化的模塊,大幅降低參與門檻。
完全沒有古籍整理背景的志愿者,只需借助“識典古籍”平臺的OCR校對等AI工具及配套教程,即可高效完成古籍的初步整理任務(wù)。
為什么大眾會熱衷整理古籍?擁有十多年古籍整理經(jīng)驗的清華大學(xué)人文學(xué)院副教授唐宸告訴我們,主要是AI的強大功能,降低了大眾對傳統(tǒng)古籍的恐懼。只要破除恐懼心理,投入進去后就很容易發(fā)現(xiàn)古籍中蘊藏的文化美。
以往古籍整理專業(yè)門檻很高,主要依賴專家和學(xué)者逐字校勘、斷句標點,最后還要核校一遍,導(dǎo)致效率低下。
唐宸見證了AI技術(shù)如何把學(xué)者從這種繁瑣的勞動中解脫出來。他過去整理古籍的方式非常機械,需要把古籍復(fù)印出來,再逐字把它錄入到電腦里,敲的時候很容易出錯,如果沒辦法獲得復(fù)印件,他就要到圖書館里手抄。
即便那時候有一些工具可用,也達不到當(dāng)前的效率。例如古籍的圖像轉(zhuǎn)成文字,就需要用一些古籍OCR(光學(xué)字符識別)工具,加標點又要去用一個工具。“過去用計算機整理古籍的最大問題是流程比較割裂,現(xiàn)在識典古籍把整個流程統(tǒng)一到了一個系統(tǒng)里。”唐宸說。
在識典古籍這個系統(tǒng)里,數(shù)據(jù)可以無縫流轉(zhuǎn),完成從頭到尾的所有工作。而隨著大模型能力的進化,古籍整理的速度又進一步提升。
2024年華東師大的博士劉帥參加了“我用AI校古籍”活動,一個月里他初步整理出200萬字的古籍,到了2024年底,三個月時間里劉帥校過、標過、排版過、審過的書一共有191種,總字數(shù)500萬以上。“之前人工整理古籍是騎自行車,現(xiàn)在突然變高鐵了。”劉帥說。
“我用AI校古籍”活動最初是在字節(jié)內(nèi)部發(fā)起的,沒料想很多員工參與的積極性特別高,當(dāng)中有喜歡傳統(tǒng)文化的人,或者是文科生。他們一部分價值感來自于,自己當(dāng)年學(xué)的東西竟然還有用武之地。
甚至有一部分員工,下了班就沉浸式校對古籍中,發(fā)現(xiàn)這是一件特別解壓的事。而這正是古籍跨越千年歷史后,與現(xiàn)代人產(chǎn)生的深度連接。
經(jīng)過幾期的招募活動,截止目前,字節(jié)已經(jīng)有兩三千位同事加入到古籍整理活動中。
若想讓更多人參與進古籍整理中,單單是字節(jié)內(nèi)部人參與還遠不夠。2024年的六月份,識典古籍和北大數(shù)字人文研究中心共同開了一個研討會,決定向公眾推廣這個活動。一年多以來,活動累計帶動3.7萬人參與進古籍整理的工作。
AI“盤活”了沉睡千年的古籍,更激發(fā)出大眾整理古籍的熱情。
02
AI如何校古籍
2025是大模型通過高頻迭代迅速提升性能的一年,陸續(xù)開始應(yīng)用到各種小眾領(lǐng)域。最近有媒體報道,Gemini 3.0 Pro僅用1小時,就破解了拉丁文古籍《紐倫堡編年史》中500多年未解的神秘注釋,識別出這是中世紀學(xué)者的歷法換算表。
豆包作為日活過億的頭部大模型同樣應(yīng)用廣泛,尤其在傳統(tǒng)文化領(lǐng)域的應(yīng)用令人驚喜。識典古籍平臺基于豆包大模型的基座,精調(diào)出一系列擅長特定任務(wù)的專業(yè)模型,因為精調(diào)的模型比較小,響應(yīng)速度也快。它們?nèi)缤鱾€領(lǐng)域的專家,被植入進系統(tǒng)內(nèi)高效絲滑地執(zhí)行任務(wù)。
要明白這一點,需知道古籍整理的全流程,從以下步驟也能看出AI 是如何把傳統(tǒng)古籍“盤活”的。
一,把古籍影像上傳到平臺,通過OCR技術(shù)自動識別,對古籍的影像文字進行單個切分,再進行文字識別和順序識別。這個過程并不簡單,OCR技術(shù)需要將古籍圖像轉(zhuǎn)化為可編輯文本,接著平臺再將流程拆解為 “AI初校—大眾粗校—專家精校” 三級體系,最后由北大的專業(yè)力量把關(guān)。
這樣的流程最為科學(xué),既提升了效率又將保證了高準確率。
![]()
識典古籍平臺粗校版《永樂大典》頁面
二,傳統(tǒng)古籍是沒標點的,AI會通過序列標注的方式對古籍自動進行標點劃分,目的是為了便于現(xiàn)代人閱讀。在這方面AI 極為擅長,唐宸教授說:“早期用電腦加標點質(zhì)量確實不行,現(xiàn)在識典古籍運用大模型加標點,水平已經(jīng)超過碩士生。”
三,AI自動為古籍劃分結(jié)構(gòu)。傳統(tǒng)古籍往往“有字無篇”,卷、回、段落、標題全靠讀者肉眼尋找,翻檢效率極低。識典古籍將版面視覺模型與序列標注模型疊加,能識別頁面欄線、插圖,乃至自動輸出多級目錄。
盡管AI處理復(fù)雜版式時有較高可靠性,但實際效果受圖像質(zhì)量、字體變體等因素影響,最后需結(jié)合人工校對以提升精度。
四,提取古籍里的人名、地名、書名等,再自動關(guān)聯(lián)到百科。AI能通過序列標注方式識別古籍文本中的專有名詞,包括人名、地名、書名、時間、官職五類實體,這是因為模型在訓(xùn)練過程中學(xué)習(xí)了古籍的文風(fēng)和用字規(guī)律,能力相當(dāng)于這個領(lǐng)域的專家。
識別結(jié)果會以不同顏色或下劃線形式高亮顯示,用戶可對錯誤或缺漏的實體進行人工修正,下方還有詞條顯示,甚至可鏈接到抖音百科進一步了解相關(guān)知識。
![]()
AI識別“子男”并提供詞條,可鏈接到抖音百科
值得一提的是,2024年以前識典古籍主要運用的是傳統(tǒng)NLP (即自然語言處理)技術(shù),現(xiàn)在已經(jīng)完全依賴大模型。這得益于字節(jié)豆包大模型的性能提升,以及火山引擎提供的算力支持。大模型的優(yōu)勢在于,具備龐大的知識儲備,此外深度思考能力讓它更能做出準確的判斷。
當(dāng)然,大模型并非不會出錯。2024年模型還總出現(xiàn)幻覺,例如會給一個歷史人物補充一些虛假的介紹,但到2025年已經(jīng)減少很多。
古籍大眾化的關(guān)鍵一點在于翻譯。很多古籍都是用文言文寫的,閱讀門檻將不少人擋在門外,這就讓翻譯變得尤為重要。過去行業(yè)基本上用的都是機器翻譯,也能出結(jié)果,但出錯率比較大。
2024年,識典古籍團隊決定使用大模型進行翻譯。識典古籍的AI翻譯功能由多個精調(diào)的模型組成,這些模型有的是歷史專家,有的是佛教專家,能夠讀懂文言文的語境和上下文,直接把專業(yè)技能拉滿。最初機器翻譯的準確率只有13%,運用了大模型進行翻譯后,現(xiàn)在準確率已經(jīng)能達到80%乃至90%。
如果說以上的AI能力打通了古籍和大眾的那堵墻,讓大眾都能參與進來校對。那么識典古籍的“深度研究助手”,則是為了幫助專家和學(xué)者更高效便捷地使用。
![]()
識典古籍深度研究助手界面
這款深度研究助手同樣是基于大模型的古籍研究工具。它并非簡單的"問答機器人",而是具備自主研究能力的AI智能體,能夠?qū)ζ脚_收錄的數(shù)萬部古籍進行深度挖掘與智能分析,自主完成從研究計劃制定、知識系統(tǒng)挖掘、表格整理與研究報告生成的全流程工作。
用戶只需輸入研究主題,便能在古籍資料中進行全面的挖掘與智能分析,顯著提升研究效率與深度。
唐宸教授在日常調(diào)研和學(xué)習(xí)中,已經(jīng)深度依賴這個深度研究助手,主要用來檢索一些比較細節(jié)的古籍知識,還經(jīng)常向它提問開放性問題。一定程度上,這個深度研究助手相當(dāng)于他的“同行”,能和他一起碰撞靈感。
作為深度且專業(yè)的用戶,唐宸對識典古籍的評價很高。“從閱讀和檢索圖文的角度來說,識典古籍應(yīng)該是最好用的,主要因為它數(shù)字化的古籍足夠多,現(xiàn)在已有四萬多種的體量了。”唐宸說。
03
大眾智能時代
幾年下來,識典古籍的數(shù)字化成績斐然。2022年10月,識典古籍以390部古籍為基礎(chǔ),在網(wǎng)頁端、今日頭條古籍頻道正式上線第一版產(chǎn)品。
如今3年多過去,平臺已累計向全社會開放超47000部古籍資源,各渠道每月服務(wù)用戶超240萬人,每天有35萬人次檢索資料,平臺總訪問量突破1.47億。
從390部到4萬多部,識典古籍用3年多時間實現(xiàn)了體量的百倍擴容。這得益于AI大模型與豆包技術(shù)的深度應(yīng)用,實現(xiàn)了古籍的智能化整理與深度研究助手功能,讓古籍研究更高效、更普及。
背后也是科技與文化傳承的深度結(jié)合,古籍從“深閨”走向“大眾”,實現(xiàn)了傳統(tǒng)文化的創(chuàng)造性轉(zhuǎn)化。
隨著“我用AI校古籍”活動的推進,很多的高校自發(fā)把這個活動納入到他們古籍相關(guān)專業(yè)的教學(xué)中。這個活動有一個統(tǒng)計口徑,稱為貢獻值,貢獻值會折算成學(xué)生日常的課堂成績。學(xué)生們在古籍校對中既拿了學(xué)分,又能感受到傳統(tǒng)古籍的魅力。此外,還有超過4000個外部團隊使用識典古籍進行古籍研究整理。
可以說傳統(tǒng)古籍的"活化",離不開所有人的參與。他們?yōu)槲幕瘋鞒凶龀鲎约旱呢暙I,從專業(yè)修復(fù)到大眾傳播,從學(xué)術(shù)研究到創(chuàng)意轉(zhuǎn)化,各方力量共同織就了古籍活化的恢弘畫卷。
1月10日,“數(shù)智時代古籍研究前沿論壇暨‘我用AI校古籍’(2025年)總結(jié)會”在北京舉行。活動現(xiàn)場,北京字節(jié)跳動企業(yè)社會責(zé)任部產(chǎn)品與運營總經(jīng)理羅海岳向行業(yè)同仁發(fā)出邀請:“識典古籍是一個共建共享平臺,我們期待與更多專業(yè)機構(gòu)和團隊合作共建。”
這份邀請很快得到回應(yīng)。在當(dāng)天“數(shù)智時代古籍整理與人才培養(yǎng)”分論壇上,來自北京大學(xué)、暨南大學(xué)、內(nèi)蒙古師范大學(xué)等高校的老師們,紛紛談起把“識典古籍”搬進課堂,以及用于學(xué)科建設(shè)的經(jīng)歷。
清華大學(xué)人文學(xué)院副教授唐宸,對識典古籍幾乎手不釋“卷”。他說,只需打開手機版識典古籍a(chǎn)pp,就能隨手查資料,哪怕在火車上。
唐宸認為,識典古籍還改變整個行業(yè)。學(xué)術(shù)界過去用同類型的產(chǎn)品,通常里面只有一兩萬種古籍,而且收費很高。識典古籍作為公益平臺不僅古籍?dāng)?shù)量龐大,還完全免費,為推廣傳統(tǒng)文化做出巨大貢獻。
“都說我們中國有5000年文明,你得讓民眾看見,口頭說沒有意義,得讓他們?nèi)ラ喿x,去查找,去檢索。”唐宸說。而這就是識典古籍努力向大眾普及的事。
古籍作為中華文明的重要載體,其保護與活化對于傳承民族文化、增強文化自信具有深遠意義。未來,字節(jié)跳動將在古籍保護傳承之路上繼續(xù)深耕,擴充古籍資源,并降低公眾閱讀和理解門檻。而隨著大模型的持續(xù)迭代,AI一定能幫助更多古籍煥發(fā)新生。
撰文|孫方
編輯|柳嘉
「白鯨實驗室」原創(chuàng)文章
轉(zhuǎn)載、交流、合作請?zhí)砑游⑿牛簂iujiaquan2025
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.