讓古籍在智能時(shí)代煥發(fā)新生
近日,教育部、國(guó)家語委、中央網(wǎng)信辦發(fā)布了《關(guān)于加強(qiáng)數(shù)字中文建設(shè) 推進(jìn)語言文字信息化發(fā)展的意見》。數(shù)字中文建設(shè)是貫徹落實(shí)黨中央、國(guó)務(wù)院關(guān)于數(shù)字中國(guó)和教育強(qiáng)國(guó)總體部署的重要舉措。語言文字是人類信息交流、思想表達(dá)、文明互鑒的基礎(chǔ)工具,也是國(guó)家重要的資源。加強(qiáng)數(shù)字中文建設(shè),能夠?yàn)閿?shù)字中國(guó)建設(shè)提供雄厚的語言資源基礎(chǔ)和強(qiáng)大的文化傳播力量。
黨的十八大以來,我國(guó)在古籍?dāng)?shù)字化保護(hù)與數(shù)字文化方面頒布和實(shí)施了一系列重要政策,取得了豐碩成果。2017年《關(guān)于實(shí)施中華優(yōu)秀傳統(tǒng)文化傳承發(fā)展工程的意見》明確提出要持續(xù)推進(jìn)古籍?dāng)?shù)字化進(jìn)程,確立了古籍?dāng)?shù)字化在新時(shí)代古籍工作中的重要地位?!蛾P(guān)于推動(dòng)數(shù)字文化產(chǎn)業(yè)創(chuàng)新發(fā)展的指導(dǎo)意見》提出建設(shè)數(shù)字文化產(chǎn)業(yè)創(chuàng)新生態(tài)體系。隨著人工智能產(chǎn)業(yè)的迅猛發(fā)展,2022年國(guó)家發(fā)布了《關(guān)于推進(jìn)新時(shí)代古籍工作的意見》《2021—2035年國(guó)家古籍工作規(guī)劃》《關(guān)于推進(jìn)實(shí)施國(guó)家文化數(shù)字化戰(zhàn)略的意見》等文件,進(jìn)一步完善了古籍保護(hù)的頂層設(shè)計(jì),明確以數(shù)字化和智能化加速推動(dòng)古籍整理利用轉(zhuǎn)型升級(jí),使古籍傳承從“紙質(zhì)工程”逐步邁向“數(shù)字基建”和“數(shù)字化產(chǎn)業(yè)”的新階段。
古籍?dāng)?shù)字化基礎(chǔ)設(shè)施建設(shè)初具規(guī)模。我國(guó)已經(jīng)建成了古籍影像庫(kù)、全文庫(kù)和知識(shí)庫(kù)3個(gè)層面的諸多數(shù)據(jù)庫(kù),形成了產(chǎn)學(xué)研的良好生態(tài)。國(guó)內(nèi)諸多館藏機(jī)構(gòu)對(duì)珍本、善本古籍展開了大規(guī)模圖像采集工作,形成了包含數(shù)萬種古籍的影像庫(kù)。高校與企業(yè)合作,建設(shè)了多種高質(zhì)量圖文對(duì)照的全文庫(kù)與數(shù)字化檢索平臺(tái),大大方便了大眾閱讀古籍。通過古籍書目庫(kù),我們將歷史上各種歷法統(tǒng)一為現(xiàn)代歷法的時(shí)間本體庫(kù)、歷代地理實(shí)體庫(kù)以及古代數(shù)十萬重要?dú)v史人物的人物庫(kù),從而基本完成了書目、時(shí)間、地點(diǎn)、人物四大基本要素的系統(tǒng)整理,成為古籍?dāng)?shù)字化寶貴的基礎(chǔ)數(shù)據(jù)。
AI等先進(jìn)技術(shù)驅(qū)動(dòng)的“數(shù)字古文”技術(shù)大放異彩。我國(guó)在古籍的數(shù)字化、智能化方面的技術(shù)開發(fā)與應(yīng)用也蓬勃展開。面向影像庫(kù)建設(shè)的圖像掃描與修復(fù)技術(shù),面向全文庫(kù)建設(shè)的文字識(shí)別技術(shù)、人機(jī)交互??奔夹g(shù)、繁簡(jiǎn)轉(zhuǎn)換、古籍自動(dòng)斷句與標(biāo)點(diǎn)技術(shù),面向知識(shí)庫(kù)建設(shè)的古籍分詞、命名實(shí)體識(shí)別、實(shí)體鏈接、機(jī)器翻譯等技術(shù)都有眾多代表性成果。我國(guó)還有許多古籍尚未經(jīng)整理和出版,目前智能輔助??奔夹g(shù)取得突破,通過這些技術(shù)手段將大量的古籍文獻(xiàn)以眾包的方式讓專家與古籍愛好者在線???,一年時(shí)間就可以完成數(shù)億字古籍的圖文校對(duì)工作,大大提高了古籍整理的效率。同時(shí),智能??笔沟霉偶韽摹皩W(xué)術(shù)生產(chǎn)”轉(zhuǎn)變?yōu)椤拔幕w驗(yàn)”,培育出新一代“數(shù)字時(shí)代的修書人”。
AI改變著古籍出版與使用形態(tài),讓古籍以新的形態(tài)走近年輕人,走出國(guó)門。傳統(tǒng)的古籍出版主要采取影印本、標(biāo)點(diǎn)本的形式,四大名著、唐詩(shī)、宋詞等文學(xué)經(jīng)典始終暢銷,而《十三經(jīng)》《二十四史》等大部頭文獻(xiàn)受眾相對(duì)較小,《四庫(kù)全書》等大型類書則以館藏為主。而數(shù)字化檢索平臺(tái)的出現(xiàn)不僅可以解決紙質(zhì)圖書出版周期長(zhǎng)、出版費(fèi)用與定價(jià)高的難題,還可以通過全文檢索和統(tǒng)計(jì),讓用戶快速地獲取需要的條目,讓類書成為新技術(shù)條件下的“百科全書”。
大語言模型的蓬勃發(fā)展,也給古籍活化利用帶來了諸多新機(jī)遇?;诠偶拇竽P烷_發(fā),可以讓古籍文獻(xiàn)的內(nèi)容不再生澀難讀,逐字句地解讀古籍,調(diào)取古代各種語言文化知識(shí),翻譯為現(xiàn)代漢語、英語,根據(jù)讀者需求隨時(shí)解答問題,大大降低了閱讀門檻,有利于中小學(xué)古文教育與中國(guó)文化的對(duì)外傳播。同時(shí),集成了中國(guó)古代典籍知識(shí)文化與智慧的大模型更符合中國(guó)人的思維與使用習(xí)慣,也是國(guó)產(chǎn)大模型實(shí)現(xiàn)差異化發(fā)展的特色。利用大語言模型生成小說、劇本和廣告,以及文生圖、文生視頻技術(shù),讓古籍融入文學(xué)、影視創(chuàng)作與諸多有國(guó)風(fēng)色彩的產(chǎn)品開發(fā)中。
在數(shù)字中文建設(shè)的大潮中,以人工智能賦能古籍,用智能??奔夹g(shù)加快龐大古籍資料的系統(tǒng)整理,開發(fā)高質(zhì)量古代典籍知識(shí)庫(kù),推動(dòng)大模型與機(jī)器翻譯技術(shù)應(yīng)用,必將讓千年文脈在智能時(shí)代煥發(fā)新生。
(作者系南京師范大學(xué)文學(xué)院教授)