為查閱古籍文獻,要出差到各地,探訪(fǎng)各家圖書(shū)館——這是許多古籍研究者的共同記憶。在數字時(shí)代,這種情況正發(fā)生改變。國家圖書(shū)館(國家古籍保護中心)等6家單位近日在線(xiàn)新增發(fā)布古籍數字資源6786部(件)。至此,全國已累計在線(xiàn)發(fā)布古籍數字資源13萬(wàn)部(件)。依托數字化手段,卷帙浩繁的古籍走出“深閨高閣”,讓文明觸手可及。
兼顧“藏”與“用”
古籍,作為文物必須保護,作為文獻必須為讀者所用。兼顧“藏”與“用”,一直是古籍保護工作的重點(diǎn),而數字化是最好的方法。中國古籍數字化起步于20世紀90年代。隨著(zhù)數字技術(shù)不斷成熟,科技賦能古籍工作取得可喜進(jìn)展。
“2016年國家圖書(shū)館搭建起‘中華古籍資源庫’平臺,發(fā)布了普通古籍、甲骨、敦煌文獻等數字資源,并全部實(shí)現免登錄在線(xiàn)閱覽?!眹覉D書(shū)館副研究員南江濤介紹,國家圖書(shū)館還聯(lián)合海內外收藏機構發(fā)布“法藏敦煌遺書(shū)”“天津圖書(shū)館古籍”“云南省圖書(shū)館古籍”等,基本搭建“國家古籍數字平臺”架構。
隨著(zhù)“中華古籍保護計劃”深入開(kāi)展,各地圖書(shū)館陸續投入人力物力,大力推進(jìn)古籍數字化。國家圖書(shū)館先后聯(lián)合39家單位發(fā)布數字古籍,1月4日是第7次聯(lián)合發(fā)布,其中不僅包含明清版刻,還有碑帖拓本等特色資源。相關(guān)數據顯示,在現有的13萬(wàn)部(件)數字古籍中,超過(guò)10.2萬(wàn)部(件)歸屬于“中華古籍資源庫”。
“這13萬(wàn)部(件)古籍數字資源,對于我們研究者來(lái)說(shuō)格外珍貴?!北本┐髮W(xué)中文系教授楊海崢感嘆,在線(xiàn)查閱免去了往返奔波圖書(shū)館的時(shí)間,平衡了古籍的文物性與文獻性。
AI助力古籍整理
把紙質(zhì)古籍轉化成數字文本,只是古籍保護的第一步?!艾F有的數字古籍大多由縮微膠片轉換而成,分辨率低,使用也不方便?!睏詈樑e例解釋?zhuān)@類(lèi)古籍通常不具備檢索功能,想查閱某個(gè)內容,需逐篇逐頁(yè)閱讀原文,很難快速找到想要的知識。
人工智能的快速發(fā)展,為數字古籍的整理分類(lèi)帶來(lái)革命性變化。2022年10月,由字節跳動(dòng)與北京大學(xué)數字人文研究中心合作研發(fā)的數字古籍平臺“識典古籍”便是一個(gè)生動(dòng)案例。
進(jìn)入“識典古籍”的網(wǎng)站,記者看到《周易》《左傳》《禮記》等陳列于首頁(yè)上。隨機點(diǎn)開(kāi)一本,左側為章節目錄,右側為正文,排版形式既順應現代人的閱讀習慣,又還原了古籍紙張的閱讀美感。
“與一些數字化平臺不同,‘識典古籍’是完全免費的,而且增加了簡(jiǎn)繁體轉換、底本影像對照、全文檢索等一系列便捷功能?!倍兑艏瘓F企業(yè)社會(huì )責任部產(chǎn)品總經(jīng)理唐塏鑫介紹,該平臺主要應用了文字識別、自動(dòng)標點(diǎn)和命名實(shí)體識別這3種技術(shù),不僅能將影印本上的文字提取整理,還能通過(guò)序列標注識別文本中的人名、地名等信息,準確率達到96%至97%。
“平臺已整理上線(xiàn)了685部經(jīng)典古籍,共計7900多萬(wàn)字,主要來(lái)自《四部叢刊》?!碧茐N鑫說(shuō),“識典古籍”已上線(xiàn)手機移動(dòng)版,未來(lái)平臺中的書(shū)目將持續更新。
業(yè)內人士預測,隨著(zhù)AI技術(shù)的運用,古籍文獻中所蘊藏的古代歷史文化知識將不斷被抽取,構造成各種各樣的知識庫,并將以知識圖譜的形式支持互聯(lián)網(wǎng)前端應用。
跨界合作成趨勢
事實(shí)上,在“識典古籍”上線(xiàn)之前,文保機構、科研院校與互聯(lián)網(wǎng)公司的跨界合作已越來(lái)越普遍。比如,騰訊聯(lián)合敦煌研究院開(kāi)發(fā)了AI病害識別技術(shù),幫助“問(wèn)診”敦煌千年壁畫(huà)。
由于在產(chǎn)品研發(fā)、設計方面存在優(yōu)勢,互聯(lián)網(wǎng)公司等社會(huì )力量的加入會(huì )進(jìn)一步保障古籍數字化平臺的服務(wù)質(zhì)量?!拔覀冇袃?yōu)秀的產(chǎn)品經(jīng)理、設計師、軟件工程師,能夠不斷優(yōu)化數字古籍平臺的產(chǎn)品功能?!碧茐N鑫說(shuō)。
“識典古籍”的誕生離不開(kāi)專(zhuān)家學(xué)者支持。北京大學(xué)數字人文研究中心主任王軍表示,北大在這次合作中負責人工審核與校對,彌補人工智能有識別錯誤率的短板,并利用自有學(xué)術(shù)平臺,連接更多專(zhuān)業(yè)研究者和學(xué)生群體。
專(zhuān)家認為,在古籍整理中,人文社科學(xué)者要積極介入,并加強與技術(shù)人員的合作,那樣才能更好地利用機器而不是被機器牽著(zhù)鼻子走,從而保證結果的準確性。
“高校古典文獻學(xué)等相關(guān)專(zhuān)業(yè)如何培養兼具技術(shù)與學(xué)術(shù)能力的復合型人才、如何形成多學(xué)科交叉的課程體系等,都是需要綜合考慮的問(wèn)題?!蓖踯娬f(shuō)。