“全息字典”:古今漢字任你查
快捷、權(quán)威、形象——準(zhǔn)確查找一個(gè)難檢字的相關(guān)信息再不用跑遍古籍閱覽室,翻便“大部頭”,只需輕點(diǎn)鼠標(biāo)——登錄漢字全息資源應(yīng)用系統(tǒng),點(diǎn)擊現(xiàn)代通用字集,搜索要查找的字,不僅能夠顯示其現(xiàn)代字形、字音、字義信息,還可以查到該字從甲骨文、金文到篆書(shū)、楷書(shū)的歷史字形演變過(guò)程,從《說(shuō)文》《爾雅》《方言》《釋名》一直到《康熙字典》等歷代辭書(shū)對(duì)該字的釋義,及其在一些常用古籍文獻(xiàn)中被使用的情況。
日前,國(guó)家語(yǔ)委重大基礎(chǔ)資源建設(shè)項(xiàng)目“通用漢字全息數(shù)據(jù)庫(kù)建設(shè)”的標(biāo)志性成果“漢字全息資源應(yīng)用系統(tǒng)”正式啟動(dòng)上線。該項(xiàng)目旨在運(yùn)用現(xiàn)代中文信息處理技術(shù),構(gòu)建一個(gè)具有多維關(guān)聯(lián)關(guān)系、科學(xué)系統(tǒng)、高效實(shí)用的漢字全息數(shù)據(jù)庫(kù)。
“無(wú)論是初學(xué)漢字的小學(xué)生,還是研究漢字的學(xué)者,系統(tǒng)都可以提供相應(yīng)的幫助?!表?xiàng)目主持人、北京師范大學(xué)教授王立軍介紹,系統(tǒng)采用的多層級(jí)字集設(shè)計(jì)模式,包括常用字集、現(xiàn)代通用字集、古籍印刷通用字集、全字符集等。常用字集可以滿足中小學(xué)基礎(chǔ)教育領(lǐng)域的一般需要;現(xiàn)代通用字集可以滿足社會(huì)文化領(lǐng)域一般漢字使用者的需要;古籍印刷通用字集面向具備一定古漢語(yǔ)知識(shí)、閱讀一般古籍文獻(xiàn)的用戶;全字符集則可以滿足漢字研究的專業(yè)人士需求,為專業(yè)研究提供支撐。
借助資源庫(kù),給漢字家族繪家譜
作為一名古文字愛(ài)好者和研究者,張華的書(shū)桌上擺滿了各種字典、工具書(shū)——查找一個(gè)字在不同時(shí)期形、音、義的演變經(jīng)常要翻閱多部“大部頭”才能找到相對(duì)準(zhǔn)確、權(quán)威的答案,而線上的一些漢字?jǐn)?shù)據(jù)庫(kù)很多又存在收錄不全、權(quán)威性差等諸多問(wèn)題。如今,“漢字全息資源應(yīng)用系統(tǒng)”的正式上線可能讓他再不用犯難——借助資源庫(kù),“古今漢字任你查”已不再是夢(mèng)想。
本期上線的系統(tǒng)涵蓋字符集4種,其中常用字集3500字,通用規(guī)范字8105字,古籍印刷字16490字,全字符集81722字;還有辭書(shū)20種,古籍文獻(xiàn)60種,歷代字形圖415675個(gè)。其中包括大量的圖形信息資源和文本信息資源,分別來(lái)自古文字拓片、文字編、規(guī)范字表、編碼字符集、歷代辭書(shū)、經(jīng)典文獻(xiàn)、中小學(xué)語(yǔ)文教材等,涵蓋了古今各個(gè)時(shí)期文字的形、音、義、用、碼五大方面的重要信息。
這一數(shù)據(jù)庫(kù),可以說(shuō)是“海量”。如此龐大的信息量,是如何做到相互對(duì)應(yīng)、關(guān)聯(lián)的呢?
如果說(shuō)建立數(shù)據(jù)庫(kù)是給漢字家族繪制一張家譜,那么建立關(guān)聯(lián)則是搞清譜系、輩分等關(guān)系。“首先是漢字屬性的分解。構(gòu)建一個(gè)具有多角度關(guān)系的漢字實(shí)用數(shù)據(jù)庫(kù),必須以漢字的屬性作為基本的依托?!北本煼洞髮W(xué)教授王寧指出,團(tuán)隊(duì)從20世紀(jì)90年代開(kāi)始總結(jié)漢字的屬性,除形、音、義之外,還增加碼、用兩個(gè)部分。碼是漢字在計(jì)算機(jī)中的編碼,用是漢字的使用,而且做了大量的屬性細(xì)化研究,這樣就有條件將籠統(tǒng)的漢字個(gè)體的資源庫(kù),改造為漢字的屬性庫(kù),解決關(guān)聯(lián)的多角度問(wèn)題。
王寧解釋:“其次是層次的確立,根據(jù)‘漢字效用遞減率’,我們將漢字分為常用-通用-適用-罕用-無(wú)用5個(gè)層。第一、二層次涵蓋36000字,以外的字只存記憶,不做深度開(kāi)發(fā),這樣一方面可以在應(yīng)用中擴(kuò)大有用信息的使用度,另一方面將垃圾信息、無(wú)用信息退出關(guān)聯(lián),不干擾有效信息的集合和調(diào)用?!?/p>
“再次就是中介的尋求,我們繼承傳統(tǒng)語(yǔ)言學(xué)的研究成果,以《說(shuō)文解字》的9353個(gè)小篆及其重文為中介來(lái)關(guān)聯(lián)。古文字的確切識(shí)讀,絕大部分是從《說(shuō)文》開(kāi)始的,這樣就保證了不同形制、不同字體、不同時(shí)代漢字的最大限度關(guān)聯(lián)。”王寧補(bǔ)充道,正是依靠《說(shuō)文》小篆這些“核心家族成員”作聯(lián)系,漢字家族內(nèi)部不同族群的譜系才得以繪制在一起。
溝通古今,提供漢字準(zhǔn)確屬性信息
實(shí)現(xiàn)讓通用規(guī)范漢字溝通古文字、繁體字,是該資源庫(kù)的又一重要特征。據(jù)介紹,系統(tǒng)的主體字集是國(guó)家語(yǔ)委2013年公布的《通用規(guī)范漢字表》的8105個(gè)規(guī)范漢字及其關(guān)聯(lián)字形?!锻ㄓ靡?guī)范漢字表》屬于簡(jiǎn)化字系統(tǒng),分為一級(jí)字表(即常用字表,3500字)、二級(jí)字表(3000字)、三級(jí)字表(1605字)。《通用規(guī)范漢字表》作為數(shù)據(jù)庫(kù)子庫(kù)的B庫(kù),直接和A庫(kù)(傳承字、繁體字和隸定字)關(guān)聯(lián),進(jìn)而與小篆等古文字(C庫(kù))關(guān)聯(lián),從而實(shí)現(xiàn)了古今、簡(jiǎn)繁漢字的有效貫通。
如何保證對(duì)收錄的每個(gè)漢字形、音、義解釋的權(quán)威性?
王立軍介紹,系統(tǒng)的處理方法是:選取歷代具有代表性的辭書(shū),并選擇最優(yōu)的版本作為搭建框架的基礎(chǔ)素材,以此為基礎(chǔ)建構(gòu)數(shù)據(jù)之間的深度關(guān)聯(lián)。選擇的辭書(shū)包括從《爾雅》《說(shuō)文》《釋名》《方言》《廣韻》《集韻》《康熙字典》《漢語(yǔ)大字典》《新華字典》和《通用規(guī)范漢字字典》等。在字形方面,簡(jiǎn)化字的部首采用2009年國(guó)家語(yǔ)委發(fā)布的《漢字部首表》,即201個(gè)主形部首和99個(gè)附形部首,非簡(jiǎn)化字采用214部首體系,來(lái)源于《康熙字典》。簡(jiǎn)化字和繁體字的筆畫(huà)數(shù)屬性參考《通用規(guī)范漢字字典》等。結(jié)構(gòu)類型(六書(shū))屬性參考《說(shuō)文解字》。字音方面,現(xiàn)代漢語(yǔ)拼音和注音字母主要參考《通用規(guī)范漢字字典》和民國(guó)時(shí)期《國(guó)語(yǔ)辭典》等;近代音來(lái)源于《中原音韻》;中古音來(lái)源于《廣韻》。字義方面,常用義項(xiàng)來(lái)源于《通用規(guī)范漢字字典》,并給出歷代辭書(shū)的釋義內(nèi)容。
多種屬性的綜合呈現(xiàn),可以加深人們對(duì)每個(gè)漢字的理解。比如“既然”的“既”和“即使”的“即”,在使用過(guò)程中容易混淆,但參考小篆字形就不會(huì)了——“既”是一個(gè)人背對(duì)著飯桌,表示吃完了,這個(gè)字就是表示已經(jīng)發(fā)生了;而“即”是一個(gè)人正對(duì)著飯桌,靠近它,還沒(méi)吃飯,所以是表示即將進(jìn)行的。了解了這一層面,理解就加深了,也就很難出錯(cuò)了。
漢字不是一個(gè)個(gè)“孤零零”的符號(hào),漢語(yǔ)文獻(xiàn)正像軀體的血肉,豐富著漢字殿堂的內(nèi)容。在每個(gè)字的“用例”一欄,系統(tǒng)選取具有代表性的傳世文獻(xiàn)作為古籍用例的來(lái)源,包括十三經(jīng)、二十五史、二十二子等三大典籍系統(tǒng),提取漢字在這些文獻(xiàn)中的使用例句,供研究者參考使用。
多種檢索,滿足不同用戶需求
與查字典類似,方便檢索也是系統(tǒng)的一大特征。為方便使用者更便捷地輸入需要檢索的字,系統(tǒng)提供了單字、拼音、部首、部件、筆畫(huà)等五種可輸入的檢索方式,使用者可以根據(jù)自己的喜好和需求,選取適合自己的方式。除單字檢索外,還可以滿足綜合檢索、專書(shū)檢索和歷代字形檢索。
“你看,‘典’字是兩只手捧著書(shū)卷,這多么形象,對(duì)于文史研究者來(lái)說(shuō)用于研究也太方便了,我現(xiàn)在就想擁有?!眲倓傃菔就陝?dòng)畫(huà),現(xiàn)場(chǎng)主持人、北京師范大學(xué)文學(xué)院教授康震興奮地說(shuō)。
“資源庫(kù)可作為文字和文化愛(ài)好者提高文化知識(shí)和綜合素養(yǎng)的學(xué)習(xí)平臺(tái),為傳統(tǒng)文化愛(ài)好者提供權(quán)威的學(xué)習(xí)內(nèi)容;可以作為基礎(chǔ)教育及漢語(yǔ)國(guó)際教育領(lǐng)域的教學(xué)平臺(tái),為學(xué)生學(xué)習(xí)、教師備課提供豐富的教學(xué)資源,從而更好地服務(wù)我國(guó)基礎(chǔ)教育;可作為文字學(xué)及相關(guān)專業(yè)領(lǐng)域?qū)<覍W(xué)者的科研平臺(tái),為專家學(xué)者提供對(duì)數(shù)據(jù)資源進(jìn)行深度挖掘的工具,彌補(bǔ)傳統(tǒng)手工獲取資源、聯(lián)系資源方式的局限;可作為漢字類數(shù)字化產(chǎn)品的開(kāi)發(fā)平臺(tái),為開(kāi)發(fā)者提供海量的經(jīng)過(guò)專業(yè)學(xué)術(shù)加工的可靠漢字屬性資源?!蓖趿④娭赋?。(記者 周世祥 靳曉燕)?
-
大數(shù)據(jù)"坑熟客",技術(shù)之罪需規(guī)則規(guī)避
2018-03-02 08:58:39
-
高質(zhì)量發(fā)展,怎么消除“游離感”?
2018-03-02 08:58:39
-
學(xué)校只剩一名學(xué)生,她卻堅(jiān)守了18年
2018-03-01 14:40:53
-
有重大變動(dòng)!騎共享單車(chē)的一定要注意了
2018-03-01 14:40:53
-
2018年,樓市會(huì)有哪些新變化?
2018-03-01 09:01:20