收集字符,“文理”结合
为满足文字及其他书面符号在计算机上的表示、传输、存储等种种要求,需要对文字和符号予以编码,并用符号的位序将它们组织为一个字符集。这一编码字符集,俗称“字库”。简单地说,“中华字库”就是一个收纳了中国古今的汉字及少数民族文字形体的庞大编码字符集。对于这项国家重大工程,《国家“十一五”时期文化发展规划纲要》作了如下表述:“中华字库”工程是要“建立全部汉字及少数民族文字的编码和主要字体字符库。重点研发汉字的编码体系、输入、输出、存储、传输以及兼容等关键技术。”
这一简洁表述的背后,其实包含了很多复杂的内容。张力伟说,这项工程不是只简单地收集文字进行编码整理。一方面,我们要从数千年流传下来的文字载体中,尽可能全面地搜集汇聚古今各种文字形体,在所出现过的实际文本原形图像的基础上,确定历史演变,整理字际关系等等,对学术质量的要求很高。为此,工程聘请中国文字学会第一任会长,在文字学界极具威信的裘锡圭教授担任首席专家,会同文字学界的许多专家参与研发;另一方面,这么庞大的整理工作,若像传统的那样人工搜集、抄录,将不可避免地存在人为错误多、记录信息量少等问题。“中华字库”工程将以现代信息技术作支撑,通过有效的人机结合,让计算机巨大的存储能力和便捷的检索类聚能力为文字专家的专业研究服务,利用机器来放大和倍增专家的工作效力。工程决定由中国科学院软件研究所等软件研究的精锐部队来承担工程的技术研发,为工程的开展提供技术支撑。
由此看来,“中华字库”不仅关乎学术,还关乎技术,“文理”结合十分紧密。这项工程是在对文字学深入研究的基础上,研究各种文字收集、筛选、整理、对比和认同的方法与原则;充分利用先进的数字化技术,开发相应的软件工具,在统一的数字化平台上,建立人—机结合的文字收集、整理、筛选、比对和认同的操作与管理流程。中华字库工程不仅会全面收集整理全部汉字、建立汉字的主要字体字符库,还会尽可能全面地收集整理少数民族文字并为其建立主要字体字符库;不仅要提交古今汉字及少数民族文字的国家编码、国际编码标准提案,还要为中华字库在不同领域的应用提供支撑工具与环境、实现中华字库在互联网的在线发布,并且建成面向用户的动态补字系统。在数字化服务方面,可谓是一应俱全。
已有整理,难应所需
也许你会说:全面整理文字,有必要么?咱们不是有《汉语大字典》了么?其实不然。据了解,1985年开始分卷定稿的《汉语大字典》共收列楷书汉字6万左右,已可以算是中国汉字的一次全面梳理,亦是当时条件下最优秀的汉字科研成果。然而,对于我国浩瀚的文献档案中的实际用字,对于不同时代不同地域社会生活中的实际用字,当时还不具备全面调查的手段和条件;而且该书以楷书文字为主,至于甲骨文、金文、小篆和隶书等古文字形体,并未全面整理,只在楷书单字条目下收录了有代表性的一部分,用以反映形体演变关系。除了汉字,我国还有许多少数民族文字,包括不少海外收藏的少数民族古文献文字,没有被整理出来。研发成功后的中华字库,不仅将包括针对社会应用的实用楷书字表,也将形成楷书总字表,还将有一个包含古文字的整体的汉字字表,到了最后阶段,少数民族文字也将被整合进来,最终形成一个完整有序的,有着内在联系的大型“中华字库”文字资源库。
与之前已有的文字整理工作相比,“中华字库”的优势还在于,其文字整理将面向出版及网络数字化需求。也许有人会问,咱们的电脑不是已经能方便地输入汉字了么?是,可能你觉得够用了,可是像派出所负责户籍管理的警察或者街道办事处负责人口普查的同志等肯定会给出不一样的回答。目前,我国的数字化建设正遭遇瓶颈。小到自然资源、地名、人口等清理普查,大至国家的经济、地理空间等战略性、基础性的信息库建设,还有公安、民政、金融、保险、海关、民航等行业的信息服务与监管存在很大的用字缺口。我国文字种类繁多且字量庞大,特别是汉字,内部关系又异常复杂,现有的计算机字库,无论是国家标准还是国际标准,都存在收字不全、字际关系不清等问题。少数民族文字缺口更大,除几种主要少数民族的文字外,许多甚至还没有编码。这些问题都严重影响了国家数字化建设的方方面面,也在直接或间接地影响着人们的生活。建设“中华字库”工程,就是要彻底解决这一瓶颈问题,全面推动我国的数字化建设。
|