大型词典编纂的计算机辅助开发与管理系统.docVIP

下载本文档

1
0
约 9页
2017-03-04 发布于天津
举报
版权申诉

大型词典编纂的计算机辅助开发与管理系统.doc

1、本文档共9页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

大型词典编纂的计算机辅助开发与管理系统

大型词典编纂的计算机辅助开发与管理系统( 王惠摘要：词典编纂是一项需要投入大量人力、物力、财力的大型语言工程。由于词典包含的信息量巨大，开发周期长，编纂人员多，工程项目所要求的进度与词典的质量保证都是非常关键的问题。为此，我们设计并实现了一个词典编纂的计算机辅助开发与管理系统。该系统已经在北京大学“现代汉语语义词典”的开发过程中发挥了重要作用，它有效地提高了词典编纂的效率和质量；同时，该项研究也是对汉语计算词典学理论的一种有益探索。关键词：词典编纂词典管理知识挖掘自动翻译计算词典学 1.前言随着自然语言处理技术的迅速发展，词义分析的重要性与迫切性也为越来越突出。为了给计算机自动分析提供更全面、深入的语义信息，北京大学计算语言学研究所与中科院计算所自1994年联合开发“汉英机器翻译模型系统”开始，就着手研制面向汉英机器翻译的“现代汉语语义词典”。1996年至1998年，受到国家863高科技项目“通用机器翻译开发平台和汉英机器翻译系统”的支持，语义词典进入到大规模开发阶段，并取得重要的阶段性成果，完成了4.9万汉语词语的语义分类和搭配信息描述[1]。四年多来，北京大学计算语言学研究所在积极应用、推广该词典的同时，仍不断地投入力量进行词典本身的发展。从2001年11月开始，“现代汉语语义词典”的二期开发工作受到了国家973重点基础研究项目（G1998030507-4G1998030507-1）6.6万，采用Access数据库实现。其中包含全部词语的总库1个，每类词语各建一库，计11个。每个库文件都详细刻画了词语及其语义属性的二维关系。比如，总库中包括词语、拼音、同形、义项、语义类、词类、子类、兼类8个属性字段。名词库设15个属性字段，动词库设16个属性字段。所有的库都可以通过“词语、词类、同形、义项”这4个关键字段进行链接[2]。现在，它正在一个汉英机器翻译系统中发挥着重要的作用。在语义词典的编纂修订过程中，为了保证词典内容准确可靠，有效地管理编纂人员，同时兼顾工程进度，我们开发了一个计算机辅助词典开发和管理系统，用于词典编辑、校订、检索、排序、检测、自动翻译、版本比较、任务管理等。本系统在Windows 2000的操作系统下使用Visual C++ 6.0编写、运行，采用Access 2000数据库存储词典数据库。系统的构成主要包括以下4个子系统：词典编辑、自动检测、自动翻译、项目管理。 2. 词典编辑（Dict_Edit）本子系统的主要任务是对数据库格式的词典文件进行编辑（图1）。首先，选中“编辑”菜单中的“排序”，可采用多种方式对词典进行排序和浏览。图1 语义词典的形容词在“查看”菜单中点击“查询”按钮，即可根据首字、尾字、词类、语义类、义项、配价数等多种条件进行检索，包括组合检索、模糊检索等。比如，选取条件“词语=悲*”，以“悲”字开头的形容词及属性就都会显示出来（图2）：图2 首字为“悲”形容词这时，用鼠标左键双击一个词条，比如“悲愁”，即出现图3的编辑界面，在此可填写或修改词语的各种属性值，也可在词库中添加、插入、删除词条。图3 词典编辑工具为了提高工作效率和一致性，机器能做到的事情我们尽量让机器去做。比如，形容词“配价数”的取值范围仅限于“1”或“2”，因此，该字段就采用下拉菜单方式加以选择，这样可以有效地防止填入任何非法的值。语义类划分是一件非常重要而繁琐的工作。该系统把语义分类树集中显示在窗口的左侧，编辑人员填写“悲愁”的语义类时，仅需选中“形容词语义树”中“人性值”下的“境况”类，双击鼠标左键即可自动填入。与此类似，“主体”字段的取值主要是名词的语义类，因此，点击“名词语义树”中相应节点就能完成。这大大减轻了人的记忆负担，同时也最大限度地减少了可能有的手工录入错误，为高质量地完成语义词典提高了可靠的技术保障。 3. 自动检测（Dict_Check）在词典编纂中，多角度地检查是非常必要的，它直接关系到词典质量。以前，这些工作主要依靠审校人员完成，花费大量的人力和时间不说，漏查、错查、标准不一等现象也时有发生，词典质量难以保证。但利用计算机来处理这些任务，则有无可比拟的优越性[3]。本系统采用以下两种辅助检测手段，在效地保证了语义词典属性填写的正确性与一致性。具体检测步骤如下： 3.1 对词典属性值的有效性进行自动检测编纂人员填写各项栏目时，计算机将会自动对所填入的内容加以检查，如果发现某项属性漏填，或者超出规定的取值范围，计算机将会立即弹出错误警告，提醒编辑人员及时核对、修改。根据字段属性值定义及其相互之间的相互制约关系，自动查错。按照语义词典要求，形容词“配价数”字段的取值范围仅限于数字“1、2”。如果 “2”，则“