大型词典编纂的计算机辅助开发与管理系统.docxVIP

大型词典编纂的计算机辅助开发与管理系统.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大型词典编纂的计算机辅助开发与管理系统 晶 王惠李康年 摘 要:词典编纂是一项需要投入大量人力、物力、财力的大型语言工程。由于 词典包含的信息量巨大,开发周期长,编纂人员多,工程项目所要求的进度与词 典的质量保证都是非常关键的问题。为此,我们设计并实现了一个词典编纂的计 算机辅助开发与管理系统。该系统已经在北京大学“现代汉语语义词典”的开发 过程中发挥了重要作用,它有效地提高了词典编纂的效率和质量;同时,该项研 究也是对汉语计算词典学理论的一种有益探索。 关键词:词典编纂词典管理知识挖掘自动翻译计算词典学 刖言 随着自然语言处理技术的迅速发展,词义分析的重要性与迫切性也为越来越 突出。为了给计算机自动分析提供更全面、深入的语义信息,北京大学计算语言 学研究所与中科院计算所自1994年联合开发“汉英机器翻译模型系统”开始,就 着手研制面向汉英机器翻译的“现代汉语语义词典” 。1996年至1998年,受到国 家863高科技项目“通用机器翻译开发平台和汉英机器翻译系统”的支持,语义 词典进入到大规模开发阶段,并取得重要的阶段性成果,完成了 4.9万汉语词语 的语义分类和搭配信息描述[1]。四年多来,北京大学计算语言学研究所在积极应用、 推广该词典的同时,仍不断地投入力量进行词典本身的发展。从 2001年11月开 始,“现代汉语语义词典”的二期开发工作受到了国家 973重点基础研究项目 (G1998030507-1)的支持,由北大计算语言学研究所和中文系 联合承担,对词典规模进行较大幅度的扩充,并对全部词语的语义分类及属性描 述进行全面修订。在双方的积极努力下,项目进展得非常顺利。 目前,现代汉语语义词典的规模与质量都有了显著的提高,共收录词条 6.6 晶本研究得到国家863项目“语言资源建设及相关研究探索” (项目号:2002AA117010-08)与国家973重点 基础研究项目“面向新闻领域的汉英机器翻译系统” (项目号:G1998030507-4)的支持。 万,采用Access数据库实现。其中包含全部词语的总库1个,每类词语各建一库, 计11个。每个库文件都详细刻画了词语及其语义属性的二维关系。比如,总库中 包括词语、拼音、同形、义项、语义类、词类、子类、兼类 8个属性字段。名词 库设15个属性字段,动词库设16个属性字段。所有的库都可以通过“词语、词 类、同形、义项”这4个关键字段进行链接[2]。现在,它正在一个汉英机器翻译系 统中发挥着重要的作用。 在语义词典的编纂修订过程中,为了保证词典内容准确可靠,有效地管理编 纂人员,同时兼顾工程进度,我们开发了一个计算机辅助词典开发和管理系统, 用于词典编辑、校订、检索、排序、检测、自动翻译、版本比较、任务管理等。 本系统在 Windows 2000的操作系统下使用Visual C++ 6.0编写、运行,采用Access 2000数据库存储词典数据库。系统的构成主要包括以下 4个子系统:词典编辑、 自动检测、自动翻译、项目管理。 词典编辑(Dict_Edit ) 本子系统的主要任务是对数据库格式的词典文件进行编辑(图 1)。首先,选 中“编辑”菜单中的“排序”,可采用多种方式对词典进行排序和浏览。 aem壬萍对象文件(F)編曙(E)查盲(V)选项⑴ 永助(H)卫无标趣-DicEdit在 aem壬萍 对象 文件(F)編曙(E)查盲(V)选项⑴ 永助(H) 卫无标趣-DicEdit 在 子 自 应 哀爰爱谢安安安凹諏傲肅败饕棒保峯抱暴把悲悲悲 ai lyuaa4 ai4mei3 ti4mi w4xi5 anl dinrf ajil shi4 :=LTLlKi sm2zi4zai4 魚ol ao4qi4 biL4qii4 bai4si ng4 ban3 bui3ji?2 bang4 b aa3 shou3 bfto4 b ao4km 4 bao4nn4 bae4wti3qu5 bei 1 chou2 bei 1 feM 安稳 蛮横.专植的气势 硬 能力强:成绩好 急陳.歿聽;猛藝 心中有愧 极端质怒 抱屈 呪蔚 值 懾 呪格格錐呪呪呪瞬格格格呪感感嵐质格呪呪呪呪呪况 境品品三境境境外品品品境触斛性性品境境说境境境 人I动物 扎动物 A 人I动物 人I动物 A 人I动物 具怀爭物 xm A A A 具棒爭物 非空物 具体爭物I抽象爭物 人I抽象爭物I爭件 人1动物 A 人I动物 A 人 爭件I情感I複糊属性 数字 图1语义词典的形容词 在“查看”菜单中点击“查询”按钮,即可根据首字、尾字、词类、语义类、 义项、配价数等多种条件进行检索,包括组合检索、模糊检索等。比如,选取条 件“词语=悲* ”,以“悲”字开头的形容词及属性就都会显示出来(图 2): 词语词类拼音配

文档评论(0)

ld1350046 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档