汉语文本生成系统中全信息电子词典的设计论文.pdfVIP

汉语文本生成系统中全信息电子词典的设计论文.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
汉语文本生成系统中全信息电子词典的设计 徐延勇 周献中 李娜郭忠伟 南京理工大学1004教研室210094 摘要本系统采用以‘语法为主、语义为辅、语用为约束’的指导思想,提出了一部用复 杂特征集对词的语法、语义和语用信息进行全方位描述的全信息电子词典。阐述了 该词典要在信息量、访问时间和存储空间上寻求最优解的设计方针;采用了面向功 能分块的总体构建策略、基于功能描述的词典信息知识表示以及合一运算的词典控 制机制。该设计思路对自然语言处理其他领域电子词典的设计也有参考价值。 关键词 自然语言处理电子词典文本生成知识表示 在受限领域,基于自然语言理解的汉语文本生成系统中,对真实文本的自动分词、语法 分析、语义分析到文本句子和篇章的生成都需要利用电子信息词典中相应词的语法、语义和 语用信息,因此电子信息词典的编撰是其一项最基础性的研究工作。北大计算语言研究所已 经成功研究出了《现代汉语语法信息词典》lJJ,但只这一部词典满足不了本系统的需要。本文 设计的全信息电子词典是一部用统一文法对词进行全方位信息描述,把词的语法、语义和语 用信息组合成一体的机读词典,它的成功设计对汉语文本生成的效率和精度至关重要。 1全信息电子词典的设计方针 该系统以朱德熙先生‘词组本位’的语法体系为理论基础,在汉语文本理解和生成的过 程中采用以‘语法为主、语义为辅、语用为约束’指导思想。在研究过程中,全信息电子词 典的设计不但要求研究者从计算机处理的实际需要出发,深入研究本领域汉语的语言事实, 系统地研究本领域词条的语法、语义和语用知识,并且以便于用语言学表述又便于机器使用 的形式把这些知识表达出来;还要在信息量、访问时间和存储空间上寻求最优解,才能大大 提高文本生成的精度和速度。全信息词典与其它词典相比具有如下特点: (1)词的全方位信息描述 全信息词典既要考虑汉语分词,又要照顾到汉语分析和生成的需要。因此词条的信息量 丰富而准确,最大量地挖掘本领域汉语词条中可资利用的语法、语义和语用信息,这是其与 专一功能电子词典的主要区别。词典中包含了以下信息:①提供词法分析和词法生成信息; ③提供句法分析和句法生成信息;③提供语义和上下文分析信息:④提供语用信息; (2)兼顾信息量、存储空间和访问时间 词典的数据结构、存储结构既要考虑节省空间,又要照顾系统的运行速度。在信息量相 同情况下,合理组织词典的数据结构和存储结构,以节省空间;同时选择快速的查询算法, 改变查询时词典的存储介质,提高系统运行速度和文本生成速度。 239 (3)满足工程实现的需要 词典的信息表示、编码以及控制均应考虑工程实现的需要和软件技术的实现可能。为了 使其以后具有通用性,词典中需要采用的标准都是最新颁布的国家标准和规定。 2全信息电子词典的总体结构 (1)面向功能的分块策略 要同时满足以上的三个目标,系统采用‘面向功能分块’的优化总体构建策略,把全信息 字典分为1个总词典,1个临时词典和3个语法、语义和语用平面的分词典,在分词典下是按 词性分类(词性的划分标准参见文献[1]来定 义的)的词典库,如名词语法词典库、动词 总词典卜H临时词典 语法词典库…‘以及相应词的语义和语用词 ◆ 典库(如图1示)。从总体结构可以看出,整 V 丫 ◆ 语法词典 语义词典 语用词典 个全信息词典能通过数据库的属性字段实现 关联,后面的子结点继承父结点的全部信息, 工j 工卫 上. 工 工 动 名 动 名 形 动 名 这样父结点与子结点连接起来就可以得到词 词 词 词 词 容 词 词 条的语法、语义和语用信息。这样的构建

文档评论(0)

开心农场 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档