汉语词义自动标注研究软件平台的设计与实现.pptVIP

  • 12
  • 0
  • 约3.97千字
  • 约 21页
  • 2016-12-17 发布于天津
  • 举报

汉语词义自动标注研究软件平台的设计与实现.ppt

汉语词义自动标注研究软件平台的设计与实现 北京大学计算语言学研究所 张仰森,俞士汶,段慧明,吴云芳 一、本课题的来源与意义 北大计算语言所提出了“综合语言知识库建设”这一课题,旨在构建全方位一体化的语言知识平台,为中文信息的处理提供更好的支撑。 词语义项标注是“综合语言知识库建设”的重要组成部分,是建立面向内容理解的语言知识库的关键。 词义排歧研究的主要问题是排歧知识获取问题,利用所获得的知识实现词义的标注--即建立词义标注的模型,以及模型与算法的评价。 为了提高试验的效率以及集中精力解决词语义项标注中的关键问题,我们设计实现了一个模型与算法的试验与开发系统平台,该系统平台对知识获取算法、词义排歧与标注的语言模型以及对模型与算法的评价方法等进行试验。 二、目前国内外词义排歧的研究的现状 1. 排歧模型的构建方法 建立词义向量空间,对词语义项进行量化度量 通过计算词语义项之间的关系,寻找与多义词相似的单义词,以该单义词的词义作为多义词词义 通过计算上下文向量和多义词各个义项向量之间的距离来实现词义排歧 利用常识推理建立多义词各义项的义素集合,以及向量相关词的义项义素集合,若义项义素集合的交集为空,则排除该义项 N-gram模型及其变种。包括所谓对数模型,本质是利用上下文的同现信息来计算多义词各义项的出现概率 二、目前国内外词义排歧的研究的现状 基于语境的词义排除模型 提出篇章语境词

文档评论(0)

1亿VIP精品文档

相关文档