基于层叠隐马尔可夫模型的中文命名实体一体化识别方法.docxVIP

基于层叠隐马尔可夫模型的中文命名实体一体化识别方法.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于层叠隐马尔可夫模型的中文命名实体一体化识别方法 1 命名实体的识别 名称特征的研究是一门基础科学工作。它不仅是分词和标记过程中的一个重要因素,而且在句子分析、机器翻译、获取信息、提取和自动问答系统等领域也发挥着直接作用。由于中文文本中词与词之间没有分隔符,中文文本的分词和中文命名实体的识别是互相缠绕、密不可分的。大部分的命名实体是未登录词,如果在中文分词过程中不考虑这些未登录词,不实施命名实体的识别,必然影响中文分词的质量。 一般来说,命名实体识别的任务就是对于一篇待处理文本,识别出其中出现的人名(person)、地名(location)、机构名(organization)、日期(data)、时间(time)、百分数(percentage)、货币(monetary value)这七类命名实体。其中人名、地名、机构名的识别是最难、也最重要的三类,本文将主要讲述这三类命名实体的一体化识别。 1.1 机构名在形式和结构上的分类 数量众多是各类命名实体的共同特点。根据对人民日报1998年1月的语料库(共计2 305 896字)进行的统计,共有人名19 965个,而这些人名大部分属于未登录词。 构成规律复杂是命名实体的另一共同特点。由于人名的构成规则各异,中文人名识别又可以细分为中国人名识别、日本人名识别和音译人名识别等。机构名的组成方式最为复杂,机构名的分类种类繁多,各有其独特的命名方式,用词相当广泛,只有结尾用词相对集中。 此外,一个命名实体经常和一些词组合成一个嵌套的命名实体,人名中嵌套着地名,地名中也经常嵌套着人名,嵌套的现象在机构名中最为明显,机构名不仅嵌套了大量的地名,而且还嵌套了相当数量的机构名。互相嵌套的现象大大制约了复杂命名实体的识别,也注定了各类命名实体的识别并不是孤立的,而是互相交织在一起的。 与其它类型的命名实体相比,长度和边界难以确定使得机构名更难识别。中国人名一般二至三个字,最多不过四个字,常用地名也多为二至四个字,但是机构名长度变化范围极大,少到只有两个字的简称,多到长达几十个字的全称,在人民日报的真实文本中,由十个以上的词构成的机构名占了相当一部分的比例。 而且中文不像英文那样在命名实体中有形态的变化。中文命名实体的识别困难重重,归根到底还是由机构名的自身特点造成的。 1.2 基于层叠隐马尔可夫模型的命名实体识别 目前汉语命名实体识别的研究有很多[1~7],从方法上来说,主要是规则和统计这两种方法。基于规则的方法一般采用特征字(词)触发的方式来进行命名实体识别,比如用中国人名的姓氏用字来触发中国人名的识别,或者利用机构名的结尾关键词相对集中的特点来触发机构名的识别。基于统计的方法主要是通过对大规模语料库内的命名实体以及上下文进行统计分析,构建统计模型来进行命名实体的识别,解决方案有隐马尔可夫模型、最大熵模型、基于Agent的方法和基于类的三元语言模型等。 虽然目前汉语命名实体识别的研究有很多,如人名识别、地名识别、译名识别以及机构名识别等,但很多是专门针对于某一类命名实体的识别。从上节所述中文命名实体的互相嵌套的特点可知,中文命名实体识别的不应是孤立的。如何在一个集成的框架下进行各类命名实体的识别并达到一个整体的最优效果,将是整个命名实体识别过程的关键所在。 本文提出了一种基于层叠隐马尔可夫模型(cascaded HMM,cascaded hidden markov model)的方法,旨在将人名识别、地名识别以及机构名识别等命名实体识别融合到一个相对统一的理论模型中。首先在词语粗切分的结果集上,采用底层隐马尔可夫模型识别出普通无嵌套的人名、地名和机构名等,然后依次采取高层隐马尔可夫模型识别出嵌套了人名、地名的复杂地名和机构名。中国科学院计算技术研究所研制的汉语词法分析系统ICTCLAS 2 层叠结构的耦合 隐马尔可夫模型是一种在自然语言处理领域中被广泛应用的统计模型。中文命名实体识别中的人名识别、地名识别、译名识别以及机构名识别等都可以用隐马尔可夫模型来解决。本文提出的层叠隐马尔可夫模型(cascaded HMM,cascaded hidden markov model)就是试图在统一的隐马尔可夫模型中识别各类命名实体,并在这些隐马尔可夫模型中建立起一定的联系,以形成一个一体化的命名实体识别系统。 整个命名实体识别的层叠隐马尔可夫模型由三级互相联系的隐马尔可夫模型构成,自底向上分别为人名识别HMM、地名识别HMM和机构名识别HMM,每一级都是以隐马尔可夫模型作为基本的算法模型,整个算法的时间复杂度和隐马尔可夫模型的时间复杂度相同,分析时间随着输入串长度的增长而线性增长,速度非常快。各层隐马尔可夫模型之间以如下两种方式互相关联,形成一种紧密的耦合关系: (1)每一层隐马尔可夫模型都采用N-Best策

文档评论(0)

182****7741 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档