- 1、本文档共6页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于文献的中文命名实体识别算法适用性分析研究
第29卷摇 第9期 情摇 报摇 杂摇 志 Vol.29摇 No.9
2010年9月 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 JOURNAL OF INTELLIGENCE摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 Sep.摇 2010
基于文献的中文命名实体识别算法适用性分析研究
Applicability Analysis of Chinese Named Entity Recognition Method Based on Literatures
滕青青摇 吉久明摇 郑荣廷摇 李摇 楠
(华东理工大学科技信息研究所摇 上海摇 200237)
摘摇 要摇 命名实体识别(Named Entity Recognition)是指识别文本中具有特定意义的实体,主要包括人名、地名、机
构名、专有名词等。 首先对我国关于命名实体识别研究的文献进行了总结,给出命名实体识别的主要方法及模型。
并针对文献中对这些命名实体识别方法的效果进行统计分析,探讨各种识别对象、识别模型的效果及适用性。 经过
对现有研究文献的统计,结论为:在不考虑运行效率的情况下,对于机构名,识别效果最好的是层叠CRF模型;对于
地名,测试效果最好的是CRF方法与专家知识相结合;人名识别方法中表现不错的则是边界模版和局部统计相结
合的模型。
关键词摇 中文命名实体识别摇 隐马尔可夫模型摇 最大熵模型摇 支持向量机摇 条件随机场
中图分类号摇 TP319摇 摇 摇 摇 摇 摇 摇 文献标识码摇 A摇 摇 摇 摇 摇 摇 文章编号摇 1002-1965(2010)09-0157-05
摇 摇 当人们可以从越来越多的廉价的内部或外部网络 发展。
资源中获取更多的信息时,人们又希望所获得的信息
1摇 命名实体识别
既是更全的,同时又是更相关的,不仅如此,人们甚至
希望能够直接浏览到从信息的海洋中挖掘出来的知 摇 1.1摇 基本思想摇 命名实体识别就是要判断某个文
识,而不是一堆支离破碎的信息。 命名实体识别 本串是否代表某种类型的某个命名实体,并进行标注。
(Named Entity Recognition)正是在这样的背景下产生 其基本流程如图1所示。
的,它是信息抽取的关键技术之一,主要由计算机程序
自动识别文本中具有特定意义的实体,主要包括人名
(Person)、地名(Location)、机构名(Organization)、日期
(Data)、时间(Time)、百分数(Percentage)、货币(Mo鄄 图1 命名实体识别基本流程
[1]
netary value) 及身份、领域专业特有的命名实体, 判定文本串是否为或包含命名实体的依据一般有
如:物质或蛋白质名称、化学分子式、生物化学反应、检 两种:一种是比对事先定义好的命名实体字典,简称字
测方法、化学仪器、药品名称、剂量等的识别。 相同的 典匹配法;另一种是检查该文本串或其子串是否具有
文本在不同的应用情况下,需要识别的实体有可能不 某些类型特征或符合某些类型的模式,简称模式匹配
同。 由于命名实体是一个开放且不稳定的类,数量十 法,这些特征或模式可以由专家事先定义,也可以由系
分庞大,不断有新的命名实体产生且缺乏规范性,难以 统采用一定的统计算法得出,前者又称为基于规则的
完全列举;不同语种类型的命名实体的识别难度也存 方法,后者则称为基于统计的方法。
在差异,如:在英语中,人名多以大写字母开头,且每个 一般情况下,由于不同类别的命名实体具有不同
单词之间都有空格,识别较易,但中文就没有这样的特 的特征或模式,且不同的文本所包含的命名实体类别
点,因此命名实体的识别难度较高。 本文首先介绍中 也不同,其识别任务的难度也不同,因此现有的研究一
文命名实体识别的基本思
文档评论(0)