基于Wikipedia的中文命名实体识别研究.pptVIP

基于Wikipedia的中文命名实体识别研究.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
较具体地介绍一下语料格式转换器。右边的图是转换器的处理流程。 我们使用正则表达式处理索引返回的文本信息,提取其中具有Wiki标签的实体。 由于Wikipedia的编写人员并非专业人员,在语料中有许多不规范的写法给我们的提取带来了麻烦。 / 这是提取实体的处理程序截图。 / 处理完wiki标签后,则是使用粗分词算法,对自然顺序的语料划分词边界,所谓粗分词是指分词过程不识别词性. / 分词后需要对词语的格式换成CoNLL格式的语料,下方是CoNLL语料的格式定义,语料形成了三元组的形式,便于模型进行处理。/ * 这里有三种主要的数据结构定义,包括字(Character)、词(Word)和标记(Token)的定义。/ * 接着介绍的是用于CRF++框架的特征模板定义 / 我们定义了两种特征模板,分别用首字母U 和B 表示。 / 特征模板用于系统自动生成特征函数,其原理是分析上下文的边界关系而得到词语的特征并存储。 / 特征函数的数目大是影响CRF模型的重要因素,其数目为,标注数和模板宏替换可能数的乘积。 / 考虑到模型的效率,我们不使用二元特征模板。 / * 训练的过程又称为编码过程(Encoding),让模型能够准备好对测试数据进行标注。/ 根据系统的配置定义,利用搜索引擎从索引中检索相关的条目信息,再使用语料转换器生成的CoNLL训练语料。 得到训练语料后,CRFs根据特征模板的定义,使用L-BFGS训练算法对模型的参数进行估算。/ 这是训练语料分布比例图,一些测试的结果显示,更广的领域覆盖有助于避免Over fitting副作用。/ * 简要介绍数据标注的流程/ 在模型经过训练的基础上,对输入的语料进行标注 / 参考了文献[28]的策略,基于N-最佳标注选取算法,对新词进行收集,并按分组加入到索引词典中。在新词积累一段时间后在重建索引。 / 对CRF++ 输出的N个标注结果(N-best) 中选取最佳结果(N最佳标注选取算法)。附加处理模块能更好地避免标注错误出现。/ 标注结束后,输出格式转换器把CoNLL格式的数据转换成符合自然阅读方式的标注数据。/ * 接着讲述的是系统测试。 * 我们使用标注的测试指标,包括召回率R,准确率P和综合指数F / * 这是开放性测试语料的分布表,用了广覆盖度测试语料。 / 我们并没有进行Close Testing。/ * 我们一共设计了4种测试方案,包括综合性能测试、增量训练集测试、新词更新测试和系统横向对比测试。 / * 这是综合测试结果,虽然对缩写名词的识别效果不理想,我们的综合测试指数达到了82.07%,这在中文命名实体识别领域是一个较好的结果。 红色方框的数据显示,使用了N-best优化后,结果有了明显的提高。/ 下方的折线图显示,提高训练数据的涵盖度,对系统的性能产生很明显的影响。/ * 上面这幅图说明,新词更新策略能稍微提高系统的性能。当然,我们后来也发现,自动新词探测的机制还需要改进。/ 和同类型的几个系统进行对比,我们的系统在综合指数达到87.46%,虽然落后于最先进的系统,但是这个结果还是让人满意的。 这也说明了,使用自动标注语料进行训练的策略是有效的。/ * 这部分的最后我们进行几点讨论, CRFs 模型在显示了训练精度精度优势的同时,也暴露了训练复杂度高的明显缺点。 弥补基于Wikipedia 建立的词典索引的词汇量不足,可以尝试引入的外部命名实体词典。 SYSUNER 对命名实体缩写的识别效果并不理想。 使用最大匹配分词算法来进行粗分词,因为词语边界歧义的存在,会导致分词错误,进而影响系统的性能。 * 最后一部分是对本文内容的一个总结以及研究的展望。/ * 我们的工作还存在一些需要进一步完善的地方: 包括Wikipedia数据库的进一步利用;训练模型的优化;分词算法的改进;以及一些特殊场景的识别错误的原因需要探究等等。/ * 这是本人在研究生阶段参与的一些工作。 * 特征模板 两种特征模板: 一元特征模板、二元特征模板 特征模板通过分析上下文边界特征得到词语特征 L表示输出标注的数目,N表示模板宏替换的可能结果的数目,那么总共生成的特征函数数目为(L*N) 考虑效率,二元特征模板的数目应尽量减少 * * /36 训练CRFs 训练语料分布比例 训练的过程又称为编码过程(Encoding) 检索相关的条目信息,再使用语料转换器生成CoNLL训练语料。 使用L-BFGS训练算法对模型的参数进行估算。 * */36 中文命名实体识别(数据标注) 对CRF++ 输出的N个标注结果中选取最佳结果(N最佳标注选取算法);避免标注错误出现。 把CoNLL格式的数据转换成符合自然阅读方式的标注数据。 基于N-最佳标注选取算法,对新词进行收集,并按分组加入到索引词典中;重建索引

文档评论(0)

小教资源库 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档