基于Wikipedia的中文命名实体识别研究.pptVIP

下载本文档

5
0
约1.26万字
约 36页
2019-05-01 发布于江西
举报
版权申诉

基于Wikipedia的中文命名实体识别研究.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

较具体地介绍一下语料格式转换器。右边的图是转换器的处理流程。我们使用正则表达式处理索引返回的文本信息，提取其中具有Wiki标签的实体。由于Wikipedia的编写人员并非专业人员，在语料中有许多不规范的写法给我们的提取带来了麻烦。 / 这是提取实体的处理程序截图。 / 处理完wiki标签后，则是使用粗分词算法，对自然顺序的语料划分词边界，所谓粗分词是指分词过程不识别词性. / 分词后需要对词语的格式换成CoNLL格式的语料，下方是CoNLL语料的格式定义，语料形成了三元组的形式，便于模型进行处理。/ * 这里有三种主要的数据结构定义，包括字(Character)、词(Word)和标记(Token)的定义。/ * 接着介绍的是用于CRF++框架的特征模板定义 / 我们定义了两种特征模板，分别用首字母U 和B 表示。 / 特征模板用于系统自动生成特征函数，其原理是分析上下文的边界关系而得到词语的特征并存储。 / 特征函数的数目大是影响CRF模型的重要因素，其数目为，标注数和模板宏替换可能数的乘积。 / 考虑到模型的效率，我们不使用二元特征模板。 / * 训练的过程又称为编码过程(Encoding)，让模型能够准备好对测试数据进行标注。/ 根据系统的配置定义，利用搜索引擎从索引中检索相关的条目信息，再使用语料转换器生成的CoNLL训练语料。得到训练语料后，CRFs根据特征模板的定义，使用L-BFGS训练算法对模型的参数进行估算。/ 这是训练语料分布比例图，一些测试的结果显示，更广的领域覆盖有助于避免Over fitting副作用。/ * 简要介绍数据标注的流程/ 在模型经过训练的基础上，对输入的语料进行标注 / 参考了文献[28]的策略，基于N-最佳标注选取算法，对新词进行收集，并按分组加入到索引词典中。在新词积累一段时间后在重建索引。 / 对CRF++ 输出的N个标注结果(N-best) 中选取最佳结果(N最佳标注选取算法)。附加处理模块能更好地避免标注错误出现。/ 标注结束后，输出格式转换器把CoNLL格式的数据转换成符合自然阅读方式的标注数据。/ * 接着讲述的是系统测试。 * 我们使用标注的测试指标，包括召回率R，准确率P和综合指数F / * 这是开放性测试语料的分布表，用了广覆盖度测试语料。 / 我们并没有进行Close Testing。/ * 我们一共设计了4种测试方案，包括综合性能测试、增量训练集测试、新词更新测试和系统横向对比测试。 / * 这是综合测试结果，虽然对缩写名词的识别效果不理想，我们的综合测试指数达到了82.07%，这在中文命名实体识别领域是一个较好的结果。红色方框的数据显示，使用了N-best优化后，结果有了明显的提高。/ 下方的折线图显示，提高训练数据的涵盖度，对系统的性能产生很明显的影响。/ * 上面这幅图说明，新词更新策略能稍微提高系统的性能。当然，我们后来也发现，自动新词探测的机制还需要改进。/ 和同类型的几个系统进行对比，我们的系统在综合指数达到87.46%，虽然落后于最先进的系统，但是这个结果还是让人满意的。这也说明了，使用自动标注语料进行训练的策略是有效的。/ * 这部分的最后我们进行几点讨论， CRFs 模型在显示了训练精度精度优势的同时，也暴露了训练复杂度高的明显缺点。弥补基于Wikipedia 建立的词典索引的词汇量不足，可以尝试引入的外部命名实体词典。 SYSUNER 对命名实体缩写的识别效果并不理想。使用最大匹配分词算法来进行粗分词，因为词语边界歧义的存在，会导致分词错误，进而影响系统的性能。 * 最后一部分是对本文内容的一个总结以及研究的展望。/ * 我们的工作还存在一些需要进一步完善的地方：包括Wikipedia数据库的进一步利用；训练模型的优化；分词算法的改进；以及一些特殊场景的识别错误的原因需要探究等等。/ * 这是本人在研究生阶段参与的一些工作。 * 特征模板两种特征模板：一元特征模板、二元特征模板特征模板通过分析上下文边界特征得到词语特征 L表示输出标注的数目，N表示模板宏替换的可能结果的数目，那么总共生成的特征函数数目为(L*N) 考虑效率，二元特征模板的数目应尽量减少 * * /36 训练CRFs 训练语料分布比例训练的过程又称为编码过程(Encoding) 检索相关的条目信息，再使用语料转换器生成CoNLL训练语料。使用L-BFGS训练算法对模型的参数进行估算。 * */36 中文命名实体识别(数据标注) 对CRF++ 输出的N个标注结果中选取最佳结果(N最佳标注选取算法)；避免标注错误出现。把CoNLL格式的数据转换成符合自然阅读方式的标注数据。基于N-最佳标注选取算法，对新词进行收集，并按分组加入到索引词典中；重建索引