基于多层次特征集成中文实体指代识别.docVIP

下载本文档

6
0
约5.39千字
约 12页
2018-08-29 发布于福建
举报
版权申诉

基于多层次特征集成中文实体指代识别.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于多层次特征集成中文实体指代识别

基于多层次特征集成中文实体指代识别　　摘要：实体指代识别(Entity Mention Detection，EMD)是识别文本中对实体的指代(Mention)的任务，包括专名、普通名词、代词指代的识别。本文提出一种基于多层次特征集成的中文实体指代识别方法，利用条件随机场模型的特征集成能力，综合使用字符、拼音、词及词性、各类专名列表、频次统计等各层次特征提高识别性能。本文利用流水线框架，分三个阶段标注实体指代的各项信息。基于本方法的指代识别系统参加了2007年自动内容抽取(ACE07)中文EMD评测，系统的ACE Value值名列第二。　　关键词：计算机应用；中文信息处理；实体指代识别；多任务标注；条件随机场模型；ACE评测　　中图分类号：TP391　文献标识码：A 　　　　1 引　言　　　　实体指代识别(Entity Mention Detection，EMD)是识别文本中的引用实体的指代的任务，文本中实体的指代识别可用于文本摘要，机器翻译，信息抽取，自动问答系统等。EMD任务要求识别的信息有多项，包括所引用实体的类别(Entity Class)、类型(EntityType)和子类型(Entity Subtype)，指代的类型(Mention Typc，即引用方式)等。自动内容抽取(ACE)评测定义了3种实体类别(SPC，USP，GEN)、7种实体类型以及44种实体子类型。　　实体指代识别任务的解决方法一般基于统计学习模型，将指代识别任务转化为序列标注或序列分类任务，已有应用的统计学习模型有支持向量机(Support Vector Machine，SVM)、最大熵，(MaXimum Entropy，ME)、隐马尔可夫模型(HiddenMarkov Modcl，HMM)、Co-Training机器学习方法等。条件随机场模型(Conditional RandomFields，CRFs)适用于序列标注问题，在命名实体识别任务中性能出色。Florian等基于最大熵模型构建的实体识别系统取得ACE05 EMD评测的最佳性能。Hacioglu、DaumeIIT等分别基于SVM模型和HMM模型进行实体指代识别，并在ACE04、ACE05的相关评测中取得了不错的成绩。针对EMD多任务标注的本质，Florian等对比了All-In-One方法、流水线方法和联合建模方法，试验结果表明流水线方法的在实现和系统性能上都占有优势。　　本文提出一种集成多层次特征的实体指代识别方法，利用CRFs模型整合不同层面特征的能力，设计了多种类型的特征，除了常见的字符、词、词性、专名列表等特征外，还使用了字符的读音特征、同义词词林中的同类词信息等，并尝试加入了词频、词的N-gram共现频数等基于频次统计的特征提高实体指代标注的性能。借鉴Florian的工作，采用流水线方式分三个阶段依次对实体指代进行识别和标注，每个阶段均基于CRFs模型，最后将三个阶段的标注结果合并。在ACE07的评测数据上验证了本文方法的有效性。　　本文第2节介绍基于CRFs模型的多任务标注方法；第3节描述本文使用的多层次特征；第4节给出实验结果；在第5节分析实验结果并得出结论。　　　　2 基于CRFs的多任务标注　　　　文献中提出的条件随机场模型对输入序列和标注序列的条件概率建立模型，本系统基于一阶线性CRFs模型，使用CRF＋＋(v0.47)作为线性条件随机场模型的实现。　　由于EMD的标注是多任务的，使用一个标注模型难以处理众多标签以及标签之间的依赖关系。在单一模型标注的系统中，每个标注单位的类别空间是各个子任务类别空间的内积，全部标签多达793个。过多的标签造成模型的训练和测试的计算困难。借鉴Florian等的工作，本文对指代识别任务进行分解，分三个阶段以预先定义的次序逐步标注指代的各项信息。首先使用B-I-O标注字符序列中的实体指代，同时标注字符所在的指代的实体类别；第二阶段在之前标注的基础上标注指代的实体子类型；第三个阶段同样在第一阶段标注的基础上识别实体类别(Class)和指代类型；由于第一阶段标注出了输入序列中的实体指代，第二和第三阶段的标注单位可以转变为指代或非指代的词。后面两个阶段的标注还能够利用之前标注的实体类型信息，比如将实体类型作为特征进行后续模型的训练和测试。由于第二和第三阶段标注都在第一阶段的标注结果上进行，可并行进行。　　阶段的划分和子任务分配考虑了指代识别中各类标签之间的依赖关系以及标签的数量。首先实体子类型受限于实体类型，子类型较多，适合在标注了实体类型之后单独进行；实体类别和指代类型较少，都只有3种，二者与实体类型的依赖关系不明显，每个类别的实体都定义了相同的实体类型和子类型以及指代类型，因此将