基于特征向量的名词短语指代消解研究-计算机软件与理论专业论文.docxVIP

下载本文档

2
0
约6.44万字
约 67页
2019-03-30 发布于上海
举报
版权申诉

基于特征向量的名词短语指代消解研究-计算机软件与理论专业论文.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于特征向量的名词短语指代消解研究摘要基于特征向量的名词短语指代消解研究摘要指代消解是自然语言处理中的一个重要问题，包括专有名词、普通名词、代词的指代识别。为了解决文本中的指代问题，本文采用了基于特征向量的机器学习方法，将指代问题转换成一个分类问题，实现了一个基于机器学习的针对所有名词短语的指代消解平台。本文通过对英文原始语料进行词性标注、命名实体识别和名词短语识别等一系列预处理，选取了多个有效特征及其组合，分别采用最大娟和 SVM 两种分类算法对名词短语进行分类，并用 MUC Scorer 的评测程序进行评测，在 MUC-6 语料库上分别得到了 F 值 68.0 和 68.1的结果。为了验证系统是否具有可移植性，本文又选用了 ACE2003 语料库，系统在采用 SVM 分类器的情况下，在 BNEWS ，NPAPER 和 NWIRE 三个类别的数据源上， F 值分别达到了 53.1 ，58.4和 54.2。从实验结果上看，本文所介绍的英文指代消解系统优于同类型的其它平台。在英文指代消解的基础上，本文实现了中文指代消解的系统框架，对基于机器学习的中文指代消解进行了尝试。系统采用 ACE2005 中文语料作为实验数据，从标注文本中抽取了部分主要特征，并通过一些简单规则识别了另外一些特征，随机抽取 BNEWS 语料中 200 篇文章作为训练集， 98 篇文章作为测试集， F 值达到了 70.83 。特别是，本文系统深入地研究了特征向量及其取值方式对基于机器学习的指代消解的影响;不同机器学习方法对指代消解的影响:系统对不同语料的消解能力:中英文指代消解的相同和不同之处。通过对比实验结果，检查实验错误，分析了中英文指代消解系统的错误类型和解决方案，为接下来的研究奠定了基础。实验表明，本文的指代消解系统性能较高，对机器学习算法兼容性较强，可以解决各种类型的名词和名词短语的指代消解问题。关键字z 指代消解:机器学习;特征向量:最大娟分类器; SVM 分类器作者:杨勇指导老师:朱巧明 Abstract Research on Feature-based Coreference Resolution Research on Feature-based Coreference Resolution Abstract Coreference resolution plays an important role in natural language processing. It involves the resolution of variOUs.kinds of noun phrases，such as named entities，nominal phrases and pronouns. This paper recasts coreference resolution 部 a classification problem ， and focuses on feature-based machine learning approaches on both English and Chinese languages. Our fea阳re-based coreference resolution system is first built via a pipeline of NLP techniques ，including POS tagging，named entity recognition and noun phrase chunking. ηlen，a number of effective features and their combinations are explored using the maximum entropy model and the SVM model. Evaluation on the English MUC-6 co叩us shows that 0町 system achieves the Fl-measures of 68.0 and 68.1 using maximum entropy and SVM respectively. For evaluation on the English ACE2003 corpus，the SVM model achieves the F-measure of 53.1， 58.4 and