跨文档共指消解的方案分析-scheme analysis of cross-document coreference resolution.docxVIP

下载本文档

52
0
约11.24万字
约 123页
2018-05-29 发布于上海
举报
版权申诉

跨文档共指消解的方案分析-scheme analysis of cross-document coreference resolution.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

跨文档共指消解的方案分析-scheme analysis of cross-document coreference resolution

摘要跨文档共指消解（CrossDocumentCoreference，CDC）是以分散在不同文本来源中的相同名词实体为对象，通过信息抽取、信息表示和聚类等技术最终判定这些名词实体与客观概念之间的共指关系的过程。CDC的研究涉及信息抽取、数据挖掘、自然语言处理等多个研究领域，其是文本信息融合的核心技术，是文本信息理解的研究基础。随着信息社会的不断发展，对于高效获取和组织信息的技术需求日益迫切，CDC研究的重要性也日益凸显。在目前CDC的相关研究中，传统的文本挖掘方法依然占据核心地位。然而随着对CDC技术研究的逐渐深入，传统的文本挖掘方法已经很难适应当前CDC应用的要求。例如，文本本身的复杂性、文本边界的束缚、相关信息的抽取以及领域和先验知识的匮乏都已经严重地影响到了CDC技术的发展与应用。CDC相关研究的难题其本质上都是由于自然语言文本中信息的复杂性和相关性所导致的。自然语言文本中信息的复杂性和相关性归根结底是源于人的思维的复杂性和相关性。这种复杂性和相关性是由于人对复杂的客观事物具备了更为深入的认知能力、推理能力和表述刻画能力。然而，这也是计算机在获取、组织和理解文本信息的过程存在着诸多难题的根源。因此，若能降低自然语言文本信息的复杂性，充分利用现有的数据挖掘、模式识别技术识别和处理其相关性，并且在此基础上大胆创新，探索出适用于CDC问题的计算机技术处理方案，将能够极大的推动CDC研究的发展。利用模式识别和数据挖掘技术的重要方法——贝叶斯理论和图理论对自然语言文本信息进行定量的转化与表示。作者将这些理论引入CDC问题的研究当中，用以抛砖引玉，为CDC技术的进一步发展提供更新的技术路线与解决方案。本文的主要研究内容如下：①基于非参数贝叶斯模型的跨文档共指消解方案以往的跨文档共指消解方案都是采用文档内部共指链或者信息窗口的方法对待消解名词实体的相关信息域进行划分，并抽取信息特征进行信息表示。在本方案中，首先考虑到主题在文本中的分布情况，假设主题在待消解名词实体相关信息域中的分布是相同的，以文档中的句子为对象，通过分层Dirichlet过程（HierarchicalDirichletProcess，HDP）模型计算句子中各个主题所占的成分，再利用Dirichlet过程混合模型（DirichletProcessMixtureModel，DPMM）对句子进行聚类，将包含待消解名词实体的划分句子集作为待消解名词实体的相关信息域；随后，采用HDP模型重新计算各信息域内主题所占的成分从而对各个待消解名词实体的相关信息域进行信息表示；最后通过现有研究中常用的聚类算法对方案性能进行评估，评估结果表明该方案较现有的方法具有更好的消解效果。此外，本文还论证了非参数聚类方法在方案中使用的局限性。②基于图理论的跨文档共指消解方案方案首先采用图理论的信息表示方法——信息图对待消解名词实体的信息域进行了表示。该信息表示方法可以很好的体现各名词实体之间的关系，同时又对文本中的信息进行了有效筛选；其次，方案通过将信息图进行相似性度量，获得各个待消解名词实体的信息图之间的相似关系，从而构建各个待消解名词实体的关系网络；最后通过采用有权的社交网络社团划分方法，对整个关系网络进行社团划分，得到社团结构即为各个待消解名词实体的共指关系划分。该方案通过在常用公共数据集上的性能评估，证明方案在不借助任何先验知识和领域知识的情况下，较以往的方法在性能上有一定的提升，且方案具有较好的普适性，具有很好的实用价值。③扩充的基于图理论跨文档共指消解方案虽然基于图理论的跨文档的共指消解方案已经具有了较好的消解性能和很好的实用价值，但是图的信息表示方法还具有可以挖掘的潜力。基于上述考虑，提出了基于图理论扩展的跨文档共指消解方案。该方案主要从以下两点对同模型进行扩展：1）通过信息图的拓扑特性，对信息图进行有权化扩展，计算得到了信息图中的节点权重向量和边权重向量；2）对信息图进行了合理的向量转化，使其可以通过向量的相似性度量算法计算各信息图之间的相似度，从而构建了各个待消解名词实体的关系网络。扩展的效果通过社交网络的社团划分方法进行了性能评估，结果显示相较于基本的图理论信息表示方法，该方案在信息量较大的文本数据中可以有一定的性能提升，但是在信息量相对较少的文本数据中效果差别不大。经过分析，出现这种结果的主要原因在于文本信息量越大，其名词节点之间的关系越复杂，扩展后的有权信息图可以对其更好的刻画，然而信息量较少的文本生成的信息图结构相对简单，对其有权化的意义不大。关键词：跨文档共指消解，概率主题模型，图理论，非参数贝叶斯模型，文本信息抽取，文本信息融合ABSTRACTCross-documentcoreferenceresolutionisaprocessoffindingoutthesame