中文异构百科知识库实体对齐.docVIP

下载本文档

50
0
约 21页
2017-03-21 发布于北京
举报
版权申诉

中文异构百科知识库实体对齐.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

中文异构百科知识库实体对齐.doc

中文异构百科知识库实体对齐摘要：针对传统实体对齐方法在中文异构网络百科实体对齐任务中效果不够显著的问题，提出一种基于实体属性与上下文主题特征相结合的实体对齐方法。首先，基于百度百科及互动百科数据构造中文异构百科知识库，通过统计方法构造资源描述框架模式（RDFS）词表，对实体属性进行规范化；其次，抽取实体上下文信息，对其进行中文分词后，利用主题模型对上下文建模并通过吉布斯采样法求解模型参数，计算出主题单词概率矩阵，提取特征词集合及对应特征矩阵；然后，利用最长公共子序列（LCS）算法判定实体属性相似度，当相似度位于下界与上界之间时，进一步结合百科类实体上下文主题特征进行判定；最后，依据标准方法构造了一个异构中文百科实体对齐数据集进行仿真实验。实验结果表明，与经典的属性相似度算法、属性加权算法、上下文词频特征模型及主题模型算法进行比较，所提出的实体对齐算法在人物领域和影视领域的准确率、召回率与综合指标F值分别达到97.8%、88.0%、92.6%和98.6%、73.0%、83.9%，比其他方法均有较大的提高。实验结果验证了在构建中文异构百科知识库场景中，所提算法可以有效提升中文百科实体对齐效果，可应用到具有上下文信息的实体对齐任务中。关键词：知识库；实体对齐；主题模型；资源描述框架模式；最长公共子序列算法中图分类号： TP391.1 文献标志码：A 0引言语义网[1]提供一种在不同应用和个体间共享和重用数据的整体框架，是Web 3.0的重要特征。目前万维网主要面向文档，供人直接阅读和理解；语义网则主要面向文档所表示数据，使计算机能够理解并通过推理引擎进行逻辑演算，是人工智能的重要目标。语义网的建立需要高质量的知识库作为数据支撑。目前，国外具有代表性的知识库有FreeBase[2]、DBpedia[3]、维基百科本体知识库（Yet Another Great Ontology，YAGO[4]）及Omega[5]等；国内的知识库有百度知心、搜狗知立方及清华大学双语知识库XLore[6]。知识库在知识图谱、智能语义问答及信息融合等自然语言处理领域均有重要意义[7]。国外的知识库如FreeBase等提供了公开的资源描述框架（Resource Description Framework， RDF）数据源，但所含中文数据量较少，如何构建高质量的中文RDF知识库是目前的研究热点。实体（Entity）是指客观存在并可相互区别的事物，包括具体的人、事、物、抽象的概念或联系，知识库中包含多种类别的实体。实体对齐（Entity Alignment）也被称作实体匹配（Entity Matching），是指对于异构数据源知识库中的各个实体，找出属于现实世界中的同一实体。随着中文网络百科的不断完善，可以从网络百科页面抽取出实体，并对不同来源的实体进行对齐，构建高质量的中文异构百科RDF知识库[8]。百度百科与互动百科所包含的实体信息覆盖面广，更新及时，因此，如何从网络百科数据中抽取出实体信息并进行实体对齐，是构建中文RDF知识库的关键问题。实体对齐常用的方法是利用实体的属性信息判定不同源实体是否可进行对齐，由于网络百科数据属于用户原创内容（User Generated Content，UGC）类型[9]，不同用户编辑的数据质量参差不齐，仅通过用户编辑的实体属性信息难以准确判定是否为同一实体。本文根据网络百科具有实体上下文的特性，提出一种基于主题模型的中文异构百科知识库实体对齐方法，通过挖掘实体上下文潜在语义信息，对实体上下文进行主题建模，完成实体对齐任务。实验验证所提方法能够有效提升实体对齐准确性，对具备上下文信息的实体对齐任务有良好通用性。本文主要工作如下： 1）利用中文异构数据源百科类网站，构建中文百科知识库，提出异构数据源百科知识库进行实体对齐的方法，该方法能够有效地对来自于异构数据源百科知识库中的实体进行对齐。 2）结合实体结构化数据与非结构化数据，提出了适用于具备上下文信息的实体对齐方法。 3）构造了中文百科类实体对齐标准数据集，对数据集中需要对齐的实体进行了人工标注并进行了大量实验。同标准的实体对齐方法进行对比，实验结果表明本文提出的算法可以有效地对具有上下文信息的实体进行对齐。 1相关工作目前实体对齐方法的研究主要分为以下3个方面。 1）基于OWL语义。网络本体语言（Web Ontology Language， OWL）用于对本体进行语义描述。文献[10]中利用反函数及启发式算法结合上层语义信息（如owl：sameAs等）对实体进行推理，判断不同来源的实体是否可以进行对齐。文献[11]中利用Freebase中实体分类信息对问句中的实体，通过迭代模型和判别模型与知识库中的实体进行对齐。基于OWL语义的方法要求数据集本身具有完备的语