- 1、本文档共5页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
对基于种子的关系挖掘的经典论文的总结摘要:本文主要简要总结了基于种子的关系挖掘的几篇经典论文。基于种子的关系挖掘,相对于基于聚类的关系挖掘,其主要特点是在对语料库或网络信息进行处理时,需要少量种子元组作为输入,在具体算法的处理过程中,通常会用到迭代等方法。从对这几篇论文的纵向比较可以看出其基于种子的关系挖掘算法的发展脉络。关键字:关系挖掘 种子元组 模型 迭代算法一、背景介绍随着网络的不断发展,Web网已成为一个巨大的分布式信息空间。关系挖掘就是指利用各种关系挖掘算法,从信息量很可观的网络中挖掘出两个或多个实体中存在的各种关系。同其它网络数据挖掘类似,关系挖掘要处理的信息量大。一般都是开放的万维网或相当大的语料库。处理所得结果的规模也比较大,否则不具有较高的应用价值。关系挖掘在关系挖掘领域,已有学者做出大量研究,总结出两大类关系挖掘的算法:基于种子的关系挖掘算法及基于聚类的关系挖掘算法。这两种算法所采用的机理不同,各有自己的优势及缺点。基于种子的关系挖掘,相对于基于聚类的关系挖掘,其主要特点是在对语料库或网络信息进行处理时,需要少量种子元组作为输入。根据其种子元组的关系特点,进行下一步的关系抽取处理,通常会用到迭代等方法。从其算法的根本思想可以看出,基于种子的关系挖掘方法对种子元组有一定的依赖。选取的种子元组的优劣,会对最终的抽取结果产生一定的影响。基于聚类的关系挖掘,与之相反,则不需要若干元组进行输入,而是利用一定的聚类算法,对语料库中的各实体对进行分析处理,将关系相近的一类实体对聚成一类,再利用特定算法,解析出他们的关系,即实现关系挖掘的过程。对于基于种子的关系挖掘,已有很多学者对其进行长时间的研究,其成果也都在发表的论文中有所体现。关系挖掘领域的若干经典论文,和这些论文提出的算法如Extracting Patterns and Relations from the World Wide Web(Sergey Brin,1997)提出的DIPRE算法,为以后的基于种子的关系挖掘算法奠定了基础。很多后来的研究都是在这些经典论文的基础之上的。而本文就是对基于种子的关系挖掘的经典论文做出归纳和总结,以理清关系挖掘领域基于种子的挖掘算法的发展脉络,以为后面的学习与研究提供提示与参考。本方将要涉及到的经典论文如下:Extracting Patterns and Relations from the World Wide Web (In International Workshop on the Web and Database, 1998), Snowball: Extracting Relations from Large Plain-Text Collections (In International Conference on Digital Libraries, 2000), StatSnowball: a Statistical Approach to Extracting Entity Relationships(In the Proceedings of the 18th international World Wide Web conference?, 2009). 这几篇论文都是基于种子的关系挖掘方法的经典论文。但其所使用的算法及思想也存在着交叉与递进。本文将以由简到繁,由易到难的顺序依次介绍这几篇论文。介绍时分别以文章的目的,思想(算法),及其做出的探索与改进为线索依次介绍。二、经典论文介绍Extracting Patterns and Relations from the World Wide Web这篇论文及其提出的DIPRE算法为后来关系挖掘领域的相关研究奠定了基础。很多后来基于种子的算法研究都是以这篇论文为基础,进行了扩展和完善。后续的算法虽然不断改进,但是其根本思想还是由DIPRE算法沿袭而来。这篇文章主要探索的目标是从信息量大且信息极其分散的万维网中抽取出具有一定关系且数量可观的元组对。朝着这个目标,作者提出了关系抽取算法——DIPRE。在描述这个算法之前,作者首先讨论了模型与关系两者间的双重对应特点。简而言之,就是如果两个实体(即一对元组)间存在一定关系,那么在数据量庞大的万维网数据库中,这两个实体出现时一般情况下会存在若干个模型与之相对应。而对于两个总是以若干一定模型出现的实体来说,它们之间很可能存在着某种关系。基于这个思想,作者引入了利用关系与模型的这种特点的DIPRE算法。在具体的算法中,为了算法的最终实现,作者对模型及关系都采用了数学的方式,进行了精准的定义。算法的大体思想如下:根据已经得到元组(第一次迭代则是手工输入的种子元组),从语料库中找到这些种子元组共现的上下文。从这些上下文关系中,
文档评论(0)