- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于主题模型深层网数据源选择算法
基于主题模型深层网数据源选择算法
摘 要:
联邦搜索是从大规模深层网上获取信息的一种重要技术。给定一个用户查询,联邦搜索系统需要解决的一个主要问题是数据源选择问题,即从海量数据源中选出一组最有可能返回相关结果的数据源。现有的数据源选择算法大多基于数据源的样本文档集和查询之间的关键词匹配,通常无法很好地解决少量样本文档的信息缺失问题。针对这一问题,提出了基于隐含狄利克雷分布(LDA)主题模型进行数据源选择的方法。首先,使用LDA主题模型获得数据源和查询的主题概率分布;然后,通过比较两者主题概率分布的相近性来对所有数据源进行排序。通过将数据源和查询映射到低维的主题空间来解决高维词条空间稀疏性所带来的信息缺失问题。在TREC FedWeb 2013和2014 Track的测试集上分别进行了实验,并和其他参赛方法的结果进行了比较。在FedWeb 2013测试集上的实验结果显示比其他参赛方法的最好结果提高了24%;在FedWeb 2014测试集上的实验结果显示比传统的基于小文档和大文档的关键词匹配方法分别提高了22%和43%。另外,使用文档片段来代替文档还可以大幅提升系统的效率,更增加了此方法的实用性和可行性。
关键词:
深层网;主题模型;隐含狄利克雷分布;数据源选择;联邦搜索
0 引言
随着互联网技术的不断发展,Web上各种信息和数据呈爆炸性的增长。这其中不仅包括能被通用搜索引擎(如Google、百度等)索引和检索到的静态网页,还包括更多的各种Web数据库中的数据,例如电子商务网站上各种商品的数据、科学数据库中的数据、电子图书馆的目录、飞机订票系统中的数据等。这些数据大多存于网站后端的数据库中,很难被一般搜索引擎爬取和索引,用户只能通过网站提供的查询界面(如Form)来获取信息。例如,在天猫商城的搜索框中输入“iphone 5S”的关键词查询,其后台数据库将返回超过100个商品记录。但百度对相同的查询“iphone 5S site:”只能返回不到20个结果,且没有一个是天猫商城卖家的iPhone 5S商品页面。这类数据源通常被统称为深层网(Deep Web)或暗网(Hidden Web)[1-2]。据2000年估计[1],深层网的数据量是搜索引擎索引的表层网数据量的500倍。Google 2007年估计Web上已有近1千万个不同的有用的Form[3]。据2011年2月的最新估计,Web上大约有超过10亿个结构化数据集[4]。
从深层网中获取信息的方法大概有两种:数据表层化法和联邦搜索法。数据表层化法是一种数据预取法,它为每个Form预先生成一些查询,由于每个查询对应一个带?的URL,因而可以像其他静态HTML网页一样被抓取和索引,即将深层网中的数据表层化了。它的优点是不需要改变搜索引擎现有的体系结构,因而被大部分搜索引擎所采用,例如Google的深层网爬取器[5]。但它的缺点是无法适应底层数据的动态变化;另外也无法预计算和抓取使用POST方法的Form,因为所有POST方法提交的Form都具有相同的URL。联邦搜索法(federated search),又称分布式信息检索(distributed information retrieval)或选择性元搜索(selective metasearch),则不受此限制,并能很好地适应底层数据的动态变化。
对于用户提交的关键词查询,联邦搜索系统选择一些最有可能返回相关结果的网站,并将用户的查询提交给这些网站的查询接口,最后再把每个网站返回的搜索结果合并排序成最终结果,返回给用户。它需要解决的主要问题是数据源选择问题和结果合并排序的问题。本文的主要工作集中在数据源的选择问题上,即如何为给出的关键词查询选择一组最相关的深层网数据源。
第1节将讨论已有的数据源的表示和选择方法,并给出本文对这一问题的研究动机。接下来的第2节将详细介绍本文提出的基于主题模型的数据源选择算法。在参加TREC国际会议的FedWeb 2014 Track中,本方法获得了第二名的成绩,同时也在TREC FedWeb 2013的数据集和查询集上做了实验,第3节将给出实验结果。最后第4节是总结与展望。
1 数据源的表示和选择
对于一个给定的用户查询,如关键字查询,数据源选择问题是在系统已知的所有数据源中选出一组最有可能返回相关结果的数据源。
数据源的相关性与很多因素有关[6]:数据源自身与具体查询无关的权威性或有用性;数据源所包含的数据内容与查询的匹配程度;数据源的主题与查询主题的匹配程度等。
1.1 数据源的有用性
数据源自身的与具体查询无关的权威性或有用性,例如华东师范大学组在TREC FedWeb 2014的工作中提出的搜索引擎影响因子(S
原创力文档


文档评论(0)