- 1、本文档共22页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
厦门大学数据库室论文阅读报告 - 副本
厦门大学数据库实验室论文阅读报告(2) 报告人:谢荣东 指导老师:林子雨 2015年7月27日 论文方向介绍 1 Diversity-Aware Top-k Publish/Subscribe for Text Stream 2 Efficient Diversity-Aware Search 3 目 录 CONTENTS 论文方向介绍 1 1.1关键词检索 从web2.0时代开始,用户上网一般都是通过搜索引擎。随着网络的发展,人们对于搜索的需要遍布网络世界的方方面面,例如商品信息检索、社交网络信息检索以及推荐系统等。 传统的搜索服务一般关注点在与搜索的精确性,要求结果与关键词尽量匹配。 然而,现在的用户对搜索结果的要求更趋于多元化,不仅要求结果的相关性,也要求结果的多样性。 1.2用户的多样性需求 由于网络信息的特性,在搜索引擎返回的具有相当长度的结果列表中,和查询最相关的一些结果非常相似。另外,由于关键词查询具有语义不确定性,同样的关键词查询背后可能用户的搜索意图并不完全一样。比如对于关键词“苹果”,用户的潜在意图可能有: “苹果”公司及其产品 由于食用的苹果及其生长树木 一部名为“苹果”的电影 用户对于第一类的关注度比较高,如果搜索引擎只根据第一种搜索意图评价结果的相关性,则持有后两种意图的用户很难在搜索结果中找到想要的结果。 1.3 应用场景 多样性检索已经应用到网络的方方面面,尤其在一下几个领域有很广阔的运用: Diversity-Aware Top-k Publish/Subscribe for Text Stream 2 2.1 摘要 问题描述:网络上信息浩如烟海,而用户往往只关心最新的感兴趣的信息,故信息检索服务应该能够提供给用户“对他们的查询主题不同方面覆盖面广的查询结果”。 领域现状:现在最先进的是tweet使用的Top-k发布\订阅查询系统,但是还是未充分的考虑结果的多样性。若充分考虑多样性,可以提高用户对搜索结果的满意度。 面临的困难 困难一: 定义多样性感知Top-k订阅查询问题,一方面要考虑将会影响搜索结果的三个方面,即:相关性、时效性、多样性,并能定量的表示它们;另一方面设计高效的算法计算三个特性,并能实现快速的比较以及结果的更新 困难二: 所提出的多样性感知Top-k发布/订阅系统应该能有效地应对巨量的查询;对于新加的数据,能够实现快速的结果更新 本文的解决方法 本文采用组筛选条件和个别筛选条件来对新加入的数据进行分类鉴别。主要解决组筛选策略问题。 本文提出了一个minimal covering set(MCS)概念,即最小覆盖集,定义为:结果集中能覆盖所有查询的最小结果集。 解决一个MCS maximization problem,即MCS最大话问题,寻找尽可能多的MCS,尽量覆盖所有的结果集。 2.2 问题的定量描述 对于检索结果q.R,需要计算其相关性以及多样性。 相关性与文本距离成反比 相关性与时间衰减因子成反比 用余弦相似度来度量多样性 组筛选条件 个别筛选条件 2.3 MCS MCS maximization problem 本质上用贪心算法 Chen L, Cong G. Diversity-Aware Top-k Publish/Subscribe for Text Stream[C]//Proceedings of the 2015 ACM SIGMOD International Conference on Management of Data. ACM, 2015: 347-362. Efficient Diversity-Aware Search 3 3.1 数据模型 用一个加权向量来表示数据,可以表示多元的数据,比如文本数据,空间数据等待。D=(d1,d2,d3…) 数据的得分=关键词相关性*不冗余性 fq是一个可调参数,对于答案多元性需求不高的问题,设置低的fq 对于多元性要求高的问题,设置高的fq The DIVGEN Algorithm Angel A, Koudas N. Efficient diversity-aware search[C]//Proceedings of the 2011 ACM SIGMOD International Conference on Management of data. ACM, 2011: 781-792. THANKS 蓝色箭头表示对查询的处理,绿色箭头表示对文本文
文档评论(0)