- 1、本文档共70页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
网页检索质量的提高
网页检索质量的提高--user space mining search result organization 0.0 网页检索vs信息检索 网页检索技术源自于信息检索技术 基本的索引技术、搜索技术 不少搜索引擎使用越来越广泛 网页检索与传统的文本检索有很多不同之处 如何进一步提高网页检索的质量? 0.1 用户空间挖掘和检索结果组织 提纲 研究背景 用户空间挖掘的探索(query classification/clustering) 检索结果组织的探索(search result clustering) 结论 研究背景 1.0 研究背景 当前的网页检索技术源自于传统信息检索技术 传统信息检索技术概述: 1.1.0 网页检索vs传统信息检索 1.1.1网页检索vs传统信息检索 传统信息检索 用户查询:7~15 terms 返回结果:按相关性排序的结果 网页检索 用户查询:中文:3.55 character/query 英文:2.35 words/query 用户一般只浏览第一个结果页面 1.1.2 每个查询的标引项 1.1.3 每个用户查看的页面数 1.1.4 当前网页检索的不足之处 用户空间挖掘 2.0.0 经验 不同用户有不同的信息需求 同一个用户不同时期的信息需求也不同 查询的侧重点不同 查询词有多重意思 2.0.1 经验 不同的用户有相同的信息需求,但是查询项却不相同(潜在相关) 用户的查询常常需要辅助 对一些不良查询项应该有所控制 2.1.0 查询分类探索(1) 2.1.1 网页查询的多种信息源 2.1.2 主题相关任务和主页查找任务 使用TREC数据分析不同查询任务的区别 内容信息的得分: 组合三个得分(CMB): 两种操作:and sum 2.1.3 分析结果 2.2.0 用户查询分类 语言模型 TREC-2000 topic relevance task queries:QUERYT-TRAIN Queries for randomly selected 100 homepages:QUERYH-TRAIN WT10g分为两部分:DBTOPIC和DBHOME 定义一个查询Q为词的集合: 2.2.1分类中用到的一些概念 1.查询项的分布 2.互信息 3.作为锚文本的使用率 4.POS信息(是否含有动词) 2.2.7 分类中用到的一些概念(续) 多种方法的结合 不同的方法覆盖的query不同 2.3.0 实验结果(1) 2.3.1 实验结果(2) 2.3.2 实验结果(3) 2.4.0 查询分类探索(2) 2.4.1 查询分类探索(2) 对查询进行准确的主题分类 2.5.0 framework 1.精确匹配 使用有一些AOL编辑手工分类的流行的网页查询的18个列表 提供高精度 2.机器学习分类 用1中的手工分类查询项作为训练集进行学习 感知分类器,召回率很高,准确率稍低 3.挖掘用户log 引入计算语言学的概念:选择性偏好 我们从一个很大的未非类的query log集中来挖掘选择性偏好,作为预测方法 2.6.0 实验数据分析(1) 2.6.0 实验数据分析(2) 结合的方法超过了任何一种单一的方法 有很高的召回率,而且准确率也不差 结合了对未分类数据的挖掘,可以紧跟变化 2.7.0 用户查询的聚类 不同用户有相同的需求,但是给出的查询项不相同 相同的查询项,用户访问的URL却不相同 2.7.1 用户查询的聚类 2.8.0 用户查询聚类探索(1) 2.8.1 算法演示 2.8.2 算法复杂度 终止条件可以不必那么严格 如果有nw个白点和nb个黑点,那么粗略估计复杂度为每个循环O(nw2+nb2) 但是我们可以定义邻居节点来简化算法,那么设G中任意一个点的最大邻节点数是|N|max,那么第一部分为nw |N|max2 而且每次汇聚所需修改项也只是修改一部分相似度值 所以最终复杂度为 2.8.3 用查询聚类来增强网页检索 Baseline:standard Lycos query-suggestions Full-replacement: replace all suggestions Hybrid: replace the weakest, skip repeat 2.9.0 用户查询聚类探索(2) Principles: (1)if users clicked on the same documents for different queries, then these queries are similar (2)if a set of documents is often selected for the same queries, then the
文档评论(0)