liupengyuan2009-10-2920-24-34基于图挖掘的查询推荐技....pptVIP

liupengyuan2009-10-2920-24-34基于图挖掘的查询推荐技....ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
liupengyuan2009-10-2920-24-34基于图挖掘的查询推荐技....ppt

基于图挖掘的查询推荐技术研究 王斌 Wang Bin 信息检索课题组 Information Retrieval group (FAIR) 前瞻研究实验室 Advanced Computing Research Lab (ACRL) 计算技术研究所 Institute of Computing Technology (ICT) 中国科学院 Chinese Academy of Sciences (CAS) wangbin@ / * 提纲 研究背景 相关工作 我们的工作 图的建立--Session划分 引入图挖掘算法SimRank并改进(WSimRank) 一种新的图挖掘算法SimTrans 提纲 研究背景 相关工作 我们的工作 图的建立--Session划分 引入图挖掘算法SimRank并改进(WSimRank) 一种新的图挖掘算法SimTrans 研究内容和背景介绍 CNNIC-2008年搜索引擎用户行为研究报告 搜索引擎市场规模 用户数2.03亿 年增长率33.6% 搜索引擎成为人们生活常备 资源 研究内容和背景介绍(续) 目前的问题 用户不能精确表达自己的意图 用户输入的查询较短 用户水平存在差异 查询本身存在歧义 例如“美洲虎”就能表示动物,跑车或橄榄球球队名 研究内容和背景介绍(续) 搜索引擎的解决方法 – 查询推荐 推荐相关词给用户 查询推荐的定义 查询推荐是检索系统或搜索引擎为了帮助用户完善查询,给出若干查询词列表,来引导用户二次检索的过程 相近概念 – 查询扩展 查询扩展(Query Expansion)是搜索引擎对原始查询增加、减少或更改关键词,并重新检索,然后将重检索的网页返回给用户 查询推荐不对用户输入做修改,而是另外给出推荐词列表 研究内容和背景介绍 搜索引擎中的相关搜索 相关应用 计算广告 商品推荐 基于搜索日志的查询推荐 我们的工作基于web搜索日志 搜索日志是记录用户提供的查询需求及点击搜索结果的数据集合,包含了更直接,更可靠和更容易有效利用的信息。 提纲 研究背景 相关工作 我们的工作 图的建立--Session划分 引入图挖掘算法SimRank并改进(WSimRank) 一种新的图挖掘算法SimTrans 基于搜索日志的查询推荐(相关工作) 查询推荐的核心问题 如何计算查询之间的相似度 相关工作(从日志中的不同特征挖掘) 基于查询内容的方法(content-based) 基于点击信息的方法(click-through based) 基于session的方法(session-based) 相关工作-基于内容的方法 基于查询内容的方法(content-based) 字符串匹配 定义查询之间的字符串距离,如编辑距离、最长连续公共子串比率等,把距离当作一种相似度 基于特征项 把查询分成更小的独立单位,比如字,词或短语 把查询q映射到一个向量(t1,t2,t3…tn),应用向量空间模型计算 语义相似 利用语义词典-wordnet,hownet,计算词语相似度作为补充 相关工作-基于点击信息的方法 基于点击URL的方法(click-through based) Query-url二分图模型 直接利用边权重计算 转化成向量应用向量空间模型 SVD分解后计算 马尔科夫随机游走 相关工作-基于session的方法 基于session的方法(session-based) Session的定义和划分 定义:在某段时间内,指向同一用户搜索意图的查询序列 划分:把session划分看成查询边界判定问题,变成分类问题 基于session的查询推荐方法 简单统计 共现次数 互信息 关联规则挖掘等 相关工作总结 提纲 研究背景 相关工作 我们的工作 图的建立--Session划分 引入图挖掘算法SimRank并改进(WSimRank) 一种新的图挖掘算法SimTrans 解决思路 问题 - 特征不足时相似度无法计算 思路1 - 机器学习的方法,融合多特征 效率不高 人工标注量大 过学习问题 思路2 - 我们的方法 通过“第三者”联系没有明显关系的查询(寻找间接关联) 例如“李彦宏”与“李开复”均与“搜索引擎公司”有关 解决思路 我们的方法 通过“第三者”联系没有明显关系的查询(间接联系) 将查询直接关联映射到图中,利用直接简单的关系来挖掘间接联系 把孤立的查询对计算问题转化为一个图网络相似度计算问题 提纲 研究背景 相关工作 我们的工作 图的建立--Session划分 引入图挖掘算法SimRank并改进(WSimRank) 一种新的图挖掘算法SimTrans 查询关系图

文档评论(0)

czy2014 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档