- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
liupengyuan2009-10-2920-24-34基于图挖掘的查询推荐技....ppt
基于图挖掘的查询推荐技术研究 王斌 Wang Bin 信息检索课题组 Information Retrieval group (FAIR) 前瞻研究实验室 Advanced Computing Research Lab (ACRL) 计算技术研究所 Institute of Computing Technology (ICT) 中国科学院 Chinese Academy of Sciences (CAS) wangbin@ / * 提纲 研究背景 相关工作 我们的工作 图的建立--Session划分 引入图挖掘算法SimRank并改进(WSimRank) 一种新的图挖掘算法SimTrans 提纲 研究背景 相关工作 我们的工作 图的建立--Session划分 引入图挖掘算法SimRank并改进(WSimRank) 一种新的图挖掘算法SimTrans 研究内容和背景介绍 CNNIC-2008年搜索引擎用户行为研究报告 搜索引擎市场规模 用户数2.03亿 年增长率33.6% 搜索引擎成为人们生活常备 资源 研究内容和背景介绍(续) 目前的问题 用户不能精确表达自己的意图 用户输入的查询较短 用户水平存在差异 查询本身存在歧义 例如“美洲虎”就能表示动物,跑车或橄榄球球队名 研究内容和背景介绍(续) 搜索引擎的解决方法 – 查询推荐 推荐相关词给用户 查询推荐的定义 查询推荐是检索系统或搜索引擎为了帮助用户完善查询,给出若干查询词列表,来引导用户二次检索的过程 相近概念 – 查询扩展 查询扩展(Query Expansion)是搜索引擎对原始查询增加、减少或更改关键词,并重新检索,然后将重检索的网页返回给用户 查询推荐不对用户输入做修改,而是另外给出推荐词列表 研究内容和背景介绍 搜索引擎中的相关搜索 相关应用 计算广告 商品推荐 基于搜索日志的查询推荐 我们的工作基于web搜索日志 搜索日志是记录用户提供的查询需求及点击搜索结果的数据集合,包含了更直接,更可靠和更容易有效利用的信息。 提纲 研究背景 相关工作 我们的工作 图的建立--Session划分 引入图挖掘算法SimRank并改进(WSimRank) 一种新的图挖掘算法SimTrans 基于搜索日志的查询推荐(相关工作) 查询推荐的核心问题 如何计算查询之间的相似度 相关工作(从日志中的不同特征挖掘) 基于查询内容的方法(content-based) 基于点击信息的方法(click-through based) 基于session的方法(session-based) 相关工作-基于内容的方法 基于查询内容的方法(content-based) 字符串匹配 定义查询之间的字符串距离,如编辑距离、最长连续公共子串比率等,把距离当作一种相似度 基于特征项 把查询分成更小的独立单位,比如字,词或短语 把查询q映射到一个向量(t1,t2,t3…tn),应用向量空间模型计算 语义相似 利用语义词典-wordnet,hownet,计算词语相似度作为补充 相关工作-基于点击信息的方法 基于点击URL的方法(click-through based) Query-url二分图模型 直接利用边权重计算 转化成向量应用向量空间模型 SVD分解后计算 马尔科夫随机游走 相关工作-基于session的方法 基于session的方法(session-based) Session的定义和划分 定义:在某段时间内,指向同一用户搜索意图的查询序列 划分:把session划分看成查询边界判定问题,变成分类问题 基于session的查询推荐方法 简单统计 共现次数 互信息 关联规则挖掘等 相关工作总结 提纲 研究背景 相关工作 我们的工作 图的建立--Session划分 引入图挖掘算法SimRank并改进(WSimRank) 一种新的图挖掘算法SimTrans 解决思路 问题 - 特征不足时相似度无法计算 思路1 - 机器学习的方法,融合多特征 效率不高 人工标注量大 过学习问题 思路2 - 我们的方法 通过“第三者”联系没有明显关系的查询(寻找间接关联) 例如“李彦宏”与“李开复”均与“搜索引擎公司”有关 解决思路 我们的方法 通过“第三者”联系没有明显关系的查询(间接联系) 将查询直接关联映射到图中,利用直接简单的关系来挖掘间接联系 把孤立的查询对计算问题转化为一个图网络相似度计算问题 提纲 研究背景 相关工作 我们的工作 图的建立--Session划分 引入图挖掘算法SimRank并改进(WSimRank) 一种新的图挖掘算法SimTrans 查询关系图
您可能关注的文档
- 网上报告厅使用讲座(2012.5.25) - 太原理工大学图书馆.ppt
- 成果展方案2009-6-29-9-41-324ppt - PowerPoint Presentation.ppt
- 期98年10月26日.ppt
- 2012年高考生物第一轮复习《生态系统的功能及稳定性》.ppt
- 新课程改革背景下的化学案例教学资源库的设计与应用 ——深化高等师范院.ppt
- 限制自杀手段烧碳自杀香港的经验.ppt
- 大学数学学习方法汇编 - 东南大学.ppt
- 【基础科学】XRD(共26页).ppt
- 让化学课堂更精彩(2011年中考研讨会2)潘毅鹏.ppt
- 26-31966-非谓语动词之分词.ppt
- Unit4MyFavoriteSubjectSectionA(1a-Pronunciation)(课件)人教版七年级英语上册.pptx
- Unit4NaturalDisastersListeningandSpeaking课件-高中英语人教版.pptx
- Unit4NaturalDisastersReadingandThinking课件高中英语人教版(1).pptx
- Unit4MyFavouriteSubjectSectionApronunciation课件-人教版七年级英语上册.pptx
- Unit4MyFavouriteSubjectSectionB(1a-1d)(教学课件)人教版英语七年级上册.pptx
- Unit4Lesson1课件冀教版七年级英语上册.pptx
- Unit4Lesson3课件冀教版英语七年级上册.pptx
- Unit4NaturalDisasters词汇笔记清单-高一上学期英语人教版.docx
- Unit4Lesson2课件冀教版英语七年级上册.pptx
- Unit4IusedtobeafraidofthedarkSectionAGrammarFocus-4c课件人教版(2012)九年级英语全册.pptx
最近下载
- 我能倾听不插嘴儿童故事 绘本PPT课件.pptx VIP
- 中国公民健康素养66条知识讲座ppt课件.pptx VIP
- 部编版历史九年级上册第六单元 资本主义制度的初步确立 大单元整体学历案教案 教学设计附作业设计(基于新课标教学评一致性).docx VIP
- 高等数学课件:D3_3泰勒公式.ppt VIP
- 2025年南京市中考数学试题卷(含答案解析).docx
- 建筑地基基础工程施工质量验收标准.pptx VIP
- 综合安全性总结ISS撰写流程和技术.pdf VIP
- 香港商务服务合同(中英文)6篇.docx VIP
- 药物与qt间期延长课件.ppt VIP
- 血液分析复检规则的制定和应用.ppt VIP
文档评论(0)