- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
搜索引擎的个性化检索研究(翁畅平).ppt
主要内容 研究背景 问题的提出 搜索引擎个性化检索 概念 特征 现状 搜索引擎个性化检索的关键技术 1.研究背景-1 Internet上的信息资源特点 内容广泛,类型多样,涉及到人类生活的各个领域。 更新速度快。 信息重复率高。 信息结构化程度低。 信息过载,资源迷向。 1.研究背景-2 搜索引擎的发展 第一代搜索引擎是以1995 年出现的yahoo,altavista 和infoseek为代表。它们根据相关程度对结果进行排序。这种相关程度主要是以匹配到的关键词的多少、 关键词在页面上出现的位置及关键词在页面上出现的频率来加权和计分,因此这种相关程度排序仅仅是系统对检索结果的一种判断,并不一定符合用户的客观需求。 第二代搜索引擎是以1998年出的google和directhit 为代表。它们是根据以往用户实际访问一个网站并在该网站上所花费的时间来确定一个网站的重要性,或者根据一个网站被其他网站链接的数量来确定网站的重要性。 第三代搜索引擎是正在研究和开发的智能搜索引擎,个性化要求是它的主要特色之一。 1.研究背景-3 用户个性化需求的凸显 信息用户由图书情报机构服务的专业研究人员扩大到普通百姓; 由于每个人的生长环境、受教育背景等个不相同,对搜索结果的期待有很大差异。 人的兴趣、研究具有阶段性。 3.搜索引擎个性化检索 概念: 3.搜索引擎个性化检索 特征 丰富的信息数量 完善的信息分类 信息在深度和广度上的结构型分布 正确理解用户个性的学习机制 柔性的页面结构 完善的功能(收藏、浏览、传送、共享) 3.搜索引擎个性化检索现状 基于使用偏好的个性化检索 利用用户对使用偏好的定制,获知用户的个性化信息,并依次构建用户个性化检索模型而实现的个性化检索。又称“用户定制检索”。 用户定制检索可分为: 一般形式 定制检索标签 基于使用偏好的个性化检索 用户定制检索的一般形式 对检索资源的定制(Web、新闻、视频、Blog等) 对检索语言的定制 对用户或搜索引擎所处地区的定制 对检索结果的安全性定制,一般包括无过滤、中过滤、高过滤三个设置 对检索结果的显示方式(网页摘要、语种、来源等)、显示条数及排序方式的定制 对某些检索功能和选项的定制。(检索界面颜色、布局、字体等的定制) 基于使用偏好的个性化检索 定制检索标签 就是指用户根据自己的需要对搜索引擎首页面上的检索标签进行定制。定制有两种形式: 通过从系统现有的检索标签选项中进行选择来定制 根据需要生成新的检索标签,用户的定制内容包含在新生成的检索标签中 基于使用偏好的个性化检索 3.搜索引擎个性化检索现状 基于检索历史的个性化检索 检索历史是搜索引擎记录、保存和管理用户以往的检索情况,以便为用户今后的检索提供参考,提高检索结果相关性和检索效率的一种检索功能。 基于检索历史的个性化检索就是指通过追踪和分析用户的检索历史记录,挖掘出用户的个性化信息,并依次构建用户个性化检索模型而实现的个性化检索。 基于检索历史的个性化检索 基于检索结果的个性化检索 基于检索结果的个性化检索,就是指利用用户对检索结果信息内容的定制,获知用户的个性化信息,并依次构建用户个性化检索模型从而实现的个性化检索。 基于检索结果的个性化检索 基于检索结果的个性化检索 基于检索结果的个性化检索 4.搜索引擎个性化检索的实现 体系结构 搜索引擎个性化检索实现的关键技术 用户兴趣挖掘技术 网络信息挖掘技术 概念检索技术 信息推送技术 智能代理技术 相关度排序算法分析 4.搜索引擎个性化检索体系结构 4.搜索引擎个性化检索体系结构 用户兴趣挖掘技术 基本概念 用户兴趣的个性化体现在两方面: 对web内容的个性化 对web形式的个性化 V=(V1,V2……Vn) 用户兴趣挖掘技术-获取用户兴趣的方式 用户兴趣挖掘技术-1 实现 用户提供自己的研究方向和其他阅读爱好等信息,系统从这些信息中发现用户的兴趣。 从事的专业、研究兴趣和研究方向 参加的项目以及用一两句话描述这些项目 除了自己的专业外经常阅读哪些专业和研究方向的资料 用户输入答案后,系统进行目标标识,对其进行聚类。不同问题的答案形成不同的类,表达用户的各种兴趣。 根据用户兴趣推送页面或进行信息过滤时,从而有效避免将各种不同兴趣表示成一个用户兴趣向量的缺陷。 用户兴趣挖掘技术-1 用户兴趣挖掘技术-2 实现-日志文件分析法 当用户在使用搜索引擎时,用户与Web服务器间交互过程信息都以日志文件的形式存在,而日志文件的格式是固定的,通过分析日志内容可以发现用户浏览的网页集和浏览这些页面的时间等信息。 日志文件在分析之间,需要进过数据清洗
文档评论(0)