- 1、本文档共70页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
搜索引擎个性化查询服务研究 北京大学计算机科学技术系 冯是聪 Jun 2002 目 录 引言 相关研究 自动中文网页分类 用户访问模式 个性化查询服务 进度安排 演示 引 言 研究背景 问题的提出 技术路线 系统的体系结构 系统的数据源及特征 研究背景-1 WWW的发展 1989年3月 , 首次提出World Wide Web的概念 1990年9月,基于文本的第一个原型开始运行 1993年2月,WWW发展的高峰 1995年4月, 成为Internet上的第一大应用服务 1997年12月,网上大约有3亿2000万网页 2000年2月,不重复网页超过10亿 2002年6月,Google索引超过20亿网页 研究背景-2 国内WWW的发展 1994年,WWW开始登陆中国 2002年1月 ,上网计算机1,254万台,专线上网计算机数为234万台,拨号上网计算机数为1,020万台。WWW站点约277,100个。上网人数3,370万 “天网” 估计目前网页数已经超过5000万 WWW导航系统的分类 Spider式:数量大,准确性低 目录式:数量受限,准确性高 问题的提出 不能提供目录式导航服务。用户希望Spider式搜索引擎同时能够提供目录导航服务。 检索结果中无关或无用的网页过多。大约有一半的结果是无关的。80%用户仅对前2页的查询结果感兴趣。 没有考虑用户的特性。如果输入相同的查询条件,搜索引擎就会返回相同的结果。用户希望能够提供个性化服务。 技术路线 图 1 技术路线 三个方面的问题 网页自动分类 用户访问模式 个性化查询服务 系统的体系结构 图 2 系统的体系结构 系统提供的服务 目录式导航服务 重品级(Re-Ranking)及过滤(Filtering)服务。重品级:根据不同用户的访问模式,调整检索返回的URL的权重。使用户感兴趣的URL被排列在查询结果的顶端。 投递(Delivering)或推荐(Recommendation)服务 系统的数据源及特征 数据源 搜索引擎收集的网页 用户静态信息:用户注册信息 用户动态信息:用户访问日志和用户访问网页时的反馈信息等 特征 海量 动态性 不规则性 相关研究 搜索引擎 搜索引擎发展历史 搜索引擎分类 搜索引擎研究动态 自动文本分类 文档模型 训练集与测试集 分类算法 特征选取算法 阈值策略 分类器的性能评价 Web个性化 Web个性化系统的分类 创建基于Web的个性化服务系统的一般步骤 典型的Web个性化系统 搜索引擎 搜索引擎发展历史 搜索引擎分类 搜索引擎研究动态 搜索引擎发展历史 第0代搜索引擎 :1994年春天 Lycos: 100万网页 , 10秒以上 , “查全率” 第1代搜索引擎 :1996年 AltaVista,Inktomi: 5000万网页, 1000万次检索 第2代搜索引擎:1998年 Google,Inktomi:试图收集整个Web, “查准率” ,超文本链的分析 和用户反馈 第3代搜索引擎 :目前 搜索引擎分类 基于机器人(Robot)的搜索引擎 国外:Google 、AltaVista、Northern Light、Excite、Infoseek、Inktomi、FAST、Lycos等 国内:天网、百度、悠游等 目录式(Directory,或Catalog)搜索引擎 Yahoo!、AOL、Lycos、Google 元(Meta)搜索引擎 ByteSearch、Mamma、MetaCrawler、Profusion 搜索引擎研究动态 多媒体搜索引擎 Google图像搜索工具 , 个性化搜索引擎 Google、MSN开展了 这个方面的研究 智能化搜索引擎 Askjeeves和尤里卡 (/ ) 面向主题的搜索引擎 Focused Crawler 动态网页—“活的老鼠”不好抓 自动文本分类 文档模型 训练集与测试集 分类算法 特征选取算法 阈值策略 分类器的性能评价 文档模型 统计模型 向量空间模型(VSM,Vector Space Model):1969年Gerard Salton和McGill提出 Wij=tfij / dfj 潜在语义索引 (LSI ,Latent Semantic Indexing) 也用向量表示特征项,但是每一个向量代表一个“概念”。由Dumais, Furnas, Landaver和Harshman于1990年提出 概率模型 使用概率构架来表示特征项。由Belkin和Croft于1992年提出 训练集与测试集 TREC会议网站(/data.html
文档评论(0)