- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于用户行为分析的搜索引擎模型.pdf
第l6卷第3期 北 方 工 业 大学 学 报 V01.16 No.3
2004年9月 J.NORTH CHINA UNIV.OF TECH. Sept.2004
基于用户行为分析的搜索引擎模型
卢效峰 郑 权2
(1)北方工业大学计算中心,100041,北京,2)北方工业大学理学院,100041,北京)
摘 要 介绍了目前搜索引擎技术发展的进展和研究热点.给出一种从用户点击的反馈信
息中提取用户智能的搜索引擎算法.此算法首先给页面设置不同的内容相关度,再实测网页在
不同内容相关度下的用户点击率,根据这组相关度和相应的用户点击率数据,可以由差商法或
拟合直线法求得最佳的网页内容相关度,这样就可求出最终的索引相关度.实验表明该算法对
提高搜索的稳定性和搜索精度有明显作用.
关键词 万维网;搜索引擎;Web信息;用户行为
分类号 TP391:TP393.4
随着Intemet技术的发展,Intemet的应用不 寻找他们需要的信息 J.目前搜索引擎已经发
断深入,社会的信息化程度也不断提高,Intemet 展到第3代 2.现有的搜索引擎主要由4部分
已经成为我们学习和工作的重要工具.据研究, 组成:搜索器,索引器,检索器,用户接口.搜索
现今的网页数目已经超过了42亿,并以不到半 器从互联网上自动收集网页;索引器对收集到
年翻一倍的速度增长…1.web信息资源正以“爆 的网页进行分析,根据网页中关键词的相关信
炸”的方式快速增长,因此有效地为广大 息进行相关度计算,然后建立网页索引数据库.
Intemet用户发现有价值的网络资源,已成为人 当用户输入关键词后,检索程序根据关键词在
们的一个研究热点.为了帮助用户在这浩如烟 索引数据库中找到相关网页,按相关度排序输
海的信息世界中找到自己想要的信息,各种 出.实际中,各个搜索引擎在实现时根据不同的
W 导航系统应运而生. 需要又有不同的设计.
现提供W唧 导航服务的系统主要有两大 由于l_ntemet上网页数目巨大,在第3代搜
类.一类是目录系统.它是通过具有专业知识的 索引擎的使用过程中,每次搜索返回的结果数
人员对网上的网页进行精选,以建立一个索引 量巨大,则搜索结果的排序变得尤为重要,因此
目录,来为用户提供导航服务.这类系统的优点 检索结果相关度评价成为研究的焦点.检索结
是所提供的网页准确率高,但覆盖范围小,其典 果相关度评价的研究又可以分为两类:一类是
型代表是 Yahoo.第二类导航服务是搜索引擎 对超文本链接的分析,在这方面美国Stanford
系统,它通过搜索程序自动地从网上搜集网页, 大学的Goosl~系统和IBM开发的Clever系统分
通过分析网页建立索引,其典型代表是 别建立了不同模型;另一类是对用户信息反馈
AltaVista.这类系统的优点是涵盖的网页数量巨 的研究,Direct Hit系统采用的就是这种方法.
大,但搜索的准确率相对较低 2. Direct Hit[3 J技术能够跟踪用户对检索结果
据统计,大约85%的用户使用搜索引擎去 的后继行为,来获取大量的有用信息,以便提高
收稿日期:2000一ll—lO
第一作者简介:卢效峰,硕士研究生.主要研究方向:计算机网络技术、信息安全
14
文档评论(0)