网站大量收购独家精品文档,联系QQ:2885784924

基于信息类别的网页过滤算法研究.pdf

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第二十届伞国计算机信息管理学术研讨会 基于信息类别的网页过滤算法 ,J缶沂师范学院信息学院吕月娥李信利 (临沂师范学院信息学院,山东,276000) 【摘要】随着web技术的发展,Web网页越来越多。目前的搜索引擎都是根据用户所给出查询词串 的逻辑组合机械地找出一系列匹配网页,这就造成了垃圾信息过多。这篇论文考虑了网页信息类别、 网页更新时间和用户点击数,提出了一种基于信息类别的网页过滤算法。这个算法能很好大优化查 询结果,提高搜索引擎的性能。 【关键词】 网页过滤算法,网页信息类别,网页更新时间,网页点击率 1引言 Web 互联网的规模一直在高速增长,1994年,最早的搜索引擎WorldWideWorm标引了n万网 页,到2000年,当时的搜索引擎所标引的网页已达10亿,如今可标引的网页已超过100亿,而且 仍然以每天超过lO万的速度在增长。但目前的网络服务例如搜索引擎等远没有达到用户的要求,旱 现在用户面前的Intemet更像是信息的堆砌,用户很难找到所需要的信息。对下网上海量信息的检索, 人们更看重的是准确性,希望将他们最关心的网页排在前面。 目前,搜索引擎对用户查询的返回结果一般都是按某种算法进行排序,一般采用的技术是基丁 内容相关度的分析和基于链接分析。由于它只考虑网页的具体内容和网页的超链接信息,并没有考 虑网页的客户应用信息,因此这种网页排序方法并不全面,它会使得用户并不关心的一些网页排在 前面,而真止满足用户需要的网页排到了后面。据统计,8l%的用户只会浏览搜索结果的前3页(约 30项),这就使得用户无法得到想要的网页。本文对网页排序进行了进一步研究,通过对网页类型、 网页更新时间等网页性质进行分析,提出了一直更加全面的页面排序算法。 2相关概念 链接的次数,即一个网页的重要程度取决于其它网页(或网站)对它的评价,因此不能满足每个查 询者个人对查询主题的具体要求,对网上广告等链接信息也不能轻易予以剔除。 网页排序应该考虑web数据挖掘所得到的全面信息,主要包括内容信息、结构信息、应用信息。 网页内容信息主要是指网页文本的类型和网页相关性。网页结构信息是指网络的拓扑信息,即网页 之间的链接信息。传统的网页排序只考虑了以上2种因素,即只考虑网页的具体内容和网页的超链 接信息,并没有考虑网页的客户应用信息。这就使得大量的广告网页和陈旧网页在排序时排名非常 靠前,影响了用户的需求。因此,网页排序还应当考虑网页更新时间和用户行为。 本文的研究是用信息类别、网页更新时间、网页点击率对检索得到的结果进行过滤。 2.1网页更新时间 网页更新时间即为网页上次更新的时间。网页年龄(pageage)T=t。一f,其中to为当前时间,t 吕月娥,E-reall:lye—iv@126.COIIl;李信利,E-mail:sduman@126.corn 390 第二十届全国计算机信息管理学术研讨会 在前面。用户不关心那些长时间没有更新的网页,所以这些网页应该排在后面。在排序算法中引入 网页年龄,就会过滤掉那些长时间没有更新的陈旧网页。 2.2网页点击率 客户行为的内容复杂,其中最有效的数据就是点击流。这里将用户点击信息作为主要的数据来 标识用户行为。定义网页点击率为一个网页的被点击次数和网页年龄之比。点击率高的网页往往是 因为受到用户的偏爱,被认为质量较高,点击率低的网页我们认为质量较低,在排序时应该排在后 面。在网页排序算法中考虑网页点击率,就会过滤掉那些不为用户关心的网页,比如广告网页。我 们计算每个网页的点击率opt=clicks/r,这里clicks为网页点击次数,T为网页年龄。 2.3网页类型 仅仅考虑网页更新时间和网页的网页点击率是不够的。不同的网页类型(信息类别)对更新时 间的要求不同,如新闻、商业类信息等对更新时间的要求较高,而计算机知识、学术论文等文本类 型对更新时间的要求就稍低一些。同样,网页点击率也和网页类型相关,比如介绍计算机知识的网 页,其点击率一般比新闻类网页点击率低。因此,我们在把网页更新时间和网页点击率作为网页排 序引子的时候,必须考虑网页类型的影响。 基于信息类别的网页过

文档评论(0)

精品课件 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档