- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
                        查看更多
                        
                    
                
PAGE  
PAGE  1
【E题】『网页排序问题』
                     
指导教师: 
参赛队员: 
通信与信息工程学院
2010
网页排序问题
摘要
随着互联网的发展,搜索引擎的重要性与日俱增。如何有效的查找需要的信息是非常关键的,一个好的搜索引擎可以极大的节省用户查找信息的时间。搜索引擎包含多个组成部分,其中网页排序是搜索引擎设计的核心问题,排序结果的准确率直接决定了搜索引擎的性能和用户体验。信息检索领域中有许多的网页排序算法。而PageRank技术在著名的Google搜索引擎中被成功的应用。使得Google的搜索精度大大超过了以前的搜索引擎。但是这种算法只考虑网页的具体内容和网页的超链接信息,并没有考虑网页的客户应用信息,因此这种网页排序方法并不全面。它会使得用户并不关心的一些网页排在前面,而真正满足用户需要的网页排到了后面。
本文对PageRank排序算法做了进一步研究,通过对网页类型、网页更新时间等网页性质进行分析,提出了一种更加全面的网页排序算法。我们对这3个关键因素分别建立了:网页更新时间与网页类型的函数关系TP、网页点击率与网页类型的函数关系CP。再结合文档相关度Sim、网页质量Q,最终得到一个可以对网页重要性进行定量说明的网页得分模型:。根据分数的高低进行排序,从而建立了一个新的网页排序规则。
最后对所建立的网页排序规则进行验证。我们利用模糊综合评价模型,从宏观角度进行了验证。同时,也利用实验抽样的方法,从微观角度进行了验证。最终得出结论:改进后的网页排序算法是合理的,并且优于现在流行的pagerank排序算法(Google)。
关键词:搜索引擎   网页排序   pagerank算法  模糊综合评价  蚁群算法
1.问题重述 
当我们利用搜索引擎,如google、百度等按关键字搜索时,往往希望我们感兴趣的网页靠前排序。实际中你可能也注意到所搜索到的结果是进行了排序的。现在请你们建立数学模型解决下面的问题:
1、试设计一种你们认为合理的排序规则,使搜索到的网页结果排序满足要求;
2、选取若干个网页为例,试用你们的规则进行一次排序,并说明规则的合理性。
2.基本假设
(1) 网页的点击是正常的,不存在为了某种利益,进行人为恶意的点击;
(2) 如果网页排序相差不大的,那么我们认为此类网页的重要程度基本相同;
(3) 网页的更新时时间是以天为单位;
(4) 网页都能准确地进行分类,即每个网页都有它唯一对应的类别;
3.主要符号说明
:某网页的权值(重要性);
:某网页的综合得分;
:第个网页的点击率;
:某网页的更新时间函数;
:某网页的点击率函数;
4.问题分析
当今是一个信息时代,信息的数量呈指数级增长,记载着人们需要的信息和知识的已经不仅仅是传统的书籍和报刊,个人电脑、数字通信设备、网络都储存着大量的信息。众所周知。互联网的规模一直在高速增长 , 1 9 9 4 年最早的搜索引擎 World Wide Web Worm标引了11万网页, 如今可标引的网页已超过 100亿。
搜索引擎在网络中的作用越来越重要。人们通过搜索引擎在海量的互联网信息中查找自己所需的信息。互联网上的信息包罗万象,几乎包含了整个人类发展历史中所积累的全部知识,并且还在以每天超过100万张网页的速度增长。如何在此巨大的信息海洋中快速检索到自己想要的信息成为人们最关注的问题。而这个问题的关键又在于搜索引擎,搜索引擎原理如图一。
用户
用户
互联网
查询
网页列表
排序模型
索引数据库
网络蜘蛛
网页数据库
图一  搜索引擎原理图
1998年,斯坦福大学的Sergey Brin和Lawrence Page提出了PageRank算法,并以此为核心开发出的搜索引擎google在商业应用中获得极大成功。由于人们都希望通过搜索引擎尽快找到自己真正所需的信息,作为搜索引擎的核心部分,对所搜索网页的排名算法的优劣自然成为评价一个搜索引擎好坏的主要指标。PageRank算法作为著名搜索引擎google的核心算法而备受瞩目,但仍有自己的优缺点,因此我们对其缺点进行改进,得出更加合理的排序算法。
5.模型建立与求解
5.1问题1
5.1.1(模型一)PageRank算法
PageRank算法的主要设计理念是每一个到该网页的链接就是对此网页的一次投票,被链接得越多,就说明有越多的网页愿意将它们自己与此网页挂钩,即链接流行度越高。链接流行度越高,此网页的权值就越大,排名也会更靠前。PageRank算法通过分析此网页被链接的数量和接入网页的质量来确定网页本身最终的权值。
PageRank算法模拟用户随机浏览的过程,即当用户浏览网时,其跳转到一个随机页面上的概率是d,即其沿着一个(当前页的)随机链接迁移的概率为1-d。假定这个用户不会回退浏
                您可能关注的文档
最近下载
- 大班社会《危险游戏我不玩》.pptx VIP
- 2025年山西运城事业单位考试笔试试题(含答案).pdf
- 城市轨道交通运营设备维修与更新技术规范第5部分:通信.pdf VIP
- 医院感染暴发事件应急处理.pptx VIP
- 《食品营养学》 课件 第四章 各类食物的营养特点.pdf
- 基于BIM的建设工程文件归档管理系统.pdf VIP
- 护理学(专升本)模考试题(含参考答案).docx VIP
- 员工离职申请表(模版)(标准版).doc VIP
- 实验五___DPS统计分析操作.pptx VIP
- 《Unit 3 Lesson 3 Letters all around》(说课稿)-2024-2025学年冀教版(三起)(2024)英语三年级上册.docx VIP
 原创力文档
原创力文档 
                        

文档评论(0)