- 1、本文档共18页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
PAGE 17
搜索引擎与页面排名
摘要
当今互联网发展迅速,作为搜索引擎的建设者,如何对数以亿记的相关网页进行排序成为搜索引擎算法的核心问题。本文通过考察PageRank算法和收集10个实际页面的相关数据,运用PageRank幂法探、迭代递归计算和主成分分析法建立数学模型并利用MATLAB编程求解来究搜索引擎和页面排名。
针对问题1,利用网页的入链数量和网页质量因素来进行链接分析计算,两者相结合得到PageRank值的计算公式:
由计算机随机产生10个页面数据,算法刚开始赋予每个网页相同的重要性得分,通过迭代递归计算来更新每个页面节点的PageRank得分,从而根据得分对页面进行排名.
针对问题2,我们从网页的”域名、密度、内链、外链、相关度、服务器稳定、域名时间、内容数量”这几个方面进行分析,利用站长工具收集了10个”小游戏”网站的相关数据,从实例入手,对各个网页所??集到的相关数据进行主成分分析,从而得到”网站的域名等级、内链数目、外链数目以及相关性对网页的综合排名具有较大影响; 而网页密度、服务器稳定性以及内容数量对于评分也具有一定比重”的结论.
利用主成分分析所得到的综合评价模型
对10个网站进行重新排名,并将综合评价排名与所选取网站的google排名进行对比,得到了令人满意的结果.
针对问题3,基于问题二得出的结论,该搜索引擎对搜索网页进行排序的侧重点在于网页内链,域名等级,相关度,内容数量,网页稳定这些方面上,因此作为一个新网站的建设者,我们会从搜索引擎的侧重点出发,采用SEO技术即网站优化技术对网站进行优化,提高网站在搜索引擎中的排名.
关键字:PageRank幂法计算 迭代递归计算 主成分分析法 MATLAB SEO技术一、问题重述与分析
1.1问题重述
世界最受欢迎的网站恐怕以各大搜索引擎为首,以Google为例,日访问量在5亿次以上.一个搜索引擎的算法,要考虑很多的方面.主要是“域名、密度、内链、外链、相关度、服务器稳定、内容更新、域名时间、内容数量”这些方面.不同的搜索引擎侧重点也不同,比如Google,它对收录的网站有一个重要性排名的指数,被称为PageRank,作为对搜索网页排序的重要参数.
请就搜索引擎与网页排名(PageRank)考虑如下问题:
问题1:考察Google的PageRank算法,建立数学模型,给出你认为合理的PageRank的计算方法;
问题2:如果你是搜索引擎的建设者,请考虑你会侧重考虑搜索网页的哪些方面,给出你对搜索网页进行排序的方法;
问题3:如果你是某新网站的建设者,请考虑使你的网站在第2题中你建立的搜索引擎中排名靠前的方法.
(注:PageRank算法的具体内容可通过百度得到)
1.2问题分析
如何在茫茫互联网中找到用户所关心的网页,是各个搜索引擎的主要职能,假如你是搜索引擎的建设者,找到与用户输入的关键词大概匹配的网页并非难事,但这些网页的数目可能数以亿计,而一般用户只会有耐心浏览前五页大约五十个结果,所以如何对数以亿记的相关网页进行排序成为搜索引擎算法的核心问题.
针对问题1,根据问题要求,考察Google的PageRank算法,建立数学模型.利用网页的入链数量和网页质量因素来进行链接分析计算,两者相结合获得了更好的网页重要性评价标准.PageRank算法刚开始赋予每个网页相同的重要性得分,通过迭代递归计算来更新每个页面节点的PageRank得分,直到得分稳定为止,从而根据得分对页面进行排名.
针对问题2,一个搜索引擎的算法主要考虑”域名、密度、内链、外链、相关度、服务器稳定、内容更新、域名时间、内容数量”这九个方面.作为引擎建设者,我们将从网页的这九个方面入手,以网页的综合排名作为判定依据对网页的排序问题进行分析,利用主成分回归分析提取出其中最为主要的几个部分.为此,我们查询了10个相同类型的”小游戏”网站对于如上方面的记录,以通过实例对网页排序方法进行剖析(资料来源).(注:由于未能够找到各个网页对于”内容更新”方面的历史数据,故在此先不予考虑)
针对问题3,作为一个新网站的建设者,对于所建立的新网站而言,由于网站尚未成熟且知名度较其余老网站而言较低,因此要使得网站在搜索引擎中排名靠前,要遵从搜索引擎的工作模式,就要优先考虑搜索引擎在排序上的侧重点,根据其侧重点对网站进行优化,提高网站在搜索引擎中的权重。另外在网站成功位于搜索引擎排名前端时,还需考虑其他几个方面进行网站优化,使得网站在搜索引擎中的排名得以稳定。
二、问题假设
问题1模型假设:
(1)假设如果一个页面节点接收到的其他网页指向的入链数量越多,那么这个页面越重要.
(2)假设指向页面A的入链质量不同,质量高的页面会通过链接向其他页面传递更多的权重.所以越是质量高的页面指向页面A,则页
您可能关注的文档
- 运营管理-复习解决方案.doc
- 运营计划书解决方案.doc
- 十五章第二节《电流和电路》教程.ppt
- 运营与生产管理解决方案.doc
- 水上抛石护坡施工方案解决方案.doc
- 运营中心职责说明书解决方案.doc
- 运用QC方法提高混凝土外观质量解决方案.doc
- 运用SPSS影响经济发展因素解决方案.doc
- 水塔水位的PLC控制解决方案.doc
- 水体环境风险防控措施-西排洪沟改造-增加排污管线施工方案解决方案.doc
- springbooot+vue基于java的房屋维修系统毕业论文.doc
- 中国消防救援学院《单片机系统实验》2023-2024学年第一学期期末试卷.doc
- 2025年溧阳纺织化学品项目申请.pptx
- 景区门票包销合同模板(3篇).docx
- 【股票技术指标学习指南】第七章第三节货币需要量的测算.doc
- 2025春 _ 人教版七年级英语下册【unit4】看音标写单词.doc
- 2025春 _ 人教版七年级英语下册【unit5】看音标写单词.doc
- 2025春 _ 人教版七年级英语下册【unit6】看音标写单词.doc
- 2025春 _ 人教版七年级英语下册【unit7】看音标写单词.doc
- 2025春 _ 人教版七年级英语下册【unit8】看音标写单词.doc
文档评论(0)