- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
优秀硕士毕业论文,完美PDF内部资料。支持编辑复制,你值得参考!!!
摘 要
随着信息技术尤其是互联网技术的发展,越来越的传统活动通过网络展开。
与此同时,各种各样的网络社区以及相应的在线声誉系统不断涌现,如搜索引
擎静态排名系统、电子商务交易用户评分系统等。这些系统对于各种网上活动
的顺利开展起着非常重要的作用。
作为万维网的信息入口,搜索引擎已经成为网民必不可少的网上冲浪工具。
学术界和工业界投入了大量人力、物力研究、开发与搜索相关的技术。作为搜
索引擎核心技术之一的静态排名算法受到了很多关注。基于链接结构的静态排
名算法PageRank、HITS,以及基于机器学习的静态排名算法RankNet、RankSVM
便是当中的佼佼者。
搜索引擎静态排名有很多用途[30]:首先,静态排名可以和动态排名结合起
来获得更好的排名结果。其次,静态排名可以被用于对搜索引擎倒排索引进行
剪枝。由于搜索引擎索引的网页数量相当庞大,因此其倒排索引中每个词对应
的文档信息列表非常长。搜索引擎可以按照静态排名对倒排索引中每个词对应
的文档信息列表排序,动态排名算法在计算查询结果时可以不必扫描整个列表
提前终止,提高了搜索引擎系统的效率。此外,随着网页数量的增加,搜索引
擎已经不可能不加选择的收录网页,它需要一种优先策略有选择地爬取数据。
静态排名就是制定优先策略的一个非常好的依据。
不幸的是,随着网络中各种噪声信息以及搜索作弊的泛滥,搜索引擎静态
排名的准确性受到了极大挑战。尤其是作为静态排名算法代表的PageRank,在
一些方面存在问题,需要进一步改进。其缺点主要包括以下两个方面:第一,
WEB 上不同网页由不同组织、个人维护,相应的内容、超链接具有不同程度的
可靠性(e.g. Gov 域、Edu 域的网页链接相对可靠)。“PageRank 算法对所有网
页同等对待,不加区别”的方法不妥。第二,从搜索排名作弊角度讲,WEB 上
不同网页具有不同的抗作弊能力,也就是说不同的网页被作弊者操纵的难易程
度不同(e.g. Web2.0 类型的网页抗作弊能力较差)。PageRank 算法也没有对此
进行特殊考虑。
然而,本文坚信超链接信息在网页排名中非常重要,必须作为重要的网页
4
排名依据予以考虑。尽管各种搜索引擎作弊降低了PageRank算法的排名准确度,
但其有效性在很长一段时间里得到了证明。此外,PageRank算法具有很坚实的
理论基础,相关的计算方法已经比较成熟。
与此同时,本文认同“基于机器学习算法依据多种指标对网页进行排名更
可靠,更难被作弊者操纵[27]”的看法。此外采用基于机器学习算法的排名方
法还容易引入新的排名特征改善排名准确度。
鉴于此,通过分析PageRank算法的不足、借鉴机器学习算法的优点,本文
提出了新的搜索引擎静态排名方法。该方法以PageRank相关理论、算法为基础,
按照“划分-融合” 的步骤,计算出了各种 WEB 子空间静态排名,并采用线性
方法和机器学习算法融合子空间静态排名以期获得更好的静态排名准确度。
本文的创新及贡献主要包括以下几个方面:
第一,明确地提出了“WEB空间划分” 的概念。虽然前人已有类似的划分
WEB空间的工作[17],但本文从不同角度划分WEB空间。更重要的是,本文对“WEB
空间划分”的形式化描述为提出新的WEB空间划分策略具有启发意义。
第二,将重要的算法思想“分而治之”用到了静态排名的研究当中,提出
了“静态排名划分-静态排名融合” 方法。使用该方法对WEB空间进行了划分,
并对相应的子空间静态排名实施了融合,改善了静态排名结果。
第三,将机器学习算法应用到了静态排名融合当中。基于机器学习的静态
排名算法通常把与网页相关的统计信息作为输入特征,通过训练获得排名模型,
此后应用排名模型预测网页的排名。本文以WEB子空间的静态排名作为RankSVM
的输入特征,通过训练获得静态排名融合模型,并使用此模型预测网页的排名。
第四,开发了一套完整的静态排名计算、评估系统——StaticRankFusion
(由本文作者设
文档评论(0)