- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
互联网搜索引擎排名和设计
互联网搜索引擎排名和设计
[摘 要]随着互联网的高速发展和普及,人们越来越依赖于互联网共享信息和获取信息。同时,网络上的海量信息是我们巨大而宝贵的资源,但是,这些信息格式和内容纷杂多变,又充斥着大量虚假和垃圾信息,搜索引擎技术是高效且方便地利用这些资源的有效手段。本文建立了搜索引擎性能评价模型,并依据实测数据求得主流搜索引擎性能排名;并基于开源的Nutch搜索引擎,应用PageRank算法,搭建了个性化的新闻搜索引擎,并对该搜索引擎进行了合理的测评和推广。本文建立的模型具有较强的适用性和普遍性,对于搜索引擎的评价、个性化搜索引擎的发展及推广有一定的参考价值。
[关键词]层次分析法 熵值法 个性化搜索引擎 PageRank算法 Nutch
中图分类号:TP391.3 文献标识码:A 文章编号:1009-914X(2014)40-0147-01
1.引言
随着互联网的高速发展和普及,人们越来越依赖于互联网共享信息和获取信息。常见的搜索引擎有百度、谷歌、雅虎等,对这些搜索引擎进行排名,可以给用户选择搜索引擎提供一定的参考。并且,本文设计了一个个性化搜索引擎,以满足用户个性化搜索需求。
2.搜索引擎性能综合评价算法
2.1 搜索引擎性能评价指标
互联网搜索引擎性能评价指标可以分为4项:索引库、检索功能、检索效果、亲和度[1]。
搜索引擎索引库的评价包括索引标引数量、标引的文件种类、标引深度和更新频率等方面内容。由于索引标引数量难以检测,它可以通过查全率来间接反映,故在索引库的评价指标中不予考虑。标引的文件种类是指 FT P 文件、WWW 文件、Newsgroup文件、Usenet等文件的标引,每增加一项文件加1分,取值为 1~4,标引深度及更新频率的取值为1~5。
搜索引擎检索效果指标由查全率、查准率和检索时间三部分组成。但在Internet网上信息瞬息万变, 今天存在的信息, 明天可能就消失了, 同时又将不断出现更多的新信息。继续采用传统意义上的查全率和查准率将无法进行合理的计算。建立相对查全率与相对查准率指标来衡量检索效果。
3.个性化搜索引擎设计
3.1 基于用户偏好及PageRank算法的新闻搜索引擎模型
本模型利用开源搜索引擎的Nutch,在win7+cygwin+Nutch-1.2+tomcat+jdk的架构上,充分考虑用户的兴趣需求,并在此基础上考虑用户感兴趣方面的信息的准确性、全面性、以及搜索加载时的响应时间,设计出一个只关注用户兴趣的垂直搜索引擎,专门检索新闻方面的信息。Nutch搜索引擎的排序算法中只考虑网页链接数目,并不考虑源网页分数,因此,不能很好地反应网页重要性。PageRank 采用离线计算,对象是所有已抓取的网页,能够很好地反应出已有页面间的相对重要性。把离线计算的PageRank 因子与在线计算的OPIC 因子相乘作为新的网页重要性因子,并加入到Nutch 网页评分公式中,以利于发现权威性网页并提高它们的得分,从而改变网页排序的方式,优化搜索引擎的呈现结果。
(1)新闻搜索引擎评价指标的建立
新闻搜索引擎属于专业化的垂直搜索引擎,故其评价指标不同于问题一所分析的综合搜索引擎。首先关注用户兴趣度的特征值,用前三项信息是否很好的吻合用户的兴趣为标注,取值为0-3。其次关注查准率,即搜索引擎给出的前30条信息的准确度。最后关注响应时间,即搜索引擎加载完搜索信息所需的响应时间。
(2)搭建新闻搜索引擎的配置环境
通过研究学习开源搜索引擎Nutch,搭建出互联网新闻搜索引擎[3]。利用Nutch搭建的搜索引擎的工作流程
配置开发环境,在win7操作系统下,下载安装JDK,Tomcat、Cygwin虚拟机等,并配置好它们的系统变量。其中JDK是Java语言的软件开发工具包,Cygwin是一个在windows平台上运行的unix模拟环境,Tomcat是一个免费开源的web应用服务器,而Nutch是一个开源的Java实现的搜索引擎,有爬虫程序(crawler)和查询程序(searcher)。最后,配置好Nutch的系统变量。
3.2 改进后的新闻搜索引擎模型
因为PageRank 算法并不区分链入某网页的所有网页是否与该网页同在一个站点。而同一个站点内的链接多数是为了站点导航目的而设计,带有站点设计者的主观色彩,所以PageRank 算法不能客观地体现对链接内容的认可和赞成。另外,一些网页会利用站内其他网页毫无意义的链接进行作弊,以提高网页的搜索排名。因此,对于网页权威性衡量,采用如下 PageRank 改进式 [5]:
(3.4)
其中,为链入网页的所有网页中与不在同一站点的网页集;为
原创力文档


文档评论(0)