搜索引擎垃圾页面检测技术申报表.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
项目编号: 衡阳师范学院大学生课外学术 科技创新基金项目申报表 项目名称:搜索引擎垃圾页面检测技术研究 申 请 者: 系院)专业: 计算机科学与技术非师范) 联系电话: 申请日期: 项目类别: □自然科学类学术论文 □哲学社会科学类社会调查报告和学术论文 □科技发明制作 共青团衡阳师范学院委员会制 二○一三年三月一、项目基本情况 项目名称 搜索引擎垃圾页面检测技术研究 项目类别 科技发明 研究期限 1年 申请经费 300元 项目负责人姓名 专业 计算机科学与技术 所属系院) 计算机科学系 主要合作人员 姓 名 系院)及专业 指导老师 姓 名 工作单位及称谓 项 目 简 介 ?搜索引擎是现代人类在互联网上获取信息必不可少的手段。因为在主流搜索引擎上获得较高的排名可以引起更多人的注意,从而带来巨大的利益。因此很多网站,特别是内容提供商,千方百计试图通过非法的手段欺诈搜索引擎, 从而提高自己的排名。这类欺诈网站或页面被称为垃圾页面。垃圾页面的存在给搜索引擎用户带来巨大麻烦, 用户不得不搜索结果中人工寻找有用的信息。因此,如果一个搜索引擎对垃圾页面处理不好,它的用户满意度将会迅速降低。垃圾页面检测技术被认为是现代搜索引擎所面临的最的挑战之一。本文详细描述了搜索引擎垃圾页面的各种情况,讨论了搜索引擎垃圾页面的各种技术,也介绍了国外的一些研究动态以及解决问题的方法,在实际应用中及时准确地检测并清理搜索引擎垃圾页面仍然是个挑战,正如文中所强调的,只有准确地掌握了搜索引擎垃圾页面的各种技术特征,才能根据不同的特征有针对性的设计检测算法,把搜索引擎垃圾页面的检测看成一个分类问题,并使用决策树和支持向量机模型进行检测,根据搜索引擎垃圾页面的链接结构设计出图算法检测链接工厂。我们将结合先进的计算机科学与技术学习, 链接分析, 页面内容分析等手段,提高垃圾页面检测的准确率, 确保用户搜索到满意的结果,提高用户的满意率。 二、立论依据项目的意义、现状分析、参考文献等) 1.项目背景 百度自称是目前全球最大的中文搜索引擎,每天的搜索人次超过1亿。在其官方网站,竞价排名被称为一种按效果付费的网络推广方式,用少量的钱就可以提升企业的销售额和品牌知名度。然而百度竞价排名被指过多地人工干涉搜索结果,被指为“勒索营销”,引发公众质疑,并引来谷歌等搜索巨头的“围攻”。2008年15、16日,央视《新闻30分》连续两天报道百度的竞价排名黑幕,百度竞价排名被指过多地人工干涉搜索结果,引发垃圾信息,涉及恶意屏蔽,被指为“勒索营销”,并引发了公众对其信息公平性与商业道德的质疑。这是继“三鹿门”之后再次将第一大中文搜索引擎推向风口浪尖。 2.项目的意义 索引擎与传统媒体的赢利模式一样,以人气、用户的数量和质量为最终衡量手段,因此增加用户信赖度仍然是搜索引擎保持旺盛生命力的最重要前提。但是,因为搜索结果中掺杂了太多的利益因素而影响普通用户搜寻合适信息。本项目通过搜索引擎垃圾页面检测技术来实现信息资源共享的目标,为网络服务带来合理的商业利益,同时又能最大程度地保护信息提供者的合法权益。从而促进网络搜索业健康持续发展。 3.现状分析 如何在海量的信息中查找用户需要的信息,已成为这个时代的一个重要课题。在这种情况下, 互联网搜索引擎因应而生,并且不断发展壮大, 形成了一个新兴产业。随着互联网各种页面数量爆炸式增长,用户使用搜索引擎查找信息已经成为了最近几年信息检索的主要方式.大多数网站管理者都希望他们的网站在搜索引擎的搜索结果中排名靠前,在同一查询下排名靠前的页面所在的站点会被更多的用户点击,很多的网站管理者会采取合理的搜索引擎优化技术(SEO,通过在页面中提供给用户更多、更有效的信息,以提升他们的网站在搜索引擎的搜索结果中的排名.而有些网站则通过一些不道德的方式来提升在搜索引擎的搜索结果中的排名.更有甚者,为了吸引访问量,手动或自动地制造一些页面,而这些页面没有提供给用户任何有效信息.这些页面是直接针对搜索引擎的,但是在搜索引擎的搜索结果中获得了很高的排名,当用户查询某些关键词的时候,就有可能访问这些搜索引擎垃圾页面。 搜索引擎检索结果的排序会对相关的网站产生直接的影响,从而获得更多的经济效益。因此, 为了使自己的网站在搜索引擎的检索结果中排名靠前,一些网站的所有者会采用各种各样的手段来提高自己的排名,于是产生了专门为其他网站提供提高网站排名服务的盈利组织—SEO(搜索引擎优化组织 。SEO采用的技术手段有些是合法有益的, 能够使对用户有用的信息排名靠前。 而有些技术则是利用一些非法手段来提高页面的排名, 这会造成大量垃圾信息。 作为搜索引擎目前主要赢利模式的竞价排名还是刚刚起步,其中仍然存在很多弊端,但是从目前来看,竞价排名仍然能够令

文档评论(0)

139****4073 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档