网络作弊技术及抵制防范措施的研究.pdfVIP

网络作弊技术及抵制防范措施的研究.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第3l卷第1期 沧州师范学院学报 V01.31,No.1 of Normal Mar.2015 2015年3月 Journal CangzhouUniversity 网络作弊技术及抵制防范措施的研究 胡新海 (陇南师范高等专科学校数信学院,甘肃成县742500) 摘要:在信息时代作弊技术被用来诱导搜索引擎以获得不公正的、位置靠前的网页排名。借助较高检 索频率谋取利益.通过内容作弊、链接作弊等作弊技术达到提高页面检索频率的目的,同时使用内容隐 藏、掩饰技术等隐藏技术使用户不易发现.为了抵制与防范垃圾信息对获得重要信息的消极影响,可采 用指向页面的锚文本、页面描述算法、信任排名技术等措施反制作弊技术. 关键词:网络作弊;隐藏技术;抵制与防范 中图分类号:TP391.1 文献标识码:A 文章编号:2095.2910(2015)01.0069.05 在信息时代,Web搜索变得越来越重要.当网络用户浏览网页,在海量信息中寻找所需要的信息时,都是 借助搜索引擎获得帮助.搜索引擎可以根据用户的需求,从网上找到与之相关的信息反馈给用户,一般情况 下反馈的信息是超链接形式的多个索引的网页,然后用户通过打开索引进一步浏览信息,进而获得有价值的 信息.在搜索中,超链接的网页的排名或许是一个最重要的标志.在网络上这种排名,会影响信息被检索的频 次.排名靠前的信息容易受到关注,能够导致与这些信息有关的团体或个人的知名度及经济收人不断提高. 如果一个用户需要的信息在一个页面中有,但是这个信息所在页面的索引排名非常低,那么用户可能就不会 注意并看到这个页面,因为用户很少会查看足够多的返回页面.这对于商业机构、团体机构甚至个人都是不 能接受的.所以,这就很容易理解为什么要了解搜索引擎的排名算法,以及在页面中安排重要信息,使得在搜 网页本身的实际价值,使得网页获得不公正的查询相关性和重要性的行为就是作弊,这样的网页被称为作弊 网页(Spampage). 实际上,分辨作弊网页和非作弊网页是很困难的.我们很难定义什么是合理的、什么是不合理的提高网 页排名和重要性的手段. 假设有一个用户查询,查询时通过计算网页上的每一个页面的信息价值,然后根据每个页面信息价值进 行排序反馈给用户.作弊技术是指不增加一个网页的信息价值,而通过误导搜索引擎提高网页排名的手段. 由于搜索引擎的算法并不了解每个页面的内容,而是使用语法结构和外部特点来评估每个页面的信息价值, 作弊技术就可以利用这个弱点提高网页的排名. 用户非常讨厌作弊技术,因为它让用户很难找到真正有用的信息,还能造成搜索失败.同样,搜索引擎也 很讨厌它们,因为垃圾网页耗费网络带宽,造成网络垃圾,混乱搜索排名. 1 作弊技术 搜索算法同时考虑网页的质量因素和网页的声誉因素,通过利用两种因素,出现一些利用这些因素的作 弊技术[2I. 1.1 内容作弊 大部分搜索引擎都是使用基于TF.IDF的变异方法作为评估网页与用户查询的相关值的算法.基于内容 收稿日期:2014—09.26 基金项目:陇南师范高等专科学校校级科研项目“基于决策树的微博垃圾评论检测研究”,编号:No.2014LSZK02006. 作者简介:胡新海(19r77.),男,甘肃西和人,陇南师范高等专科学校数信学院讲师,工学硕士,研究方向:数据挖掘与云计算 ·69· 万方数据 Spamming)被称为词组作弊(TermSpamming).词组作弊可以出现在任何文本域中. (1)标题(Title).由于标题对于页面的重要性,搜索引擎通常给在标题中的词更高的权值,所以作弊技术 通常在标题域中被使用. 类等等.但是,现在对元标记很难使用作弊技术,因为搜索引擎现在给予出现在这些信息中的词很低的权值, 基本上忽略了这些内容. (3)正文(Body).垃圾可以放在正文中,使得页面的排名提高. (4)锚文本

文档评论(0)

搬运工 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档