web spam检测技术研究.pdf

下载文档 降价啦

6
0
约9.35万字
约 73页
2017-09-16 发布于安徽
举报
版权申诉
保障服务

web spam检测技术研究.pdf

1、本文档共73页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

优秀硕士毕业论文，本科毕业设计。完美PDF格式，支持复制编辑~~~

签名：魏小娟导师签名：李翠平日期： 2010 年 5 月 10 日摘要 Web Spam 是指通过内容作弊和网页间链接作弊来欺骗搜索引擎，从而提高自身的搜索排名的作弊网页。由于Web Spam 的存在干扰了搜索结果的准确性和相关性，因此识别 Web Spam 对保证良好的搜索质量非常重要。目前的 Web Spam 检测算法大多分别检测网页内容作弊（Content-based Spam）和网页链接作弊（Link-based Spam ）。对网页内容作弊的检测算法是通过统计网页内容以及页面结构特征，识别出不符合正常特征分布的网页。这类算法对于特定类型的 Web Spam 有效，但其缺点是特征选取有局限性，没有考虑网页间的关联属性，且一旦算法公布，Web Spammer 即可采取新的作弊手段代替，检测方法就会失效，因而方法的时效性短；基于链接作弊的 Web Spam 针对目前商业搜索引擎常用的基于链接关系的排序算法（如 PageRank ，HITS 算法等等），刻意增加与其它网页的链接或创建紧密结合的链接集团来提高自身在互联网链接图中的重要度和权威性，从而提升链接得分，达到提升搜索排名的目的。这类 Web Spam 的检测算法通常先识别或标注部分权威网页，并基于标注信息，在网络图（Web Graph ）利用链接关系计算并传播网页的权威值和信用度，惩罚 Web Spam ，降低其搜索排名，来保证公平良好的搜索结果质量，代表性算法有 Hilltop 、TrustRank、SpamRank 等算法。这类算法的弊端在于：首先，没有利用 Web Spam 的独立特征值，需要大量的网页数据间的链接结构参与训练学习；其次，度量的独立性差，不能单独判断一个网页；最后，算法时间耗费大，往往需要整个网络多次迭代训练收敛才能得到Web Spam 候选集。针对现有算法存在的弊端，本文提出了两种新颖的 Web Spam 检测方法。考虑到 Web Spam 并不是只采用唯一的作弊方式，它们既增添了很多不必要的内容，又添加很多不相关的链接，以骗取高的搜索排序得分。针对上述情况，本文提出了 Co-Training Spam Classifier （简称CTSC ）检测算法。它使用 SVM 模型，对 Web Spam 作弊的两类独立特征- 内容作弊和链接作弊分别建立分类器，然后使用 Co-Training 半监督式学习算法，利用大量未标记数据来改善分类器质量。这样做既实现了对数据特征的最大提取，又有效地解决了样本标记代价昂贵的问题。在这个算法基础上，本文还进一步提出了两个改进算法。 1 另外一种检测方法是基于嫌疑主题的 Web Spam 检测方法——Spammy Topic Identification （简称STI ）算法。它从Web Spammer 作弊动机而不是具体的作弊技术出发来设计检测算法。因此，即使算法公布，Web Spammer 也不能采取相应的反制措施。因为 Web Spammer 作弊的动机是不会变的。由于 Web Spammer 作弊的动机主要是为了向自己网站导入流量，吸引更多的用户进行交易，点击广告等等。因此，任何能够让一个站点快速获利的行业都是 Web Spam 网站主题的目标。基于这个思想，STI 算法首先从已知的 Web Spam 站点的主题分布中挖掘信息，得出一个