网页去重技术与深度网络爬虫-汪圣莅解剖.ppt

网页去重技术与深度网络爬虫-汪圣莅解剖.ppt

  1. 1、本文档共24页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
1 网页去重技术与深度网络爬虫 汪圣莅 1110349145 网页去重技术 网页内容(content) Shingling SimHash 网页地址(URL) DUST 网页去重-Shingling算法 Shingle:文档的相邻词串 文档相似度: SimHash算法 Hash算法的特性 SimHash 输入:向量(文档特征集合) 输出:f位签名 DUST-Different URLs with Similar Text 分析和建立url规则 爬虫陷阱(Crawler Traps) 非恶意 日期链接 恶意 Spammers 在搜索页面中得到靠前的排名 垃圾网页(Web Spam) 提升在搜索引擎中的排名 对用户没有实际价值 垃圾网页的检测 目前主要为半人工方式 自动实现: 超链接特征 词组频率(term phrase frequency) HTML 结构 …… 隐藏网页(Cloaked Content) 某一个网页制作了两个版本,让搜索引擎和常规浏览者分别看到不同的网页内容 网页重定向(Redirection spam) 搜索引擎优化 (SEO) SEO(Search Engine Optimization),汉译为搜索引擎优化 网络营销方式,增加特定关键字的曝光率,进而增加销售的机会。 通过了解各类搜索引擎如何抓取互联网页面、如何进行索引以及如何确定其对某一特定关键词的搜索结果排名等技术,来对网页进行相关的优化 类型 黑帽SEO 白帽SEO 深度网络爬虫 许多网页内容需要填写表单(html form)后由数据库动态产生。这些网页被称为deep web。 深度网络爬虫(deep web crawler):自动填写表单以获取网页信息 深度网络爬虫的步骤 表单入口识别与分类 提取表单链接后的资源 表单入口识别与分类 表单类型分类 搜索型表单(SF)与非搜索型表单(NSF)的结构特征 表单域分类 表单究竟属于哪一个领域很大程度上取决于表单中的文本内容及属性标签 基于属性标签的分类 基于文本内容的分类 从 Deep Web 中提取信息 选择部分需要填充的表单元件。 确定表单元件的定义域,解构表单元件的填写规则。 创建初始的有效数据。 利用初始数据进行查询,返回结果并提取新的相关数据循环查询。 深度网页内容模型(Deep web content model) 深度网页内容模型(Deep web content model) 深度网页内容提取——关键字选择 随机策略 频率最高策略 自适应策略 受初始数据影响小 查询结果数量限制的影响小 未来存在的研究方向 垃圾网页的自动检测 对于JS,AJAX等各种脚本语言的爬虫搜索 个性化的搜索服务 谢 谢! 内容提要 网页去重去杂 网页去重技术 爬虫陷阱、垃圾网页、隐形网页 SEO技术 深度网络爬虫 深度网络检测 信息提取 研究展望 Egyptian activists have called for mass demonstrations after an overnight standoff between security forces and protesters in Cairos Tahrir Square. 长度为4的Shingle …… S(A) = { (Egyptian activists have called) , (activists have called for), ……} SimHash:对相似内容产生相近签名 相似的输入经过hash运算后产生完全不同的输出 V=(0,0,0,0) S = 0000 Hash(特征Ci) =1001 ,V = V + (Wi,-Wi,-Wi,Wi) V=(30,10,-25,70) ? S = 1101 /index.html / R: “index.html”?”” 遍历所有(p,a,s)元组 取所有(a,b)字串对,使得 它们有相同的前后缀p,s 检查(p,a,s)与(p,b,s)是否指向同一链接 构造规则a?b 内容提要 网页去重去杂 网页去重技术 爬虫陷阱、垃圾网页、隐形网页 SEO技术 深度网络爬虫 深度网络检测 信息提取 研究展望 页面分类 提取表单 表单筛选 页面链接 表单入口 数据源聚焦爬虫模型 双层分类模型 ACHE模型 结构化数据 非结构化数据 问题可以归结为:如何选择低成本的Data value填入表单,使其返回结果覆盖所有的content value。(Select a minimun-cost subset of data values that cover all content items) * 1.Orphan Pages;Spid

文档评论(0)

5201394 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档