网页去重技术与深度网络爬虫-汪圣莅解剖.ppt

下载文档 降价啦

4
0
约3.49千字
约 24页
2016-10-27 发布于湖北
举报
版权申诉
保障服务

网页去重技术与深度网络爬虫-汪圣莅解剖.ppt

1、本文档共24页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

1 网页去重技术与深度网络爬虫汪圣莅 1110349145 网页去重技术网页内容(content) Shingling SimHash 网页地址(URL) DUST 网页去重-Shingling算法 Shingle:文档的相邻词串文档相似度： SimHash算法 Hash算法的特性 SimHash 输入：向量（文档特征集合）输出：f位签名 DUST-Different URLs with Similar Text 分析和建立url规则爬虫陷阱(Crawler Traps) 非恶意日期链接恶意 Spammers 在搜索页面中得到靠前的排名垃圾网页(Web Spam) 提升在搜索引擎中的排名对用户没有实际价值垃圾网页的检测目前主要为半人工方式自动实现：超链接特征词组频率（term phrase frequency） HTML 结构 …… 隐藏网页（Cloaked Content）某一个网页制作了两个版本，让搜索引擎和常规浏览者分别看到不同的网页内容网页重定向（Redirection spam）搜索引擎优化 (SEO) SEO（Search Engine Optimization），汉译为搜索引擎优化网络营销方式，增加特定关键字的曝光率,进而增加销售的机会。通过了解各类搜索引擎如何抓取互联网页面、如何进行索引以及如何确定其对某一特定关键词的搜索结果排名等技术，来对网页进行相关的优化类型黑帽SEO 白帽SEO 深度网络爬虫许多网页内容需要填写表单(html form)后由数据库动态产生。这些网页被称为deep web。深度网络爬虫(deep web crawler)：自动填写表单以获取网页信息深度网络爬虫的步骤表单入口识别与分类提取表单链接后的资源表单入口识别与分类表单类型分类搜索型表单(SF)与非搜索型表单(NSF)的结构特征表单域分类表单究竟属于哪一个领域很大程度上取决于表单中的文本内容及属性标签基于属性标签的分类基于文本内容的分类从 Deep Web 中提取信息选择部分需要填充的表单元件。确定表单元件的定义域，解构表单元件的填写规则。创建初始的有效数据。利用初始数据进行查询，返回结果并提取新的相关数据循环查询。深度网页内容模型(Deep web content model) 深度网页内容模型(Deep web content model) 深度网页内容提取——关键字选择随机策略频率最高策略自适应策略受初始数据影响小查询结果数量限制的影响小未来存在的研究方向垃圾网页的自动检测对于JS,AJAX等各种脚本语言的爬虫搜索个性化的搜索服务谢谢！内容提要网页去重去杂网页去重技术爬虫陷阱、垃圾网页、隐形网页 SEO技术深度网络爬虫深度网络检测信息提取研究展望 Egyptian activists have called for mass demonstrations after an overnight standoff between security forces and protesters in Cairos Tahrir Square. 长度为4的Shingle …… S(A) = { (Egyptian activists have called) , (activists have called for), ……} SimHash:对相似内容产生相近签名相似的输入经过hash运算后产生完全不同的输出 V=(0,0,0,0) S = 0000 Hash(特征Ci) =1001 ，V = V + (Wi,-Wi,-Wi,Wi) V=(30,10,-25,70) ? S = 1101 /index.html / R: “index.html”?”” 遍历所有(p,a,s)元组取所有(a,b)字串对，使得它们有相同的前后缀p,s 检查(p,a,s)与(p,b,s)是否指向同一链接构造规则a?b 内容提要网页去重去杂网页去重技术爬虫陷阱、垃圾网页、隐形网页 SEO技术深度网络爬虫深度网络检测信息提取研究展望页面分类提取表单表单筛选页面链接表单入口数据源聚焦爬虫模型双层分类模型 ACHE模型结构化数据非结构化数据问题可以归结为：如何选择低成本的Data value填入表单，使其返回结果覆盖所有的content value。（Select a minimun-cost subset of data values that cover all content items） * 1.Orphan Pages；Spid