面向网页去看的特征提取与重复模式发现.pdf

下载文档 降价啦

5
0
约6.35万字
约 50页
2017-09-03 发布于安徽
举报
版权申诉
保障服务

面向网页去看的特征提取与重复模式发现.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

优秀毕业论文，完美PDF格式，可在线免费浏览全文和下载,支持复制编辑,可为大学生本专业本院系本科专科大专和研究生学士硕士相关类学生提供毕业论文范文范例指导,也可为要代写发表职称论文的提供参考！！！

面向网页去重的特征提取与重复模式发现摘要互联网的快速发展给人们带来了新的获取信息和交流的方式。随着网站和网页数目的不断增加，为了用户能方便的访问它们，搜索引擎应运而生。但由于互联网上存在大量的因转载或抄袭形成的重复网页，这些网页被搜索引擎重复的存储和检索，造成存储空间的浪费和检索效率的降低，同时也带来了较差的用户体验。因此网页去重是搜索引擎中比较重要的一个环节。本文针对网页去重着重研究以下两个问题：第一个问题是网页特征提取。网页特征提取的前提是网页正文提取，但由于广告等噪声的存在，导致目前的正文提取算法均不能完全准确的提取出网页正文内容，这对后续的网页去重造成了较大的影响。如何在存在少许噪声的正文中提取纯净的网页特征在很大程度上决定了网页去重的准确率。本文提出了基于层次筛选的特征提取算法，充分考虑了段落、句子与关键词的联系，逐层筛选网页信息得到特征词、词性对集合，达到将网页本身结构和内部信息权重结合的目的，使提取出的特征不仅能均匀覆盖网页，还具有一定的抗噪性。第二个问题是网页特征重复模式发现。目前的重复模式发现算法主要分为两种：基于集合的实现和基于特征串的实现。基于集合的实现比较注重特征集合中特征项的权重，但忽视了特征项的顺序，加上Hash值冲突问题带来的误判，此实现并不适合用于网页去重；基于特征串的实现虽然考虑了特征项的顺序，但采用最长公共子串衡量网页重复度则过于严格，检测不出非连续重复的网页。为了解决上述问题，本文提出了基于改进最长公共子序列的重复模式发现算法。将特征词、词性对集合以句子为单位计算最长公共子序列，既降低了维度、保证了句子的完整性，又能改善Hash值冲突问题。为了提高计算和查找的效率，本算法改进了最长公共子序列算法的经典实现和倒排表组织方式，并将其应用于网页重复模式发现。最后，本文进行了相关实验验证工作，结果表明改进后的算法在召回率和准确率上都优于目前的常用算法。关键词：网页去重；层次筛选；最长公共子序列；倒排表；二叉平衡树面向网页去重的特征提取与重复模式发现暑暑暑暑薯宣暑昌昌暑胄皇暑暑暑暑暑高；鲁暑；；昌暑；；昌暑暑i昌罩昌昌宣薯；暑宣昌；；宣I—II—置暑； Abstract The ofIntemet USnew of informationand development brought way obtaining numberofsitesandweb is atan communicating．The pages increasing ofsearch have accesstheinformation．Butthe appearancesengineshelpedpeople large of web number ale alotof duplicatepages，whichproducedbycopying，causesrepeated same storedinsearch not waste also pages engines．Theseduplicatepagesonly memory,but theuser web detectionhasbecomethemost damage experience．Duplicatepages important ofsearch step engines．