面向网页去看的特征提取与重复模式发现.pdf

面向网页去看的特征提取与重复模式发现.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
优秀毕业论文,完美PDF格式,可在线免费浏览全文和下载,支持复制编辑,可为大学生本专业本院系本科专科大专和研究生学士硕士相关类学生提供毕业论文范文范例指导,也可为要代写发表职称论文的提供参考!!!

面向网页去重的特征提取与重复模式发现 摘 要 互联网的快速发展给人们带来了新的获取信息和交流的方式。随着网站和网页数 目的不断增加,为了用户能方便的访问它们,搜索引擎应运而生。但由于互联网上存 在大量的因转载或抄袭形成的重复网页,这些网页被搜索引擎重复的存储和检索,造 成存储空间的浪费和检索效率的降低,同时也带来了较差的用户体验。因此网页去重 是搜索引擎中比较重要的一个环节。 本文针对网页去重着重研究以下两个问题:第一个问题是网页特征提取。网页特 征提取的前提是网页正文提取,但由于广告等噪声的存在,导致目前的正文提取算法 均不能完全准确的提取出网页正文内容,这对后续的网页去重造成了较大的影响。如 何在存在少许噪声的正文中提取纯净的网页特征在很大程度上决定了网页去重的准确 率。本文提出了基于层次筛选的特征提取算法,充分考虑了段落、句子与关键词的联 系,逐层筛选网页信息得到特征词、词性对集合,达到将网页本身结构和内部信息权 重结合的目的,使提取出的特征不仅能均匀覆盖网页,还具有一定的抗噪性。 第二个问题是网页特征重复模式发现。目前的重复模式发现算法主要分为两种: 基于集合的实现和基于特征串的实现。基于集合的实现比较注重特征集合中特征项的 权重,但忽视了特征项的顺序,加上Hash值冲突问题带来的误判,此实现并不适合 用于网页去重;基于特征串的实现虽然考虑了特征项的顺序,但采用最长公共子串衡 量网页重复度则过于严格,检测不出非连续重复的网页。为了解决上述问题,本文提 出了基于改进最长公共子序列的重复模式发现算法。将特征词、词性对集合以句子为 单位计算最长公共子序列,既降低了维度、保证了句子的完整性,又能改善Hash值 冲突问题。为了提高计算和查找的效率,本算法改进了最长公共子序列算法的经典实 现和倒排表组织方式,并将其应用于网页重复模式发现。 最后,本文进行了相关实验验证工作,结果表明改进后的算法在召回率和准确率 上都优于目前的常用算法。 关键词:网页去重;层次筛选;最长公共子序列;倒排表;二叉平衡树 面向网页去重的特征提取与重复模式发现 暑暑暑暑薯宣暑昌昌暑胄皇暑暑暑暑暑高;鲁暑;;昌暑;;昌暑暑i昌罩昌昌宣薯;暑宣昌;;宣I—II—置暑; Abstract The ofIntemet USnew of informationand development brought way obtaining numberofsitesandweb is atan communicating.The pages increasing ofsearch have accesstheinformation.Butthe appearancesengineshelpedpeople large of web number ale alotof duplicatepages,whichproducedbycopying,causesrepeated same storedinsearch not waste also pages engines.Theseduplicatepagesonly memory,but theuser web detectionhasbecomethemost damage experience.Duplicatepages important ofsearch step engines.

文档评论(0)

gubeiren_001 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档