一种基于文本抽取的网页正文去重算法.pdfVIP

一种基于文本抽取的网页正文去重算法.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一种基于文本抽取的网页正文去重算法.pdf

科技信息 ○IT 论坛○ SCIENCE TECHNOLOGY INFORMATION 2009 年 第1 期 一种基于文本抽取的网页正文去重算法 曹传东 郭 理 (石河子大学信息科学与技术学院 新疆 石河子 832003 ) 摘 要 搜索结果页面的去重处理是提高网页检索结果质量的有效途径 笔者结合二叉排序树设计了一种基于文本抽取的网页正文去重 【 】 , 算法 本文给出了该算法的具体实现 实验测试结果表明该算法在判断准确率 时间复杂度方面均具有一定优势 可应用于网络信息检索结果 , 。 、 , 优化处理中的页面正文内容去重。 关键词 文本抽取 网页特征码 二叉排序树 网页去重 【 】 ; ; ; 利用搜索引擎在 网络上进行信息检索已日益成为人们获 容进行分类 则分类结果中的类别可能会很多 这会导致在确定网页 , , Internet 取信息的一个重要途径 但用户在使用搜索引擎工具搜索页面获取感 属于哪一类时费时过大 而如果直接将网页正文逐字进行匹配处理来 。 ; 兴趣的主题信息的同时 会发现返回的结果集除了那些用户真正需要 实现归类 也同样会面临计算量过大而在响应时间上无法承受的问 , , 或感兴趣的内容以外 还存在大量重复的信息 返回给用户的结果常 题 一种现实的折中方法是从网页正文中抽取出少量信息构成特征 , , 。 常不是太少而是太多了 用户需要花费更多时间从结果 中仔细 码 在归类时通过判断特征码是否相同或相近来判断相应的网页正文 , , URL [2][3] 甄别选择自己所需要的 因此 对于完全重复或部分重复的信息 实际 内容是否是重复的 。 , , 。 上不需要将所有检索结果都作为检索结果集合中的记录 如何更有效 设计特征码必须首先考虑其是否能够较全面准确地反映网页正 。 地帮助用户快速获取所需要的信息 是网络信息服务领域的重要课 文的内容 即应当避免特征码与网页之间出现多对多的对应关系 其 , , , 题 目前对搜索结果的优化处

文档评论(0)

docinpfd + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:5212202040000002

1亿VIP精品文档

相关文档