一种基于文本抽取的网页正文去重算法.pdfVIP

下载本文档

26
0
约 2页
2017-08-12 发布于重庆
举报
版权申诉

一种基于文本抽取的网页正文去重算法.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

一种基于文本抽取的网页正文去重算法.pdf

科技信息 ○IT 论坛○ SCIENCE TECHNOLOGY INFORMATION 2009 年第1 期一种基于文本抽取的网页正文去重算法曹传东郭理（石河子大学信息科学与技术学院新疆石河子 832003 ）摘要搜索结果页面的去重处理是提高网页检索结果质量的有效途径笔者结合二叉排序树设计了一种基于文本抽取的网页正文去重【】，算法本文给出了该算法的具体实现实验测试结果表明该算法在判断准确率时间复杂度方面均具有一定优势可应用于网络信息检索结果，。、，优化处理中的页面正文内容去重。关键词文本抽取网页特征码二叉排序树网页去重【】；；；利用搜索引擎在网络上进行信息检索已日益成为人们获容进行分类则分类结果中的类别可能会很多这会导致在确定网页，， Internet 取信息的一个重要途径但用户在使用搜索引擎工具搜索页面获取感属于哪一类时费时过大而如果直接将网页正文逐字进行匹配处理来。；兴趣的主题信息的同时会发现返回的结果集除了那些用户真正需要实现归类也同样会面临计算量过大而在响应时间上无法承受的问，，或感兴趣的内容以外还存在大量重复的信息返回给用户的结果常题一种现实的折中方法是从网页正文中抽取出少量信息构成特征，，。常不是太少而是太多了用户需要花费更多时间从结果中仔细码在归类时通过判断特征码是否相同或相近来判断相应的网页正文，， URL [2][3] 甄别选择自己所需要的因此对于完全重复或部分重复的信息实际内容是否是重复的。，，。上不需要将所有检索结果都作为检索结果集合中的记录如何更有效设计特征码必须首先考虑其是否能够较全面准确地反映网页正。地帮助用户快速获取所需要的信息是网络信息服务领域的重要课文的内容即应当避免特征码与网页之间出现多对多的对应关系其，，，题目前对搜索结果的优化处