基于特征码的大规模XML文档去重算法的研究.pdfVIP

基于特征码的大规模XML文档去重算法的研究.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
计算机科学2006Voi.33№.】l(增刊) 基于特征码的大规模XML文档去重算法研究 for XMLDocumentBaseonFeatureCode ResearchonDeletion LargeScaleDuplicated 杨喜权张一鸣王大勇 (东北师范大学计算机学院 长春130117) 本文考察的是面向以文本为内容的ⅪdL文档 1引言 的消重操作,因此内容节点才是考察的重点,只有具 随着Web技术的飞速发展,人类交换信息的方 有相同内容节点的xML文档才是重复的。 式正发生着深刻的变化。极大的改变了人们发布, 根据以上两个定义,只有同时满足定义1,定义 获取,使用信息的方式。人们从信息缺乏进人了信 2的文档才可以叫做重复的xML文档。 息极大丰富的年代。但另一方面,Internet所固有定义3内容节点中索引词的相似性决定了内 的海量数据的分布性,异梅性,动态性又对互联网环 容节点的相似性。 境下的数据交换和信息共享提出了新的挑战。人们 在海量的数据之中要求文档之间完全相同是不 面临着从海量的数据中发现自己所需的有用信息的 现实的,对于消重也是没有实际意义的,而且在时间 困境,往往有“大海捞针”的感觉。而XMLe“(可扩和空间上也是很难得到满足的。因此,只有在近似 展标记语言)的出现很可能改变这一切。随着信息 相等或者说是所陈述的内容是一致的情况下就可以 时代的到来,尤其是互联网技术的高速发展,网站数 说是重复文档。因此,本文提出了通过对内容节点 目巨增,出现了大量的文档,而如果要想将这些数据 进行分词,对获得的索引词进行比较。如果一定数 资源成为可持续开发的Web信息资源。将其用 量的索引词完全相同,即为重复文档。 XML语言表达是最好的方式。这就难以避免的有 3特征码去重算法 大量的内容重复的XML文档的出现。因此,如何 在海量的XML文档之中合并表达内容重复的文 为了检索出相同的XML文档,我们需要对文 档,将是本文的研究重点。 档的特征建立索引,这个特征可以保证对于不同的 文档是不同的,我们称这个特征为XML文档的特 2相同内容的XM;L文档 征码[1“。传统的聚类方法把文档中的字做成一个 如何定义相同的XML文档对解决方案意义重 向量,并通过计算把向量与聚类中心向量的夹角余 大。首先,相同内容的文档可能在XML文档中出 弦值,两向量的模的大小关系,来判断这个网页是否 现在不同的元素层次中。其次,文档的内容有的是 应该归为该类。算法的复杂度为O(n2),当数据量 完全相同,有的只是某些段落的相同,还有的是一篇 较大时,这种方法是不可行的。 文章是另一篇文章的一部分。还有一些内容相同的 概括地说,去重算法分三步实现: 文档由于丢字、乱码、改变了标题或节略造成的细微 第一步:从每个文档中抽取特征码; 的不同。 . 第二步:用特征码将文档逐个索引起来构成一 定义1 相同的XML文档的DTD/SCHEMA 个检索系统; 是相同的,反之不成立。 第三步:将每个文档的特征码逐个投入检索系 根据XML文档结构化的特点一个相同的统,将检索到的全部网页聚成一类。 XML文档的DTD/

文档评论(0)

whl005 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档