基于XML数据频繁模式挖掘算法.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于XML数据频繁模式挖掘算法

基于XML数据频繁模式挖掘算法   摘要:结合XML文档的特点,采用XML数据模型XOEM和压缩结构树的存储结构,提出了一种高效的XML数据的频繁模式挖掘算法──AFPMX算法,并从理论和实验两方面证明了该算法是可行和有效的。   关键词:XML; 数据挖掘; 频繁模式; 算法   中图法分类号:TP301.6文献标识码:A   文章编号:1001-3695(2007)01-0116-04      1引言??      Web数据与传统数据库中的数据不同,是一种半结构化数据。如何用一个数据模型来清晰地描述半结构化数据是进行Web数据挖掘能否成功的关键所在。XML[1]是一种简单、开放、高效且可扩充和国际化的自描述性语言,该语言不仅成为了Internet上数据表示交换的标准,而且被广泛应用于搜索引擎、电子商务和电子数据交换等很多方面。因此,基于XML数据的频繁树结构挖掘已成为数据挖掘研究中的重要内容之一。??   在已有的频繁树结构挖掘算法中,TreeMinerH算法[2]是一种基于扩展节点思想的算法,即第一次遍历找出所有节点数为1的频繁子树,然后重复使用节点数为k-1的频繁子树来产生节点数为k的频繁子树的候选,进而产生所有节点数为k的频繁子树。而WL算法[3]则是基于一种扩展路径思想的算法,即第一次遍历找出所有叶节点数(即根节点到叶节点的路径数)为1的频繁子树,然后循环使用叶节点数为k-1的频繁子树来产生叶节点数为k的频繁子树的候选,进而找出所有叶节点数为k的频繁子树。可以看出,由于WL算法中频繁子树的扩展规模要明显快于TreeMinerH算法,因此算法执行时间更短,性能更好。??   然而,虽然WL算法是在半结构化数据模型上提出的,但由于没有考虑到XML文档模式的特殊性,如果将WL算法直接用在XML数据上,会导致算法性能的大幅度下降。为此,本文结合XML文档的特点,采用XML数据模型XOEM和压缩结构树的存储结构,对挖掘过程中产生候选模式的连接技术进行了改进,提出了一种高效的XML频繁模式挖掘算法AFPMX(Algorithm of Frequent Pattern Mining based on XML data)。??      2XML数据模型XOEM??      XOEM模型是建立在OEM[4]模型基础上,针对XML 的半结构化数据的一种自描述的嵌套对象模型。 ??   定义1一个XOEM对象。   一个XOEM对象o是一个三元组,三元组各个域定义如下:??   (1)NodeID。它是XOEM对象唯一的标识符,记为o。??   (2)Type。对象的类型,包括元素类型(Element)、属性类型(Attribute)和文本类型(Text)。??   (3)Value。对象的值,记为val(o)。对于元素类型,值为其子对象的集合(子对象为无序的情况){l??1:o??1,l??2:o??2,…,l??p:o??p},或者值为子对象的列表(子对象为有序的情况)。其中o??i是子对象o??i的标志,I??i是o??i的标记。??   根据定义1,XML文档能够用一个有向图(称为XML文档数据图)来表示。在这种图中,每个节点对应于一个XOEM对象并赋予唯一的节点号(对象标识符);节点的每一引出边表示相应对象的一个子对象标记或对象的一个属性标记,并用子对象名或属性名标记;对于叶子节点,含有对象的字符串的值。??      3XML模式发现问题的相关概念与定义??      3.1结构及结构表达式??   XML文档数据图存储了XML数据的结构和内容。为不失通用性,我们对XML数据挖掘的目的是找出其频繁结构,而不关心其内容。为此引入了结构表达式和结构树的概念,只描述XML文档的结构信息而略去具体内容,用于XML数据结构的挖掘。??   定义2结构表达式。      3.2压缩结构表达式??   在一些XML文档中存在着大量重复子元素的定义。这一特点在文档的结构树中表现为:有许多节点拥有完全相同的树型结构。为此,本文引入压缩结构树来表示这种完全相同的树型结构,相应地可用压缩结构表达式来表示对应的结构表达式。这样的压缩结构既可以减少占用的外存和内存空间,也可以缩短挖掘时对结构树的遍历时间,方便支持度的统计。??   定义3压缩结构表达式。      3.3结构包含关系??   本文中XML数据的挖掘问题就是要找出所有的最大频繁结构表达式。为此需引进结构包含、完全结构表达式等概念。??   定义4结构包含。??      对于XML中的对象o,存在唯一的结构表达式,该表达式不为o的任何其他结构表达式所包含,则称其为对象o的完全结构表达式。??     

文档评论(0)

erterye + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档