面向语义的精简化多关系频繁模式发现方法-中国工程科学.PDF

下载文档

3
0
约3.03万字
约 7页
2017-08-06 发布于天津
举报
版权申诉
保障服务

面向语义的精简化多关系频繁模式发现方法-中国工程科学.PDF

1、本文档共7页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

面向语义的精简化多关系频繁模式发现方法-中国工程科学

面向语义的精简化多关系频繁模式发现方法杨炳儒，张　伟，钱　榕（北京科技大学信息工程学院，北京１０００８３）［摘要］　多关系频繁模式发现能够直接从复杂结构化数据中发现涉及多个关系的复杂频繁模式，避免了传统方法的局限。有别于主流基于归纳逻辑程序设计技术的方法，提出了基于合取查询包含关系的面向语义的精简化多关系频繁模式发现方法，具有理论与技术基础的新颖性，解决了两种语义冗余问题。实验表明，该方法在可理解性、功能、效率以及可扩展性方面具有优势。［关键词］　多关系数据挖掘；频繁模式发现；合取查询；精简化模式［中图分类号］　ＴＰ１８２　［文献标识码］　Ａ　［文章编号］　１００９－１７４２（２００８）０９－００４７－０７中存在其他语义的等价模式。语义冗余的存在一 1　前言方面会给数据挖掘结果使用者带来理解上的困数据挖掘致力于发现海量数据中隐藏的模难；另一方面会导致候选模式集合规模过于庞大，式。频繁模式发现是数据挖掘的重要任务之一，从而影响评估阶段的效率和扩展性。一般情况早期的研究成果包括Ａｐｒｉｏｒｉ算法［１］［２］下，候选模式评估阶段的时间消耗经常占据系统及其变体。这类方法的知识表示方式主要是命题逻辑形式系整体时间消耗的８５％以上。因此，有效的消除语统，并且只能从单一关系中发现模式。但是，大多义冗余成为多关系频繁模式发现方法研究的重点数现实关系数据库中的信息存储于多个关系中，之一，这类研究称为面向语义的精简化多关系频在多关系数据中发现模式时，模式自然的要涉及繁模式发现方法研究。多个关系，若使用这类经典数据挖掘方法，应把数在多关系频繁模式发现研究中，最为知名的方据先从多个关系中纳入一个单关系中，然后才能法是ＷＡＲＭＲ［４］［５］和ＦＡＲＭＥＲ，这两种方法并没有进行挖掘。这不仅需要大量的预处理工作和谨慎考虑先验知识的存在；Ｃ－ＡＲＭＲ［６］在ＷＡＲＭＲ基的设计，并且可能导致信息丢失、语义偏差以及效础上考虑到了先验知识的存在，解决了上述第一类率降低等问题，此外许多复杂模式难以用命题逻语义冗余问题，但没有解决第二类语义冗余问题。辑语言表示。另一类频繁模式发现方法来自于多另一方面Ｃ－ＡＲＭＲ作为基于归纳逻辑程序设计技关系数据挖掘领域［３］。多关系频繁模式发现方术（ｉｎｄｕｃｔｉｖｅｌｏｇｉｃｐｒｏｇｒａｍｍｉｎｇ，ＩＬＰ）的方法存在如法，能够发现关系数据库中涉及多个关系的复杂下问题。模式，并且直接在多个关系上分析数据而无需向１）ＩＬＰ技术是一种机器学习技术，其底层实现单一数据表转换。Ｐｒｏｌｏｇ引擎都是面向演绎推理的，因而在面向海量当先验背景知识存在的情况下，如果不考虑数据的数据挖掘应用过程中，在效率和可扩展行方这类知识的存在，会导致结果集中太多语义冗余面尚有较大的研究空间。模式。语义冗余模式分为两种情况：一种是模式２）ＩＬＰ技术要求在数据挖掘前，原始关系数据内部存在语义冗余成分，另一种是模式在结果集库必须花费大量时间预处