- 1、本文档共7页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
面向语义的精简化多关系频繁模式发现方法-中国工程科学
面向语义的精简化多关系频繁模式发现方法
杨炳儒,张 伟,钱 榕
(北京科技大学信息工程学院,北京 100083)
[摘要] 多关系频繁模式发现能够直接从复杂结构化数据中发现涉及多个关系的复杂频繁模式,避免了传
统方法的局限。 有别于主流基于归纳逻辑程序设计技术的方法,提出了基于合取查询包含关系的面向语义
的精简化多关系频繁模式发现方法,具有理论与技术基础的新颖性,解决了两种语义冗余问题。 实验表明,
该方法在可理解性、功能、效率以及可扩展性方面具有优势。
[关键词] 多关系数据挖掘;频繁模式发现;合取查询;精简化模式
[中图分类号] TP182 [文献标识码] A [文章编号] 1009-1742(2008)09-0047-07
中存在其他语义的等价模式。 语义冗余的存在一
1 前言
方面会给数据挖掘结果使用者带来理解上的困
数据挖掘致力于发现海量数据中隐藏的模 难;另一方面会导致候选模式集合规模过于庞大,
式。 频繁模式发现是数据挖掘的重要任务之一, 从而影响评估阶段的效率和扩展性。 一般情况
早期的研究成果包括 Apriori 算法[1] [2] 下,候选模式评估阶段的时间消耗经常占据系统
及其变体 。
这类方法的知识表示方式主要是命题逻辑形式系 整体时间消耗的 85%以上。 因此,有效的消除语
统,并且只能从单一关系中发现模式。 但是,大多 义冗余成为多关系频繁模式发现方法研究的重点
数现实关系数据库中的信息存储于多个关系中, 之一,这类研究称为面向语义的精简化多关系频
在多关系数据中发现模式时,模式自然的要涉及 繁模式发现方法研究。
多个关系,若使用这类经典数据挖掘方法,应把数 在多关系频繁模式发现研究中,最为知名的方
据先从多个关系中纳入一个单关系中,然后才能 法是WARMR [4] [5]
和FARMER ,这两种方法并没有
进行挖掘。 这不仅需要大量的预处理工作和谨慎 考虑先验知识的存在;C -ARMR [6]在 WARMR 基
的设计,并且可能导致信息丢失、语义偏差以及效 础上考虑到了先验知识的存在,解决了上述第一类
率降低等问题,此外许多复杂模式难以用命题逻 语义冗余问题,但没有解决第二类语义冗余问题。
辑语言表示。 另一类频繁模式发现方法来自于多 另一方面C -ARMR 作为基于归纳逻辑程序设计技
关系数据挖掘领域[3] 。 多关系频繁模式发现方 术(inductive logic programming,ILP)的方法存在如
法,能够发现关系数据库中涉及多个关系的复杂 下问题。
模式,并且直接在多个关系上分析数据而无需向 1) ILP 技术是一种机器学习技术,其底层实现
单一数据表转换。 Prolog 引擎都是面向演绎推理的,因而在面向海量
当先验背景知识存在的情况下,如果不考虑 数据的数据挖掘应用过程中,在效率和可扩展行方
这类知识的存在,会导致结果集中太多语义冗余 面尚有较大的研究空间。
模式。 语义冗余模式分为两种情况:一种是模式 2) ILP 技术要求在数据挖掘前,原始关系数据
内部存在语义冗余成分,另一种是模式在结果集 库必须花费大量时间预处
文档评论(0)