- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
多的关系数据挖掘的方法的研究
多的关系数据挖掘的方法的研究
摘要:目前大多数数据挖掘方法是从单关系中发现模式,而多关系数据挖掘(MRDM)则可直接从关系数据库的多表中抽取有效模式。MRDM可以解决原有命题数据挖掘方法不能解决的问题,它不仅有更强的信息表示能力,可以表示和发现更复杂的模式,还可以在挖掘进程中有效地利用背景知识来提高挖掘效率和准确率。近年来,借鉴归纳逻辑程序设计(ILP)技术,已经形成许多多关系数据挖掘方法,如关系关联规则挖掘方法、关系分类聚类方法等。
关键词:多关系数据挖掘(关系数据挖掘);归纳逻辑程序设计;关系分类回归;关系关联规则;基于距离的关系方法
中图法分类号:TP391文献标识码:A
文章编号:1001-3695(2006)09-0008-05
1 引言??
数据库中的知识发现(KnowledgeDiscoveryinDatabases,KDD)是在数据库中寻找有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程[17]。相对于数据预处理和模式评价而言,数据挖掘是这一过程中的关键环节,它是应用计算技术在数据中发现模式的过程。目前,大多数数据挖掘方法是从单关系中寻找模式,但是现实中的数据大多以多关系的形式存在,这样就导致在数据预处理上耗费了大量时间,比如要进行耗时的数据库表的连接和聚合等处理,而且这些处理往往会导致很多有用信息的丢失。??
原有的从单关系中发现模式的数据挖掘方法叫做命题学习方法或属性―值学习方法,该方法使用命题逻辑表示知识和模式。而关系数据挖掘(RelationalDataMining,RDM)也称为多关系数据挖掘(Multi??RelationalDataMining,MRDM),是在由多个关系表构成的关系数据库中抽取模式的一个多学科交叉的领域。它综合运用归纳逻辑程序设计(InductiveLogicProgramming,ILP)、KDD、机器学习和关系数据库等方法,致力于直接从多关系数据集中发现知识的新方法的研究[1],挖掘由复杂的结构化对象组成的数据集也是该领域的研究方向之一。MRDM不同于基于单关系的挖掘方法,它可以直接对多关系数据进行挖掘,避免了复杂的预处理过程和由于压缩带来的信息丢失等问题。MRDM使用一阶谓词逻辑来表示知识和模式,具有比命题逻辑更强的表达能力,因此MRDM可以解决很多原有命题方法不能解决的实际问题,能够方便地使用背景知识也是MRDM的一个重要特征。??
现在,数据挖掘中通常使用的模式类型和方法已经扩展到多关系的情况下,并形成许多MRDM方法,如关系关联规则挖掘方法、关系分类聚类方法等。这些方法已成功地应用到多个领域,包括商务数据分析、生物信息学、医药设计以及Web挖掘中的信息抽取等,而最成功的应用是在生物信息领域[9]。??
2ILP技术??
MRDM主要是借鉴ILP的思想和技术发展起来的。ILP是机器学习和逻辑编程结合的产物,主要研究多关系数据挖掘技术[1]。ILP利用背景知识从给定的实例发现未知实例的规律。其基本任务是学习未知关系的逻辑定义,在SeminalMIS(ILP最有影响力的先驱之一)系统和FOIL系统(最出名的ILP系统之一)中详细阐述了如何归纳定义未知的关系[18]。近年来,ILP已经可以处理所有的数据挖掘任务,如分类、回归、聚类、预测和关联规则分析等。??
2.1逻辑程序和数据库??
为了在多关系数据表中学习有效的模式,ILP方法主要使用基于逻辑编程的语言(一阶逻辑的子集),而关系代数(关系数据库的形式化理论基础)也是一阶逻辑的子集(一阶逻辑有时候也叫做谓词逻辑或关系逻辑),这种一致性使得ILP与关系数据库间的交互较为容易。??
关系数据库是关系的集合,在关系数据库中,关系可以是数据库中的表,也可以是数据库中的视图(作为明确的逻辑规则出现)。后者一般表示能从其他关系推理得到的关系,如已经定义了父亲、母亲的关系,我们能够扩展这种表示,内涵地定义祖父、祖母、祖先、表兄弟的关系。而逻辑程序中的谓词对应于关系数据库中的关系,谓词的变元则对应于关系的属性,主要的不同是关系的属性是有类型的(如关系数据库中每一属性都预先指定所属类型)[1]。关系数据库与逻辑编程术语的对照如表1所示。??
表1数据库术语与逻辑编程术语的对照表??
2.2θ包含[1]??
大多数ILP方法是自顶向下地、从一般到特殊地使用基于θ包含的特化操作来搜索假设空间。对于ILP而言,θ包含是非常重要的,θ包含为假设空间提供了概化的次序,结构化了假设空间;搜索时的剪枝方法以θ包含为基础;自顶向下的求精图(RefinementGraphs)的子句构造技术和对求精图搜索的中
您可能关注的文档
最近下载
- 农业合作社全套报表(已设公式)--资产负债表-盈余及盈余分配表-成员权益变动表-现金流量表.xls VIP
- C语言程序设计PPT电子课件教案-04_循环语句嵌套及应用.ppt VIP
- 财务新纪元:现状与展望-探索财务工作的挑战与未来.pptx
- GB50496-2018 大体积混凝土施工标准.pdf VIP
- ZW8100喷水织机使用说明书2.pdf
- 冬季极端天气安全知识培训课件.pptx
- 整理bpmfdtnl单韵母拼读.doc VIP
- 南京市总工会2025年公开招聘笔试题(含答案)(DOC).doc VIP
- 中国国家标准 GB/T 42588-2023系统与软件工程 功能规模测量 NESMA方法.pdf
- 人教版初中必背古诗文.doc VIP
原创力文档


文档评论(0)