- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一类带有模糊算子满意度依赖关联算法
一类带有模糊算子满意度依赖关联算法
[摘要] 随着经济的迅猛发展,市场信息化和现代化程度的不断提高,信息不确定性的影响越来越大,在数据挖掘中引入模糊逻辑,以及部分不确定性的表达很有必要。本文在引入相似度算子等相关概念,以及对原有的算法进行了相应的模糊改进后,使得原有的带有满意度的依赖关联在保留更多有用的初始信息基础上有了更进一步的修正。
[关键词] 数据挖掘 关联规则 模糊逻辑 相似度算子
随着经济的迅猛发展,企业信息化的程度不断得以提高,于是,信息不确定性的影响越来越大。数据挖掘引起了信息产业界的极大关注,其主要原因是存在大量数据,可以广泛使用,尤其是在有关互联网的海量数据搜索,并且迫切需要将这些数据转换成有用的信息和知识。获取的信息和知识可以广泛用于各种应用,包括商务管理、生产控制、市场分析、工程设计和科学探索等。数据挖掘是从大量数据中提取或挖掘知识,而数据挖掘技术则是对一些相关技术的集成,所以数据挖掘的方法也都是基于机器学习、模式识别,以及统计方法等来实现的。当然,不同的技术下的方法得到的知识的表达形式可能是不同的。从知识的表达形式上,可以将数据挖掘分为分类、回归、关联、聚类、概要、发现变化和偏差等等,其中,关联因为其广泛适用性,以及方法的成熟性,成为了最重要的也是应用最为广泛的数据挖掘方法之一,于是,基于关联规则的研究是始终受到关注。
自从关联规则的概念由Agrawal等人提出,关联规则在众多领域的应用,如金融、证券市场、气象学、营销、医学、制造业、电子商务等等促使人们对于关联规则的挖掘有了大量的研究。此外,Agrawal及Srikant等人研究发现关联规则是利用Apriori这一典型的有关于挖掘的运算法则来运算的最基本的挖掘方法。除了关联规则之外,另一种普遍关注的关联是功能依赖,它是另外一种兴趣度的关联。功能依赖可以从逻辑上在原先设计好的关系上面假设或者构造。同时,在将数据挖掘看成是一种反转工程的情况下,功能依赖的发现受到了很高的重视。模式关联是第三种关联方式。真正的应用软件中遇到时间序列模式???般会有如下几种情况:生产、销售、经济学,以及股票数据。由于时间序列反映了在连续的因素如时间中的数据变化的演变过程,所以发现时间序列中的关系有比较特殊的作用。通常时间序列模式会有很多方式的彼此相互关联。
通常在商务智能或人工智能的知识发现中引入不确定性的描述和表达源自于两个方面的需要:一个是在知识表达和发现中的内在不确定性的需要;另一个是在复杂决策过程中经常遇到的对抽象化概念,以及具有自然语言表达的需要。这两个方面的问题使得在知识发现中引入模糊逻辑,以及部分不确定性的表达很有必要。
一、满意度依赖关联
依赖关联作为关系数据库理论和应用中的一个重要概念,在知识发现领域的研究非常不够,首先,它对普遍存在于数据库中的噪音不能很好地在挖掘模型中进行处理,从而导致大量有价值的信息的丢失;其次,传统依赖关联概念表达的是一种完全的知识,也就是说对于整个关系都成立的,但是除了诸如此类的强知识之外,有一些在部分程度上成立的知识也是存在并且有意义的。因此一种新的依赖关联的概念――带有满意度的依赖关联就产生了。简而言之,它是通过概率估计来描述某个依赖关联在数据库中成立的程度的。一方面,它能够以满意度来描述某个依赖关联在该数据库中成立的程度,从而能够容纳噪音所带来的问题。另一方面,它能够量化地表达部分成立的知识,并且,由于它通过简单加总来描述满意度的测度,从而得到的结果更具有直观性和易于解释性。这个新的概念有一系列的相关定义及性质的证明。在相关的定义下,关系T不再是完全支持或者只完全不支持某个依赖关联,而是以某个度――满意度――来支持。具体来说,TRUTHT(A→B)就称为依赖关联A→B的满意度,它的含义为关系T支持依赖关联的程度。总得来说,该概念可以容纳噪音并且能够将部分知识量化进行表达和评价,而且和在数据库中挖掘传统关联规则相比,带有满意度的依赖关联具有更加好的理论和数学性质,也具有更容易理解的语义和更重要的价值。
二、相似度算子的选择与实现
由于很多实际的数据库中的数据是庞杂而凌乱的,基本上没有什么数值完全一致的数据,而根据原有的带有满意度的依赖关联的定义“如果ti(A)≠tj(A),则TRUTH(ti,tj)(A→B)=1”,那么基本上所有的数据都是可以相互依赖关联的,这样做出的结果是没有任何意义的。所以,为了寻求数据在一定意义上的同一性,我们引入了相似度算子对数据库中同一属性的不同值进行了相似度的计算,然后用相似度作为衡量标准对数据进行进一步的依赖关联上的处理。
这里选择e-t作为相似度的算子,其具体的实现方式是对同一属性在不同时期的值做一个差的绝对值运算,然后再对其进
您可能关注的文档
最近下载
- 储能技术-全套PPT课件.pptx
- 高中高考备考经验课件.pptx VIP
- 黄精种植项目可行性研究报告写作范文.doc VIP
- 项目2 2.3 植物根&茎&叶的形态与结构观察(课件)-《植物生产与环境》(高教版第4版)同步精品课堂.pptx VIP
- 项目2 2.3 植物的营养器官(4)(课件)-《植物生产与环境》(高教版第4版)同步精品课堂.pptx VIP
- 教学副校长在全体教师大会上发言:听好每一节课,走好专业每一步.docx
- 磁力泵试题及答案.docx VIP
- 一种利福霉素S-Na盐的合成方法.pdf VIP
- 项目2 2.3 植物的营养器官(3)(课件)-《植物生产与环境》(高教版第4版)同步精品课堂.pptx VIP
- WHO《数据完整性指南》2021(中英文对照版).docx VIP
文档评论(0)