- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘及可视化技术的发展.doc
数据挖掘及可视化技术的发展
科技信息职教与成教
数据控掘及可颃化技市的发展
深圳职业技术学院敖龙
[摘要]本文探讨数据挖掘的几种主要方法,并从两个方面对可视化技术应用于数据挖掘领域进行了阐述.
[关键词]数据挖掘可视化
伴随数据库技术的不断深入发展,短短几十年,国内外已经涌现出
成千上万的有着不同应用范围的数据库,由于信息网络的普及,这些数
据库已成为人们日常生活,工作和生产中必不可少的基础设施.但数据
丰富,信息匮乏成为我们在日常中最常遇见的问题,亿万的数据信息使
得我们应接不暇,这是一个矛盾体,如何解决,数据挖掘由此浮出水面.
数据挖掘出现于2O世纪8O年代末,最早是在数据库领域发展起
来的,作为数据库中的知识发现(KDD,Kn0wledgeDiscllveryinDat如ase)
的一部分.不少专家学者都对此做出了自己的定义,例如sAs研究所
(】997):在大量相关数据基础之上进行数据探索和建立相关模型的先
进方法.Bhavani(1999):使用模式识别技术,统计和数学技术,在大量
的数据中发现有意义的新关系,模式和趋势的过程.HandetaI(2o00):
数据挖掘就是在大型数据库中寻找有意义,有价值信息的过程.韩家
炜(2O00)从大量数据中提取或挖掘知识,从存放在数据库,数据仓库
或其它信息库中的大量数据挖掘有趣知识的过程.
以上概念都有相同点,一是挖掘的对象是大量的数据或数据库,二
是挖据的目的是获得有价值意义,有用的知识.因此数据挖据就是从海
量的数据中找到为我有用的信息,其原始数据可以来自于存储在任何
介质上的资源,可以是结构化的,如关系型数据库中的数据;也可以是
半结构化的,如文本,图形,图像数据;也可以是分布在网络上的异构型
数据.数据挖掘的方法可以是关联,分类,回归,预测模型和聚类;挖掘
出来的信息可以被公司用于决策支持,客户关系或市场竞争管理,也可
以被个人用于挖据股票信息辅助投资,或者是简单的酒店餐厅的选择,
或者多个邮件系统的管理等.
~
,数据挖掘技术方法的概述
为了实现数据挖据的目的,得到更为有意义,有价值的信息,需要
不断提升数据挖掘技术的科技含量,到目前为止,国内外出现了以下几
种技术用来解决数据挖掘中所遇到的信息瓶颈问题.
1,关联规则挖掘
关联规则挖掘发现大量数据中项集之问有趣的关联或相关联系,
提倡通过研究事物之间的相互联系的规则,来帮助进行决策的制定,其
中最典型的例子就是购物篮分析,一个顾客在超市购物,她的购物篮里
会堆放着不同的商品,这些商品有些是食品,有些是百货,有些是其他
的,从单个购物篮看,这些不同商品的配置只是一个简单的偶然,但关
联规则分析通过几十个,上百个,甚至上千个顾客的购物篮进行分析,
知道什么商品组合或集合顾客多半会在一次购物时同时购买,从而
指导超市经营者通过调整陈列,将购买最多的商品组合放在同一个堆
头上,或者在促销中多采用组合宣传,增加此类组合商品的销售.这些
有趣的关联关系,可以帮助许多商务决策的制定.
2分类挖掘
数据挖掘的一个重用应用就在于对海量数据的分类和预测能力.
分析和预测是两种数据分析形式,可以用于描述重要数据类的数据模
型或预测未来的趋势.其中,决策树算法和贝叶斯分类是数据挖掘领域
研究分类问题最常采用的方法.
图1
决策树是一种类似于流程图的树结构,其中内部节点表示一个属
性上的测试,每个分支代表一个测试输出,而每个树叶节点存放一个类
标号.树的最顶层节点是根节点.在沿着决策树从上到下遍历的过程
中,在每个节点都会遇到一个问题,对每个节点上问题的不同回答导致
不同的分支,最后会到达一个叶子节点.这个过程就是利用决策树进行
分类的过程,利用几个变量(每个变量对应一个问题)来判断所属的类
别(最后每个叶子会对应一个类别).下面我们用决策树方法来描述上
述某报社的广告优惠政策,如图l.
决策树通过以树的形式直观地表达数据信息,其学习和分类步骤
简单快速,目前已被成功运用于许多应用领域的分类,例如金融分析,
一
174一
天文学,制造和生产过程等.
贝叶斯分类,可以预测一个类成员关系的可能性,即给定样本属于
一
个特定类的概率.目前,在数据挖掘领域主要使用两种贝叶斯方法,
即朴素贝叶斯方法和贝叶斯信念网络.朴素贝叶斯分类法假定一个属
性值对给定类的影响独立于其他属性值,此类假定是为了简化所需要
的计算,当假定成立时,朴素贝叶斯分类优于其他所有分类法,简单易
行且精度较好.贝叶斯信念网络允许在变量的子集间定义类条件独立
性,是一种模拟人类推理过程中因果关系的不确定性图形模型,其网络
拓朴结构是一个有向无环图fDAG).它的节点用随机变量或命题来标识,
认为有直接关系的命题或变量则用弧来连接,适合用来分析大量变量
之间的相互关系,利用贝叶斯公式
原创力文档


文档评论(0)