- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘技术的功能及主要分析方法.pdf
理论广 角
l■
数据挖掘技术的功能及主要分析方法
刘 凯 毕研博 国 伟
(山东信息职业技术学院 山东潍坊 261061)
[摘 要]随着信息技术的迅速发展,数据库的规模不断扩大,产生了大量的数据 。但大量的数据往往无法辨别 隐藏在其中的能对决策提供支持的信息,而传
统的查询、报表工具无法满足挖掘这些信息的需求。因此,需要…种新的数据分析技术处理大量数据,并从中抽取有价值的潜在知识 ,数据挖掘(Data?Mining)技
术 由此应运而生 。
[关键词]数据挖掘技术 聚类 关联
中图分类号:TH49 文献标识码 :A 文章编号:1009—914X(20l5)07—0364一O1
一 数据挖掘技术的功能 数据库中两个或者多个数据项之间的关系,可以用来寻找大量数据之间的相关
1、类 /概念描述 性或者关联性 ,进而可以对事物某些属性同时出现的规律和模式进行描述。由
所谓的类 /概念描述就是指将数据与类或概念相关联 ,对每个类 /或概念 于关联规则不收因变量的限制,所以在数据挖掘中关联规则得到了广泛的应
用精确的、简洁的、汇总的方式进行描述。采用的描述方法主要有 :数据特征化、 用。关联规则可以进行多维数据之间的相关牲分析,所以关联规则适用于发现
数据分区和数据特征比较。数据特征化就是目标类数据的一般特征或特征的汇 大型数据集 中数据之间的关系。其中购物篮分析是关联规则应用的一个典型。
总。通过数据库查询收集用户指定类的数据,采用多种方式实现数据特征化和 通过调查顾客同时频繁购买哪些商品来分析商品之间的关联 ,通过分析大量顾
汇总,也可以运用多种形式提供数据输出,也可以采用规则形式或者概化关系 客购买的不同商品之间的联系,来进一步分析顾客的购物方式和购物习惯。经
进行结果描述 。所谓数据区分就是:分“析比较多个对比类对象的一般特征或者 过这样的分析,可以为零售商制定营销策略提供参考。
目标类对象的一般特征。对比类和 目标类由用户确定,通过数据库查询和检索 3、决策树方法
相对应的数据。”还有一种形式就是数据特征化的比较。 利用信息论中的互信息(信息增益屠 找数据库中具有最大信息量的字段,
2、分类和预测 建立决策树的一个结点,再根据字段的不同取值建立树 的分支;在每个分支子
分类就是找出描述并区分数据类或概念的模型,这样可以较好地使用模型 集中重复建立树的 F层结点和分支的过程 ,即可建立决策树。国际上最有影响
预测类对未知对象类进行标记。基于对训练数据集分析的导出模型可以表示为 和最早的决策树算法是Quiulan研制的ID3方法,数据库越大它的效果越好。此
多种形式,例如 :判定树、数学公式、分类规则和神经网络等。其中判定树是一个 后又发展了各种决策树方法 ,~JIIBLE方法使识别率提高r10%。
类似于流程图的树结构,在这个树结构中,树叶代表类分布或者类,分支代表测 4、概念树方法
试的一~个输出,每个节点代表一个屙洼值上的测试。判定树容易转化为分类规 对数据库中记录的属性字段按归类方式进行抽象,建立起来的层次结构称
则。数据对象的类标记可以用分类来预测,预测通常指被预测的值是数据数值。 之为概念树。利用概念树提升的方法可以大大浓缩数据库中的记录。对多个属
3、聚类分析 性字段的概念树进行提升,将得到高度概括的知识基表 ,然后可再将它转换成
聚类就是把物理或者抽象对象的集合分组成为由类似的对象组成的多个 规则 。
类的过程。首先就是要把数据对象分组为多个簇或者类,不同簇中的对象差别 数据挖掘现在越来越为更多的人们所关注,被认为是未来最有发展前景和
大 ,而同在一个类或者簇中的对象相似性较大
文档评论(0)