- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
浅议数据挖掘的方法
浅议数据挖掘的方法
数据挖掘的研究融合了多个不同学科领域的技术成果,其方法由人工智能、机器学习的方法发展而来,结合传统的统计分析方法、模糊数学方法及可视化技术,以数据源为研究对象,形成了以下几种数据挖掘的方法。
1.统计分析方法
统计分析方法是利用统计学原理对数据库中的数据进行分析,从而找出它们之间的关系和规律的方法。统计分析一直是分析空间数据的常用方法,侧重空间物体和现象的非空间特性分析。统计分析方法包括线性与非线性分析、相关分析、回归分析、差异分析、判别分析、Bayes网络等。统计分析方法的缺点是难以处理字符型数据,需要具有领域知识和统计知识,一般由具有统计经验的领域专家来完成。
2.基于集合论的数据挖掘方法
集合论(简称集论)是一门研究集合(由一些抽象数学对象构成的整体)的数学理论。集论(加上逻辑和谓词演算)是数学的公理化基础之一,通过集合、元素及成员关系来形式化地表示其他数学对象。基于集合论的数据挖掘方法包括覆盖正例排斥反例方法、概念层次网络方法和基于粗糙集理论方法,其中应用最广泛的是粗糙集(RS)理论方法。这三种方法中都使用了集合理论中的一些概念和原理,并涉及到大量的集合运算。
粗糙集理论(Rough Set Theory)是波兰学者Z.Pawlak在1982年提出的,它被广泛研究并应用于不精确、不确定、不完全的信息分类分析和知识获取。粗糙集(RS)作为集合论的扩展,是一种用于研究不完全和不完整信息描述的数据挖掘技术,它能够在缺少数据先验知识的情况下,以考察数据的分类能力为基础,解决模糊或不确定数据的分析和处理。
覆盖正例排斥反例方法是利用覆盖所有正例、排斥所有反例的思想来寻找规则。首先在正例集合中任选一个种子,到反例集合中逐个比较。与字段取值构成的选择子相容则舍去,相反则保留。按此思想循环所有正例种子,将得到正例的规则(选择子的合取式),比较典型的算法有Michalski的AQ11方法、洪家荣改进的AQ15方法和AE5方法。
概念层次网络(HNC)理论是关于自然语言理解处理的一个理论体系,它建立了网络式概念符号基元体系,即概念表述的数学表示式,这个表示式能够与自然语言的词语建立起语义映射关系,同时它是高度数字化的,每一个符号基元(字母或数字)都具有确定的意义,可充当概念联想的激活因子。语义网络是树状的分层结构,每一层的若干节点分别用数字来表示,网络中的任何一个节点都可以通过从最高层开始到该节点结束的一串数字唯一确定。HNC通过概念符号基元体系把自然语言映射到概念空间,数字化的概念表达式可以树形展开,这样才能充分利用概念符号化带来的优点对概念进行各种运算和操作。
3.决策树方法
决策树是通过一系列规则对数据进行分类的过程,其表现形式是类似于树形结构的流程图。首先,以信息论中的信息增益原理为基础,寻找数据库中最大信息量的字段,建立决策树的根节点;然后根据字段的不同属性值建立树的分枝,再在每个分枝子集中递归建立树的下层分枝和节点,非叶子节点表示属性,最下层的叶子节点表示数据集的子类类别,这样便生成一棵决策树;最后对决策树进行剪枝处理,通过树形结构产生一组规则,依照规则将数据集分类。它着眼于从一组无序、没有规则的数据中推理出决策树表示形式的分类规则。决策树方法的优点是决策制定的过程可见,不需要长时间构造过程,描述简单、易于理解、分类速度快;缺点是很难基于多个变量组合发现规则。决策树方法擅长处理非数值型数据,而且特别适合大规模的数据处理。常用的决策树算法有 CLS算法、ID3 算法、C4.5 算法等。
4.聚类分析方法
聚类分析方法是根据数据特征,按一定的距离或相似性系统,将数据分成一系列相互区分的类,划分的标准是类内差别最小、类间差别最大。即将实体对象或抽象对象的集合分组,这个由类似的对象组成的多个类的过程称为聚类。通过聚类以后,数据集就转化为类集,同类数据具有相似的变量值,不同类数据的变量值不具有相似性。在知识模式类型无法得知的情况下,可以运用聚类分析法进行分类、识别。按照模式间的相似程度进行自动分类的聚类分析法,能够将相似度大的模式归为一类。按聚类过程分,聚类分析法有凝聚算法、分裂算法、增量聚类和划分聚类。按相似性系统,聚类算法可以分成基于距离的方法、基于层次的方法、基于密度的方法以及基于网格的方法。例如,层次方法就是按照一定的层次分解给定的数据对象集合,可以分为分裂层次方法和凝聚层次方法。聚类分析法适用于分析样本之间的内部关系,合理的评价样本结构。此外,孤立点的检测也可以应用聚类分析。聚类是为了将某个对象从大量的数据中分离出来,而不是简单地将数据集合在一起。目前,聚类分析法已广泛应用于图像处理、模式识别、经济分析等多个研究领域。
5.人工
您可能关注的文档
最近下载
- 托育服务人员的培训与教育.docx
- 冀人版-第11课 电在我家(教学课件).pptx VIP
- 食品安全突发事件应急处置培训课件.pptx VIP
- 2025至2030中国电镀行业发展空间与未来投资走势预测报告.docx VIP
- 汽车智能底盘原理及技术 第3章 线控制动系统.ppt VIP
- 大学课程《工程制图与识图》PPT课件:第三章 基本体的投影 第一节 平面体的投影.pptx VIP
- FANUC数控系统0i-F Plus维修说明书(非常详细).pdf VIP
- 中医基础理论-体质学说 赖伟.ppt VIP
- 生产组织培训课件.pptx VIP
- 工业机器人离线编程与仿真(ABB)高职全套教学课件.pptx VIP
文档评论(0)