- 1、本文档共15页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘技术基本理论概述
数据挖掘技术基本概述
随着数据库和计算机网络的广泛应用,加上先进的数据自动生成和采集工具的使用,人们拥有的数据量急剧增大。然而数据的极速增长与数据分析方法的改进并不成正比,一方面人们希望在已有的大量数据的基础上进行科学研究、商业决策、企业管理,另一方面传统的数据分析工具很难令人满意的对数据进行深层次的处理,这样二者之间的矛盾日益突出,正是在这种状况下,数据挖掘应运而生。数据挖掘作为一项从海量数据中提取知识的信息技术是一个以发现为驱动的过程,已经引起了学术界和产业界的极大重视。特别是从1989年8月在美国底特律召开的第11届国际人工智能联合会议上首次出现数据库中的知识发现概念以来,数据挖掘在国际国内都受到了前所未有的重视,目前数据挖掘广泛应用于各个领域,如地理学、地质学、生物医学等等,总之数据挖掘的出现使数据库技术进入了一个更高级的阶段,不仅能对过去的数据进行查询和遍历,还能够找出以往数据间潜在的联系,促进信息的传播。
数据挖掘技术概述
1、数据挖掘的定义
数据挖掘是一个从数据中提取模式的过程,是一个受多个学科影响的交叉领域,包括数据库系统、统计学、机器学习、可视化和信息科学等;数据挖掘反复使用多种数据挖掘算法从观测数据中确定模式或合理模型,是一种决策支持过程。通过预测客户的行为,帮助企业的决策者调整市场策略,减少风险,做出正确的决策。由于传统的事物型工具(如查询工具、报表工具)无法回答事先未定义的综合性问题或跨部门/机构的问题,因此其用户必须清楚地了解问题的目的。数据挖掘就可以回答事先未加定义的综合性问题或跨部门/机构的问题,挖掘潜在的模式并预测未来的趋势,用户不必提出确切的问题,而且模糊问题更有利于发现未知的事实。
2、数据挖掘的主要方法和途径
数据挖掘有很多种分类方法,如按发现的知识种类,挖掘的数据库类型,挖掘方法,挖掘途径,所采用的技术等等。下面只讨论四个应用比较广泛的方法:
关联规则(Association Rule)
在数据挖掘领域中,关联规则应用最为广泛,是重要的研究方向。表示数据库中一组对象之间某种关联关系的规则,一般来讲,可以用多个参数来描述一个关联规则的属性,常用的有:可信度,支持度,兴趣度,期望可信度,作用度。
离群数据(Outlier)
离群数据就是明显偏离其他数据、不满足数据的一般模式或行为、与存在的其他数据不一致的数据。数据挖掘的大部分研究忽视了离群数据的存在和意义,现有的方法往往研究如何减少离群数据对正常数据的影响,或仅仅把其当作噪音来对待。这些离群数据可能来源于计算机录入错误、人为错误等,也可能就是数据的真实反映
基于案例的推理(case-based reasoning, CBR)
基于案例的推理来源于人类的认知心理活动,它属于类比推理方法。其基本思想是基于人们在问题求解中习惯于过去处理类似问题的经验和获取的知识,在针对新旧情况的差异作相应的调整,从而得到新问题的解并形成新的案例。CBR方法的应用越来越受到人们的重视,在许多领域都有较好的推广前景,例如,在气象、环保、地震、农业、医疗、商业、 CAD等领域;CBR也可用在计算机软硬件的生产中,如软件及硬件的故障检测;CBR方法尤其在不易总结出专家知识的领域中,应用越来越普遍,也越来越深入。
支持向量机(Support Vector Machine,SVM)
支持向量机是近几年发展起来的新型通用的知识发现方法,在分类方面具有良好的性能。SVM是建立在计算学习理论的结构风险最小化原则之上,主要思想是针对两类分类问题在高位空间中寻找一个超平面作为两类的分割,以保证最小的分类错误率。
数据挖掘工具
伴随越来越多的软件供应商加入数据挖掘这一行列,使得现有的挖掘工具的性能得到进一步的增强,使用更加便捷,也使得其价格门槛迅速降低,为应用的普及带来了可能。当然数据仓库技术的发展同样功不可没。数据仓库是将海量复杂的客户行为数据集中起来建立的一个整合的、结构化的数据模型,是实施数据挖掘的基础,这里不作为讨论的重点。
1、数据挖掘工具分类
一般来讲,数据挖掘工具根据其适用的范围分为两类:专用数据挖掘工具和通用数据挖掘工具。专用数据挖掘工具是针对某个特定领域的问题提供解决方案,在涉及算法的时候充分考虑了数据、需求的特殊性,并作了优化;而通用数据挖掘工具不区分具体数据的含义,采用通用的挖掘算法,处理常见的数据类型。
2、数据挖掘工具的选择
数据挖掘是一个过程,只有将数据挖掘工具提供的技术和实施经验与企业的业务逻辑和需求紧密结合,并在实施的过程中不断的磨合,才能取得成功,因此我们在选择数据挖掘工具的时候,要全面考虑多方面的因素,主要包括以下几点:
数据挖掘的功能和方法
即是否可以完成各种数据挖掘的任务,如:关联分析、分类分析、序列分析、回归分析、
您可能关注的文档
- 实现有效沟通的管理技巧.doc
- 实用营销执行手册.doc
- 实战炒汇MT4 MetaTrader4平台操作简介.doc
- 使用YUI 3开发Web应用的诀窍.doc
- 世博会初体验 女厕所揭秘.doc
- 世博演义·第3章全球动荡时期的10次世博会.doc
- 世博演义·第4章和平振兴时期的8次世博会.doc
- 世博演义·第5章人与自然时期的11次世博会.doc
- 世界电影动画片简史.doc
- 世界电影史上200个电影艺术家.doc
- DB44_T 2611-2025 城市排水管网有毒有害气体监测与风险分级管理技术标准.pdf
- DB44_T 2612-2025 竞赛类科普活动策划与实施服务规范.pdf
- DB43_T 2947-2024 烟草种子质量控制规程.pdf
- DB37_T 4836-2025 煤矿风量实时监测技术要求.pdf
- 叉车防撞系统,全球前22强生产商排名及市场份额(by QYResearch).docx
- 超滤膜,全球前18强生产商排名及市场份额(by QYResearch).docx
- DB62T 4172-2020 玉米品种 酒623规范.pdf
- DB62T 4160-2020 在用真空绝热深冷压力容器综合性能在线检测方法.pdf
- DB62T 4164-2020 辣椒品种 酒椒1号.pdf
- DB62T 4133-2020 公路隧道地质超前预报机械能无损探测技术规程.pdf
文档评论(0)