- 0
- 0
- 约3.82千字
- 约 30页
- 2019-04-26 发布于天津
- 举报
人工智能数据挖掘算法介绍综述数据挖掘数据挖掘是从大量数据中提取出有效的新颖的有潜在作用的可信的并能最终被人理解的模式的非平凡的处理过程数据建模验证应用的一个阶段与等同数据挖掘与其他学科的关系数据挖掘与只能限制于少量的维度和数据类型用户控制的流程假设验证结论没有明确假设的前提下去挖掘信息发现知识具有未知有效可实用三个特征能自动的发现隐藏在数据中的规律可以发现比更复杂而细致的信息未知归纳结论联系数据挖掘与统计学数据挖掘数据挖掘利用了统计人工智能数据库等技术把这些高深复杂的技术封装起来使人们不用自己掌
* 人工智能 A.I.: Artificial Intelligence 数据挖掘算法介绍 --综述 数据挖掘 数据挖掘是从大量数据中提取出有效的、新颖的、有潜在作用的、可信的、并能最终被人理解的模式(pattern)的非平凡的处理过程。 KDD DM KDD KDD:knowledge discovery in database 数据 建模 验证 应用 DM DM:dataming——KDD的一个阶段 KDD与DM等同 DM is like setting up a restaurant kitchen... Starting a restaurant kitchen Data Mining Food/Info Cooks/Team Kitchen/DWH 数据挖掘与其他学科的关系 Data Mining Database Technology Statistics Other Disciplines Information Science Machine Learning (AI) Visualization 数据挖掘与OLAP OLAP(on-line analytical processing): 只能限制于少量的维度和数据类型 用户控制的流程 假设——验证——结论 DM: 没有明确假设的前提下去挖掘信息、发现知识——具 有未知、有效、可实用三个特征 能自动的发现隐藏在数据中的规律 可以发现比OLAP更复杂而细致的信息 未知——归纳——结论 联系: OLAP——DM OLAM 数据挖掘与统计学 数据挖掘: 数据挖掘利用了统计、人工智能、数据库等技术,把这些高深复杂的技术封装起来,使人们不用自己掌握这些技术也能完成同样的功能,并且更专注于自己所要解决的问题 ; 不仅仅是统计分析; 统计分析: 统计分析技术都基于完善的数学理论和高超的技巧,预测的准确度还是令人满意的,但对使用者的要求很高 联系 统计分析方法学的延伸和扩展 很多的挖掘算法来源于统计学 前景 预言: 著名的咨询公司 Gartner Group在(2000年)一次高级技术调查将数据挖掘和人工智能列为“未来三到五年内将对工业产生深远影响的五大关键技术”之首,并且还将并行处理体系和数据挖掘列为未来五年内投资焦点的十大新兴技术前两位 国外现状: 成熟、 产品:SAS、CLEMENTINE、UNICA、各大数据库 国内现状: 起步 产品:大部分是实验室产品 数据挖掘分类 挖掘对象 基于数据库的挖掘 基于web的挖掘 基于文本的挖掘 其他:音频、视频等多媒体数据库 数据挖掘分类 应用 响应模型 交叉销售 价值评估 客户分群 数据挖掘分类 挖掘模式 预测型(Predictive) 描述型(Descriptive) 实际作用可分为以下几种模式: 分类:对没有分类的数据进行分类; 预测:用历史来预测未来; 关联分析:关联规则; 聚类:物以类聚; 序列模式:在多个数据序列中发现共同的行为模式; 描述和可视化:数据挖掘的结果的表示形式; 偏差分析:从数据分析中发现异常情况。 数据挖掘分类 我的理解-挖掘的算法分为三个层次: 模式:比如分类、聚类-》 模型:决策树、神经网络-》 算法:ID3、CHAID、BP 举例: 分类-决策树-ID3、CHAID等; 聚类-聚类分析-k-means、EM等。 数据挖掘分类 挖掘模型 决策树(decision tree) 关联规则(association rules) 聚类(clustering) 神经网络(Artificial Neural Networks,简记作ANN) 粗糙集(rough set) 概念格(concept lattice) 遗传算法(genetic algorithms) 序列模式(sequence pattern) 贝叶斯(Bayes) 支持向量机(support vector machine,简记作SVM) 模糊集(fuzzy set) 基于案例的推理(case-based reasoning,简记作CBR) 决策树 决策树学习是以实例为基础的归纳学习算法,着眼于从一组无次序/无规则的事例中推理出决策树表示形式的分类规则; 决策树基本算法是:贪心算法,它以自顶向下递归、各个击破方式构造决策树. 关联规则 关联规则是形式如下的一种规则,“在购买面包和黄油的顾客中,有90%的人同时也买了牛奶”(面包+黄油 → 牛奶); 关联规则的“三度”:支持度、可信度、兴趣度。 聚类 聚类是根据数据的不同特征,将其划分为不同的簇(cluster),目的是使得属于同一个簇中的对象之间具有较高的相似度,而不同簇中的对象差别(相异度)较大; 聚类技术大致分为五种: 划分方法(partit
您可能关注的文档
最近下载
- 奇瑞捷途6MF22A变速器使用维修手册.pdf
- 《阿Q正传》语言特色赏析备课札记(含课后练习题).docx VIP
- 茅台学院《高等数学(II)》2025 - 2026学年第一学期期末试卷.docx VIP
- 八年级下册《家庭社会法治》教案全册.pdf VIP
- 危重患者的早期识别与处理ppt.pptx VIP
- 江西省建设工程施工监理服务费计费规则.doc VIP
- IPX防水等级标准(0-8级).docx
- 医学文献检索:中外文医学文献检索与获取全攻略.pptx VIP
- SBT 11185-2017 药品批发企业对供应商管理规范.doc VIP
- (高清版)B-T 9441-2021 球墨铸铁金相检验.pdf VIP
原创力文档

文档评论(0)