- 1
- 0
- 约1.53万字
- 约 60页
- 2019-07-05 发布于湖北
- 举报
当今时代,人们面临的两大问题: “数据和信息过量,但知识贫乏”的问题。 数据挖掘和知识发现(DMKD)技术应运而生,并成为人工智能近年来研究的热点。 异构网络和异构硬软件环境下的程序跨平台互操作问题 智能Agent与多Agent系统正在崛起为人工智能领域研究分布式计算环境下软件智能化的重要技术。 1. 网络信息时代的问题 信息过量,难以消化; 真假信息难以辨识; 信息安全难以保证; 信息形式的不一致导致难以统一处理。 缺乏挖掘数据背后隐藏的知识的手段,导致了“数据爆炸但知识贫乏”的现象。 2. 解决的办法 数据库知识发现(KDD):1989年第11届国际联合人工智能学 术会议上提出。 用机器学习的方法分析数据库管理系统中存储的数据,发现数据中隐藏的规则与知识。 3. KDD的定义 Fayyad等为KDD下了这样的定义:KDD是从数据集中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程。 4. KDD过程与步骤: 数据选择和预处理(称为数据准备) 数据挖掘 发现知识 解释评价 1.数据挖掘的定义 从技术的角度:数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。 从商业的角度:数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。 简而言之:数据挖掘其实是一类深层次的数据分析方法。 2.数据挖掘与在线分析处理(OLAP) 数据挖掘与传统的在线分析处理的本质区别:数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。 在线分析处理(OLAP):建立在一些假设之上的。用户首先建立一系列假设,然后用OLAP检索数据库来验证或推翻所提假设的正确性,最终得到自己的结论。OLAP分析过程在本质上是一个演绎推理的过程,但如果分析的变量达到几十或上百个时,再用OLAP手动分析验证这些假设将是一件非常困难和痛苦的事情。 数据挖掘:不是用于验证某个假设模型的正确性,而是在数据库中自己寻找模型。其本质是一个归纳的过程。数据挖掘所得到的信息应具有先前未知、有效和可实用三个特征。 数据挖掘和OLAP的互补性:采用数据挖掘技术得出一些信息或知识后,当要把这些信息或知识应用于决策时,也许要验证一下应用这些信息或知识所制定的决策将会给企业带来什么影响,这时或许要用到OLAP工具。 3.数据挖掘的研究内容 研究内容包括基础理论、发现算法、数据仓库、可视化技术、定性定量互换模型、知识表示方法、发现知识的维护和再利用、半结构化和非结构化数据中的知识发现以及网上数据挖掘等 4.数据挖掘的分类 根据挖掘任务分:分类或预测模型知识发现;数据总结、数据聚类、关联规则发现;序列模式发现;依赖关系或依赖模型发现;异常和趋势发现等等。 根据挖掘对象分:关系数据库;面向对象数据库;空间数据库;时态数据库;文本数据源;多媒体数据库;异质数据库;遗产(legacy)数据库;万维网(Web)。 根据挖掘方法分:可粗分为:统计方法、机器学习方法、神经网络方法和数据库方法。 根据系统应用分:根据其系统的应用领域分类。如金融、电信、商业预测等。不同的应用领域通常要将一些特别适合该领域的算法进行集成,那些普通的、全能的数据挖掘系统可能并不适合特定领域的挖掘任务。 1.发现与预测 发现功能:数据挖掘就像在“数据山”上寻找挖掘“知识金块”,如果不采用强有力的工具,这些“金块”就很难找到,即使找到也会花费非常高的代价,就像大海捞针。 预测功能:用一个形象的比喻,我们使用数据挖掘,不仅可以在“数据山”中找到目前需要的“金矿”,还可以帮助我们预测新的金矿或银矿在山的什么走向上,以使我们尽快地找到新的金矿,这种能够预测未来走势信息的功能就称为预测。 2.关联规则挖掘 若两个或多个变量的取值之间存在某种规律性,就称为关联。关联分析的目的就是找出数据库中隐藏的关联规则或关联网。关联规则可记为A?B,A称为前提或左部(LHS),B称为后续或右部(RHS)。利用数据挖掘的关联分析功能所发现的规则性知识往往带有可信度。 关联规则可信度: 数据关联支持度:该关联在数据库中出现的频率。 相关例子参见教材 3.数据聚类 聚类也可以称为无监督分类(不需要训练集)。聚类是把一组个体按照相似性归成若干类别,即“物以类聚”。使得属于同一类别的个体之间的距离尽可能的小而不同类别上的个体间的距离尽可能的大。 与分类不同,在开始聚类之前你不知道要把数据分成几组,也不知道怎么分(依照哪几个变量)。 4.概念/类描述 数据可以与类
您可能关注的文档
最近下载
- 全国初级注册安全工程师职业资格考试辅导教材:安全生产实务.docx VIP
- TB∕T 3484-2017 列控系统应答器应用原则 含2025第1号修改单.docx VIP
- 非遗美术创作课件.pptx
- DB41∕T 385-2025 工业与城镇生活用水定额.pdf VIP
- DB41∕T 958-2025 农业与农村生活用水定额.pdf VIP
- Panasonic 松下 【蒸烤箱】NU-SC211W使用说明书.pdf
- 软考初级信息系统运行管理员考试题库历年真题及答案.docx VIP
- DB41∕T 3056-2025 露天矿山生态修复技术规程.pdf VIP
- 长江流域超标准洪水防御预案.docx VIP
- 中等职业学校英语教学大纲教育部.docx VIP
原创力文档

文档评论(0)