[工学]地理信息系统算法第十章.ppt

下载文档 降价啦

0
0
约8.93千字
约 59页
2018-03-09 发布于浙江
举报
版权申诉
保障服务

[工学]地理信息系统算法第十章.ppt

1、本文档共59页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

[工学]地理信息系统算法第十章

空间数据挖掘算法一、概念和术语 1.1 数据挖掘 / 知识发现（1）数据挖掘是从存放在数据集中的大量数据挖掘出有趣知识的过程。（2）数据挖掘，又称为数据库中知识发现（Knowledge Discovery in Databases）或知识发现，它是一个从大量数据中抽取挖掘出未知的、有价值的模式或规律等知识的非平凡过程，它与数据仓库有着密切的联系。（3）广义的数据挖掘是指知识发现的全过程；狭义的数据挖掘是指统计分析、机器学习等发现数据模式的智能方法，即偏重于模型和算法。（4）数据库查询系统和专家系统不是数据挖掘！在小规模数据上的统计分析和机器学习过程也不应算作数据挖掘。 1.2 机器学习（1）对于某类任务T和性能度量P，如果一个计算机程序在T上以P衡量的性能随着经验E而自我完善，那么这个计算机程序被称为在从经验E学习。（2）机器学习是知识发现的一种方法，是指一个系统通过执行某种过程而改进它处理某一问题的能力。 1.3 数据挖掘的对象（1）关系型数据库、事务型数据库、面向对象的数据库；（2）数据仓库 / 多维数据库；（3）空间数据（如地图信息）（4）工程数据（如建筑、集成电路的信息）（5）文本和多媒体数据（如文本、图象、音频、视频数据）（6）时间相关的数据（如历史数据或股票交换数据）（7）万维网（如半结构化的HTML，结构化的XML以及其他网络信息） 1.4 数据挖掘的步骤（1）数据清理（消除噪音或不一致数据，补缺）；（2）数据集成（多种数据源可以组合在一起）；（3）数据选择（从数据库中提取相关的数据）；（4）数据变换（变换成适合挖掘的形式）；（5）数据挖掘（使用智能方法提取数据模式）；（6）模式评估（识别提供知识的真正有趣模式）；（7）知识表示（可视化和知识表示技术）。 1.6 数据分类的基本过程 (1)第一步：对一个类别已经确定的数据集创建模型。用于创建模型的数据集称为训练集，训练集中单个元组称为训练样本。训练集中每一个元组都属于一个确定的类别，类别用类标号标识。 (2)第二步：使用创建的模型将类别未知的元组归入某个或某几个类中。 1.6 支持数据挖掘的关键技术（1）数据库 / 数据仓库 / OLAP （2）数学 / 统计（回归分析：多元回归、自回归；判别分析：Bayes判别、Fisher判别、非参数判别；主成分分析、相关性分析；模糊集；粗糙集）（3）机器学习（聚类分析；关联规则；决策树；范例推理；贝叶斯网络；神经网络；支持向量机；遗传算法）（4）可视化：将数据、知识和规则转化为图形表现的形式。二、决策树分类概述决策树学习是归纳推理算法。它是一种逼近离散函数的方法，且对噪声数据有很好的健壮性。在这种方法中学习到的知识被表示为决策树，决策树也能再被表示为多个if-then的规则，以提高可读性。决策树提供了一种展示类似在什么条件下会得到什么值这类规则的方法。比如，在贷款申请中，要对申请的风险大小做出判断，右图是为了解决这个问题而建立的一棵决策树，从中我们可以看到决策树的基本组成部分：决策节点、分支和叶子。决策树中最上面的节点称为根节点，是整个决策树的开始。本例中根节点是“收入￥40,000”，对此问题的不同回答产生了“是”和“否”两个分支。　决策树的每个节点子节点的个数与决策树在用的算法有关。如CART算法得到的决策树每个节点有两个分支，这种树称为二叉树。允许节点含有多于两个子节点的树称为多叉树。　每个分支要么是一个新的决策节点，要么是树的结尾，称为叶子。在沿着决策树从上到下遍历的过程中，在每个节点都会遇到一个问题，对每个节点上问题的不同回答导致不同的分支，最后会到达一个叶子节点。这个过程就是利用决策树进行分类的过程，利用几个变量（每个变量对应一个问题）来判断所属的类别（最后每个叶子会对应一个类别）。例子：假如负责借贷的银行官员利用上面这棵决策树来决定支持哪些贷款和拒绝哪些贷款，那么他就可以用贷款申请表来运行这棵决策树，用决策树来判断风险的大小。“年收入￥40,00”和 “高负债”的用户被认为是“高风险”，同时“收入￥40,000” 但“工作时间5年”的申请，则被认为“低风险”而建议贷款给他/她。到现在为止我们所讨论的例子都是非常简单的，树也容易理解，当然实际中应用的决策树可能非常复杂。假定我们利用历史数据建立了一个包含几百个属性、输出的类有十几种的决策树，这样的一棵树对人来说可能太复杂了，但每一条从根结点到叶子节点的路径所描述的含义仍然是可以理解的。决策树的这种易理解性对数据挖掘的使用者来说是一个显著的优点。　然而决策树的这种明确性可能带来误导。比如，决策树每