- 1、本文档共36页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
聚类分析 聚类分析的方法(续) 基于网格的方法:把对象空间量化为具有规则形状的单元格,从而形成一个网格状结构。在聚类的时候,将每个单元格当作一条数据进行处理。优点是处理速度很快,因处理时间与数据对象数目无关,而只与量化空间中的单元格数目相关 基于模型的方法:如果事先已知数据是根据潜在的概率分布生成的,基于模型的方法便可为每个聚类构建相关的数据模型,然后寻找数据对给定模型的最佳匹配。主要分两类:统计学方法和神经网络方法 第二十页,共三十六页。 离群点分析 离群点(Outlier):数据集合中存在的一些数据对象,它们与其余绝大多数数据的特性或模型不一致 寻找离群点的意义 发现信用卡诈骗。通过检测购物地点、商品种类或者购物金额和频率,能够发现与绝大多数正常消费不一样的记录,这种行为就有可能属于信用卡诈骗性使用 预防网络诈骗。在网络销售的时候,诈骗者往往冒充商家,出售报价比正常价格低出许多的商品,这样的行为也是可以通过离群点分析被找到的 第二十一页,共三十六页。 离群点分析 寻找离群点的方法 基于统计的方法:需要事先已知数据的分布或概率模型(例如一个正态分布),然后根据数据点与该模型的不一致性检验来确定离群点 基于距离的方法:不需要数据模型,而是将那些没有足够邻居的数据对象看作是离群点,这里的邻居是基于距给定对象的距离来定义的。现有的基于距离的离群点探测算法又分为基于索引的算法,嵌套循环算法和基于单元的算法,其目的都是为了减小计算和I/O开销 基于偏移的方法:不采用统计检验或基于距离的度量值来确定异常对象。相反,它通过检查数据对象的一组主要特征来确定离群点。偏离事先给出的特征描述的数据对象被认为是离群点 第二十二页,共三十六页。 演化分析 演化分析的目的是挖掘随时间变化的数据对象的变化规律和趋势,并对其建模,进而为相关决策提供参考 演化分析的应用 对股票的演化分析可以得出整个股票市场和特定的公司的股票变化规律,为投资者决策提供帮助 对生态和气候的演化分析可以知道人类活动对自然的影响程度,为环境保护提供重要依据 … 建模方法:除了关联分析和分类分析,还包括与时间相关的数据分析方法,主要包括趋势分析、相似搜索、序列模式挖掘和与周期分析 第二十三页,共三十六页。 演化分析 与时间相关的数据分析方法 趋势分析:确定趋势的常见方法是计算数据n阶的变化平均值,或者采用最小二乘法等方法平滑数据变化曲线 相似搜索:相似搜索用于找出与给定序列最接近的数据序列 序列模式挖掘:挖掘相对时间或其它维属性出现频率高的模式 周期分析:挖掘具有周期的模式或者关联规则,例如”若每周六公司的下班时间比平时晚半小时以上,则选择打车回家的人数大约增加20%” 第二十四页,共三十六页。 13.1 数据挖掘概述 13.2 数据挖掘的基本类型和算法* 13.3 智能决策与物联网 数据挖掘在物联网背景下有着广泛的需求 本章内容 第二十五页,共三十六页。 13.3 智能决策与物联网 数据挖掘技术在物联网中的需求 精准农业 市场行销 智能家居 金融安全 产品制造和质量监控 互联网用户行为分析 … 第二十六页,共三十六页。 第13章 物联网中的 智能决策 第一页,共三十六页。 内容提要 智能决策是物联网“智慧”的来源。 本章将介绍数据挖掘的基本流程,基本类型和典型算法。 第二页,共三十六页。 第12章介绍了搜索引擎的相关知识 搜索引擎的基本组成 搜索引擎的体系结构(信息采集,索引技术,搜索服务) 物联网中搜索引擎的挑战 本章介绍数据挖掘的基本流程(预处理,数据挖掘,知识评估与表示),重点介绍几种典型的数据挖掘算法,最后讨论物联网中智能决策的新特点。 内容回顾 第三页,共三十六页。 13.1 数据挖掘概述 13.2 数据挖掘的基本类型和算法* 13.3 智能决策与物联网 什么是数据挖掘?数据挖掘有哪三个步骤? 本章内容 第四页,共三十六页。 13.1 数据挖掘概述 数据挖掘(Data Mining) 从大量数据中获取潜在有用的并且可以被人们理解的模式的过程 是一个反复迭代的人机交互和处理的过程,历经多个步骤,并且在一些步骤中需要由用户提供决策 数据挖掘的过程: 数据预处理、数据挖掘和对挖掘结果的评估与表示 每一个阶段的输出结果成为下一个阶段的输入 第五页,共三十六页。 13.1 数据挖掘概述 数据挖掘的过程 数据预处理阶段 数据准备:了解领域特点,确定用户需求 数据选取:从原始数据库中选取相关数据或样本 数据预处理:检查数据的完整性及一致性,消除噪声等 数据变换:通过投影或利用其他操作减少数据量 数据挖掘阶段 确定挖掘目标:确定要发现的知识类型 选择算法:根据确定的目标选择合适的数据挖掘算法 数据挖掘:运用所选算法,提取相关知识并以一定的方式表示 知识评估与表
文档评论(0)