- 1、本文档共49页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
******CEP(ComplexEventProcessing,复杂事件处理)**左边是说民众拿着存有个人健康信息的存储设备到健检中心检查或者到医院就医,结束后再把资料存至存储设备右边是说数据存回后可进行个人之健康管理(可透过健检中心、健康管理机构之健康管理咨询服务,医院之健康管理门诊或由养护机构协助健康管理)除此之外还可透过网络个人健康信息储存空间如个人健康DataBank来存取个人健康信息个人健康信息包括:个人病历数据、个人之饮食纪录、运动纪录等数据(此部分由个人自行提供)由于用U盘储等设备存数据无法整合,所以有透过网络个人健康信息储存空间如个人健康DataBank或ISP*CEP(ComplexEventProcessing,复杂事件处理)*CEP(ComplexEventProcessing,复杂事件处理)**3、大数据相关技术——实时流式计算实时计算一般都是针对海量数据进行,除了像非实时计算的需求(如计算结果准确)以外,实时计算最重要的一个需求是能够实时响应计算结果,一般要求为秒级。3、大数据相关技术——数据分析流程滥用缩写词数据输入错误数据中的内嵌控制信息不同的惯用语重复记录丢失值拼写变化不同的计量单位过时的编码含有各种噪声数据污染格式标准化异常数据清除错误纠正重复数据的清除数据处理大数据预处理技术主要完成对已接收数据的辨析、抽取、清洗等操作目的是将数据按统一的格式提取出来,然后再转化,集成,载入数据仓库的工具(ETL)抽取:因获取的数据可能具有多种结构和类型,数据抽取过程可以帮助我们将这些复杂的数据转化为单一的或者便于处理的构型,以达到快速分析处理的目的。清洗:对于大数据,并不全是有价值的,有些数据并不是我们所关心的内容,而另一些数据则是完全错误的干扰项。因此要对数据通过过滤“去噪”从而提取出有效数据3、大数据相关技术——大数据预处理技术3、大数据相关技术——大数据分析挖掘技术方法分类根据挖掘任务:分为分类或预测模型发现、数据总结、聚类、关联规则发现、序列模式发现、依赖关系或依赖模型发现、异常和趋势发现等等根据挖掘对象:可分为关系数据库、面向对象数据库、空间数据库、时态数据库、文本数据源、多媒体数据库、异质数据库、遗产数据库以及环球网Web根据挖掘方法:可分为机器学习方法、统计方法、神经网络方法和数据库方法。重点技术数据挖掘算法。分割、集群、孤立点分析还有各种算法让我们精炼数据,挖掘价值。这些算法要能够应付大数据的量,同时还具有很高的处理速度。预测性分析。预测性分析可以让分析师根据图像化分析和数据挖掘的结果做出一些前瞻性判断。语义引擎。人工智能从数据中主动地提取信息。包括机器翻译、情感分析、舆情分析、智能输入、问答系统等。数据质量和数据管理。透过标准化流程和机器对数据进行处理可以确保获得一个预设质量的分析结果。顾名思义,数据挖掘就是从大量的数据中挖掘出有用的信息数据挖掘技术投入商用的三种基础技术已发展成熟海量数据搜集强大的分布式并行处理技术数据挖掘算法知识发现(KDD):从源数据中发掘模式或联系的方法KDD被用来描述整个数据发掘的过程,包括最开始的制定业务目标到最终的结果分析,而用数据挖掘(DM,DataMining)来描述使用挖掘算法进行数据挖掘的子过程。数据挖掘所发现的知识有以下四类:广义知识:指类别特征的概括性描述知识关联知识:反应一个事件和其他事件之间依赖或关联的知识分类知识:反应同类事物共同性质的特征性知识和不同事物之间的差异性特征知识预测性知识:根据时间序列型数据,由历史的和当前的数据去推测未来的数据。3、大数据相关技术——大数据分析挖掘之数据挖掘与知识发现关联规则挖掘:在交易数据、关系数据或其他信息载体中,查找存在于项目集合或对象集合之间的频繁模式、关联、相关性、或因果结构。应用:购物篮分析、交叉销售、产品目录设计、loss-leaderanalysis、聚集、分类等。买尿布的客户二者都买的客户买啤酒的客户结论:买啤酒和尿布的客户,占50%在买啤酒的客户中,67%会买尿布3、大数据相关技术——大数据分析挖掘之关联分析序列模式定义:给定一个由不同序列组成的集合,其中,每个序列由不同的元素按顺序有序排列,每个元素由不同项目组成,同时给定一个用户指定的最小支持度阈值,序列模式挖掘就是找出所有的频繁子序列,即该子序列在序列集中的出现频率不低于用户指定的最小支持度阈值应用领域:客户购买行为模式预测Web访问模式预测疾病诊断自然灾害预测DNA序列分析工业控制关联解决了大量数据中的“关联”关系问题
文档评论(0)