网站大量收购闲置独家精品文档,联系QQ:2885784924

大数据技术概述.ppt

  1. 1、本文档共49页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘的功能类型 关联规则 序列模式 聚类挖掘 分类挖掘 预测挖掘 孤立点挖掘 文本挖掘 网络挖掘 …… 关联规则(Association) 反映一个事件和其他事件之间依赖或关联的知识 如果两项或多项属性之间存在关联,那么其中一项的属性值就可以依据其他属性值进行预测 可以用关联规则的形式表示 规则形式: “A ? B [support, confidence]”. 应用: 业务相关性分析 交叉销售 货架摆放位置 页面结构设计等 挖掘顺序发生的事件中的模式 给定序列数据库和最小支持度阈值,序列模式挖掘就是要找出序列数据库中所有的序列模式 序列模式挖掘 序列模式挖掘 应用: 用户访问模式预测 用户移动模式挖掘 用户点击流分析 DNA序列分析 自然灾害预测 疾病病症预测 …… 聚类(Clustering) 最大化类内的相似性、最小化类间相似性的原则进行聚类或者分组,使得在一个类中的对象具有很高的相似性,而与其他类中的对象很不相似 簇(Cluster):一个数据对象的集合 在同一个类中,对象之间具有相似性 不同类的对象之间是相异的 聚类分析:把一个给定的数据对象集合分成不同的簇 特点:一种无监督分类法,没有预先指定的类别 Page* 聚类挖掘的应用 用户细分与市场营销: 帮助市场人员发现客户中的不同群体,然后用这些知识来开展一个目标明确的市场计划; 土地使用: 在一个陆地观察数据库中标识那些土地使用相似的地区; 保险: 对购买了汽车保险的客户,标识那些有较高平均赔偿成本的客户; 城市规划: 根据类型、价格、地理位置等来划分不同类型的住宅 Page* 聚类算法 分类(classification) 找出描述或识别数据类或概念的模型(或函数),以便能够使用模型预测未知对象的类别 模型是由训练数据集(即,其类标记已知的数据对象)训练得到 Page* 有监督和无监督学习 无监督学习 (聚类) 训练集是没有类标签的 提供一组属性,然后寻找出训练集中存在类别或者聚集 有监督学习 (分类) 训练集是带有类标签的 新的数据是基于训练集进行分类的 Page* 分类的两个步骤 模型创建: 对一个类别已经确定的训练集创建模型 用于创建模型的数据集叫做训练集 每一条记录都属于一个确定的类别,使用类标签属性记录类别 模型可用分类规则、决策树或者神经网络的形式来表达 模型使用: 用创建的模型预测未来或者类别未知的记录 模型测试 模型预测 使用创建的模型在一个测试集上进行预测,并将结果和实际值进行比较 测试集和训练集是独立的 使用靠谱的模型预测未知对象的类 常用分类算法 基本算法 决策树 贝叶斯 KNN 组合方法 随机森林 Bagging adaboost 高级算法 神经网络 支持向量机 …… 预测 回归预测 时间序列预测 …… 数据库中可能包含一些数据对象,它们与数据的一般行为或模型很不一致,这些对象称作孤立点 孤立点包括很多潜在的知识,如分类中的反常实例、不满足规则的特例、观测结果与模型预测值的偏差、量值随时间的变化等 孤立点(Outlier)挖掘 搜索引擎 舆情系统 文本推荐 微博新闻线索发现 用户评论分析 …… 文本挖掘 Page* 微博传播 话单网络 邮件网络 用户关系网络 用户搜索网络 用户兴趣网络 用户路径云图 …… 网络挖掘 大数据概述 大数据平台架构 数据平台功能规划 大数据核心技术——Data Ming 目录 案例展示 用户行为路径 用户搜索网络 …… 英文联系文字:9-10pt 字体 :Arial 中文联系文字:10-12pt 字体:华文细黑 首选颜色: :R255 G255 B255 大数据技术概述 大数据概述 大数据平台架构 数据平台功能规划 大数据核心技术——Data Ming 目录 案例展示 大数据 大数据时代的背景 QQ、facebook 社交网络 Google baidu 淘宝、ebuy 电子商务 超级TV 微信、微博、Apps 移动互联 游戏 21世纪是数据信息大发展的时代,移动互联、社交网络、电子商务等极大拓展了互联网的边界和应用范围,各种数据正在迅速膨胀并变大。 互联网(社交、搜索、电商)、移动互联网(微博)、物联网(传感器,智慧地球)、车联网、GPS、医学影像、安全监控、金融(银行、股市、保险)、电信(通话、短信)都在疯狂产生着数据。 半个世纪以来,随着计算机技术全面融入社会生活,信息爆炸已经积累到了一个开始引发变革的程度。它不仅使世界充斥着比以往更多的信息,而且其增长速度也在加快。信息爆炸的学科如天文学和基因学,创造出了“大数据”这个概念*。如今,这个概念几乎应用到了所有人类智力与发展的领域中。 大数据的产生 大数据的4V特征 体量V

文档评论(0)

骨干 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档