- 1、本文档共49页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘的功能类型 关联规则 序列模式 聚类挖掘 分类挖掘 预测挖掘 孤立点挖掘 文本挖掘 网络挖掘 …… 关联规则(Association) 反映一个事件和其他事件之间依赖或关联的知识 如果两项或多项属性之间存在关联,那么其中一项的属性值就可以依据其他属性值进行预测 可以用关联规则的形式表示 规则形式: “A ? B [support, confidence]”. 应用: 业务相关性分析 交叉销售 货架摆放位置 页面结构设计等 挖掘顺序发生的事件中的模式 给定序列数据库和最小支持度阈值,序列模式挖掘就是要找出序列数据库中所有的序列模式 序列模式挖掘 序列模式挖掘 应用: 用户访问模式预测 用户移动模式挖掘 用户点击流分析 DNA序列分析 自然灾害预测 疾病病症预测 …… 聚类(Clustering) 最大化类内的相似性、最小化类间相似性的原则进行聚类或者分组,使得在一个类中的对象具有很高的相似性,而与其他类中的对象很不相似 簇(Cluster):一个数据对象的集合 在同一个类中,对象之间具有相似性 不同类的对象之间是相异的 聚类分析:把一个给定的数据对象集合分成不同的簇 特点:一种无监督分类法,没有预先指定的类别 Page* 聚类挖掘的应用 用户细分与市场营销: 帮助市场人员发现客户中的不同群体,然后用这些知识来开展一个目标明确的市场计划; 土地使用: 在一个陆地观察数据库中标识那些土地使用相似的地区; 保险: 对购买了汽车保险的客户,标识那些有较高平均赔偿成本的客户; 城市规划: 根据类型、价格、地理位置等来划分不同类型的住宅 Page* 聚类算法 分类(classification) 找出描述或识别数据类或概念的模型(或函数),以便能够使用模型预测未知对象的类别 模型是由训练数据集(即,其类标记已知的数据对象)训练得到 Page* 有监督和无监督学习 无监督学习 (聚类) 训练集是没有类标签的 提供一组属性,然后寻找出训练集中存在类别或者聚集 有监督学习 (分类) 训练集是带有类标签的 新的数据是基于训练集进行分类的 Page* 分类的两个步骤 模型创建: 对一个类别已经确定的训练集创建模型 用于创建模型的数据集叫做训练集 每一条记录都属于一个确定的类别,使用类标签属性记录类别 模型可用分类规则、决策树或者神经网络的形式来表达 模型使用: 用创建的模型预测未来或者类别未知的记录 模型测试 模型预测 使用创建的模型在一个测试集上进行预测,并将结果和实际值进行比较 测试集和训练集是独立的 使用靠谱的模型预测未知对象的类 常用分类算法 基本算法 决策树 贝叶斯 KNN 组合方法 随机森林 Bagging adaboost 高级算法 神经网络 支持向量机 …… 预测 回归预测 时间序列预测 …… 数据库中可能包含一些数据对象,它们与数据的一般行为或模型很不一致,这些对象称作孤立点 孤立点包括很多潜在的知识,如分类中的反常实例、不满足规则的特例、观测结果与模型预测值的偏差、量值随时间的变化等 孤立点(Outlier)挖掘 搜索引擎 舆情系统 文本推荐 微博新闻线索发现 用户评论分析 …… 文本挖掘 Page* 微博传播 话单网络 邮件网络 用户关系网络 用户搜索网络 用户兴趣网络 用户路径云图 …… 网络挖掘 大数据概述 大数据平台架构 数据平台功能规划 大数据核心技术——Data Ming 目录 案例展示 用户行为路径 用户搜索网络 …… 英文联系文字:9-10pt 字体 :Arial 中文联系文字:10-12pt 字体:华文细黑 首选颜色: :R255 G255 B255 大数据技术概述 大数据概述 大数据平台架构 数据平台功能规划 大数据核心技术——Data Ming 目录 案例展示 大数据 大数据时代的背景 QQ、facebook 社交网络 Google baidu 淘宝、ebuy 电子商务 超级TV 微信、微博、Apps 移动互联 游戏 21世纪是数据信息大发展的时代,移动互联、社交网络、电子商务等极大拓展了互联网的边界和应用范围,各种数据正在迅速膨胀并变大。 互联网(社交、搜索、电商)、移动互联网(微博)、物联网(传感器,智慧地球)、车联网、GPS、医学影像、安全监控、金融(银行、股市、保险)、电信(通话、短信)都在疯狂产生着数据。 半个世纪以来,随着计算机技术全面融入社会生活,信息爆炸已经积累到了一个开始引发变革的程度。它不仅使世界充斥着比以往更多的信息,而且其增长速度也在加快。信息爆炸的学科如天文学和基因学,创造出了“大数据”这个概念*。如今,这个概念几乎应用到了所有人类智力与发展的领域中。 大数据的产生 大数据的4V特征 体量V
您可能关注的文档
- 大比武纳税服务类A卷.doc
- 大风吹、滚雪球、心有千千结.ppt
- 大家来找茬(带有倒计时).ppt
- 大气商业模板.ppt
- 大师手把手教你如何使用河北营改增软件.docx
- 大数据、云计算、物联网关键技术与未来.ppt
- 大数据时代机器学习的新趋势(2003版).doc
- 大数据与机械.ppt
- 大象版小学科学,五年级上册第二单元《时间的脚步》(弋增涛).doc
- 大小多少课件.ppt
- 中国国家标准 GB/T 45154-2024老龄化社会 年龄包容性劳动力通用要求与指南.pdf
- 《GB/T 45154-2024老龄化社会 年龄包容性劳动力通用要求与指南》.pdf
- 中国国家标准 GB/T 7019-2024纤维水泥制品试验方法.pdf
- GB/T 7019-2024纤维水泥制品试验方法.pdf
- GB/T 45150-2024老龄化社会 认知症包容性社群框架.pdf
- 中国国家标准 GB/T 25320.4-2024电力系统管理及其信息交换 数据和通信安全 第4部分:包含MMS的协议集及其附件.pdf
- 中国国家标准 GB/T 45150-2024老龄化社会 认知症包容性社群框架.pdf
- 《GB/T 25320.4-2024电力系统管理及其信息交换 数据和通信安全 第4部分:包含MMS的协议集及其附件》.pdf
- 《GB/Z 44938.1-2024机械电气安全 第1部分:用于保护人员安全的传感器》.pdf
- 中国国家标准 GB/T 21551.3-2024家用和类似用途电器的抗菌、除菌、净化功能 第3部分:空气净化器的特殊要求.pdf
最近下载
- JJF(闽) 1125-2022 土工布测厚仪校准规范.docx
- (已压缩)DeepSeek从入门到精通(20250204).pdf
- 高中化学思维导图_海水资源的开发利用.pdf VIP
- TGDAEM3-2022生态环境监测实验室器皿清洗技术规范.pdf
- 河南省2024年中考数学试卷(含答案).docx VIP
- 人教版数学四年级下册第2单元综合检测卷(含答案).doc VIP
- 全国教育科学规划课题申报书:61.《国家安全全民教育体系构建研究》 .pdf
- 中南大学2021-2022学年第1学期《高等数学(上)》期末考试试卷(B卷)及标准答案.pdf
- 2024年湖南石油化工职业技术学院单招职业技能测试题库及一套完整答案.docx VIP
- 全国与各省份地图(PPT模板可编辑颜色).ppt VIP
文档评论(0)