- 1、本文档共50页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
主要内容 什么是数据挖掘 行业前景 示例: 学生分组 主要任务 回归预测 推荐系统 数据挖掘的主要任务 数据总结 聚类 分类 关联分析 数据总结 对数据进行浓缩,给出它的总体综合描述 将数据库中的有关数据从较低的个体层次抽象总结到较高的总体层次上,从而实现对原始基本数据的总体把握 最简单的数据总结方法是利用统计学中的传统方法,计算出数据库中各个数据项的总和、平均、方差、最大值、最小值等基本描述统计量。或者通过利用统计图形工具,对数据制作直方图、饼状图等 聚类 聚类(Clustering) 解决的是事物分组的问题,目的是将类似的事物放在一起 前面对学生进行分组的过程即聚类 聚类 算法 分类 分类(Classification)是解决“这是什么?”的问题,分类所承担的角色就如同回答小孩子的问题“这是一只船”,“这是一棵树”等。 把每个数据点分配到合适的类别中,即所谓的“分类” 分类 算法 邮件 正常邮件 垃圾邮件 例如,邮件系统接收到一封陌生邮件时,算法能识别出该邮件是否垃圾邮件。聚类能将一堆邮件分成两组,但不知道哪组是垃圾邮件 分类算法的训练 为了回答“这是一只船”的问题,我们需要先“训练”分类算法,告诉它“什么样的东西是船” 经过训练,算法所学习到的知识称为“模型”,接下来算法可以利用训练得到的“模型”来回答“这是什么”的问题 分类的两个步骤 训练模型:对一个类别已经确定的训练集创建模型 用于创建模型的数据集叫做训练集 每一条记录都属于一个确定的类别(class) 模型使用:用创建的模型预测未来或者类别未知的记录 估计模型的准确率: 使用创建的模型在一个测试集上进行预测,并将结果和实际值进行比较。 测试集和训练集是独立的 分类过程:训练模型 训练集 分类算法 模型 IF 气温低 THEN 不适合运动 ...... 分类过程:使用模型 未分类数据 (天气晴,温度高,湿度中等) 分类算法 模型 不适合运动 有监督和无监督学习 监督学习 (Supervised learning) 训练集是带有类标签的,例如邮件系统中针对每封训练邮件,都标记好是否垃圾邮件 学习是在训练样本的“指导”下操作的,“指导”指每个训练样本都有一个明确的结论(类别),故称有“监督”学习 分类算法是有监督的机器学习算法 无监督学习 (Unsupervised learning) 学习不是在训练样本的“指导”下操作的 让计算机自己去学习怎样做一件事情 聚类算法是无监督的机器学习算法 关联分析 (Association Analysis) 去超市购买东西时,我们经常会一起购买多种商品,有些商品的关联是非常明显的,比如铅笔和作业本,所以它们经常被放在同一货架上 但有些商品的关联却不那么显而易见,但这种关联一定是隐藏在大量的销售数据中 从大规模数据集中寻找物品间的隐含关系的过程称为关联分析 关联分析 (Association Analysis) 你能发现下面的销售数据中的关联规则吗? 尿布 → 啤酒 尿布 → 豆奶 ... 主要内容 什么是数据挖掘 行业前景 示例: 学生分组 主要任务: 聚类、分类、关联分析 回归预测 推荐系统 预测表白成功率 表白是一件极其危险的事情,表白成功了就从此快乐幸福,失败了则可能连朋友都做不成 但是我相信这背后一定有某种潜在的“模式”,如果可以使用数据挖掘和机器学习技术找到其背后的模式,训练出一个模型,那我们就可以在表白前先预测表白的成功率,以避免不必要的尴尬。这可行吗? 预测表白成功率 表白成功与否和女生的特点以及表白方式应该会有关系,例如是否喜欢看韩剧,是否喜欢运动,性格是内外还是外向,是否在公开场合表白...我们用 x1, x2, x3 ... 来表示这些特征,再用 y 来表示表白成功率。y和x1, x2, x3...应该会呈现出某种关系,我们把它写成如下形式: 其中w1, w2, w3是一些未知参数,我们假设 y 和 x1, x2, x3...通过 w1, w2, w3 来产生关系 x1, x2, x3...都是已知的,假如我们可以通过某种方式得到w1, w2, w3...的值,那就可以得到 y 的值,即表白成功率! 如何得到w1, w2, w3...的值?使用数据挖掘和机器学习技术,从大量别人的表白经验中“学习”出来 回归预测 寻求变量之间近似的函数关系,建立起回归方程,并用于预测 例子中的变量间呈线性关系,故称为线性回归 回归算法可用于分类,属于有监督学习 “回归”的由来 弗朗西斯·高尔顿爵士(Sir Francis Galton,1822-1911),英国生物学家,他研究了父母身高与子女身高之间关系后得出,若父母身高高于平均大众身高,则其子女身高倾向于倒退生长,即会比其父母身高矮一些而更接近于大众平均身高。若父母身高小于平
您可能关注的文档
最近下载
- 北极介绍课件.pptx VIP
- 2022部编版小学六年级语文上册《书戴嵩画牛》说课课件(含教学反思).pptx VIP
- 彩钢屋顶防水涂料施工方案.docx
- 2024年贵州城市职业学院招聘笔试真题带答案详解.docx VIP
- 成人隐匿性自身免疫性糖尿病学习课件.pptx VIP
- 题型09 主观题之启示警示类-2024年中考《道德与法治》答题模板与技巧(解析版).docx VIP
- 6、建筑门窗五金配件产品质量检测报告(GD2106006).doc VIP
- [北京]电力电缆隧道工程施工组织设计(浅埋暗挖法).doc VIP
- 2024年人教版版九年级上册新教材深度解读【化学】.docx
- 沧州南皮县检察院聘用制书记员考试真题库2023 .docx VIP
文档评论(0)