数据挖掘实习.ppt

下载文档 降价啦

1
0
约1.92千字
约 23页
2017-06-04 发布于湖北
举报
版权申诉
保障服务

数据挖掘实习.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

实习生：王漪指导导师：赵昕实习工作总结汇报目录 2/23 一、数据遇上挖掘 -------------------------------- 3/23 一、数据挖掘解决四类问题--分类 4/23 描述 --分类问题属于预测性的问题 --预测结果是类别（类别A、B或C），而不是数字 应用 --电信行业：根据客户基本信息，预测他会不会离网 --银行业：某客户的信用度是好/一般/差，是否批准其贷款请求 --。。。 --邮件应用：垃圾邮件过滤及邮件自动分类 --网页自动分类：基于网页内容分类 --。。。结构化数据非/半结构化数据二、数据挖掘解决的四类问题--聚类 5/23 描述 --把一群对象划分为若干组 --不属于预测问题 --分类与聚类的区别 应用 --客户细分：选择客户消费行为习惯的若干指标对用户群进行划分：特征相似的用户聚为一类，特征相似度低的聚在不同类。三、数据挖掘解决的四类问题--关联 6/23 描述 --从大量数据中挖掘出数据项之间相互联系的有价值的知识。 --一群用户购买了很多产品，哪些产品同时购买的几率比较高？买了A产品的同时买哪个产品的几率比较高？ 应用 -- 典型的应用：购物篮分析（啤酒与尿布）四、数据挖掘解决的四类问题--预测 7/23 描述 --狭义的预测，不包括之前的分类问题 --主要指预测变量的取值为连续数值型数据 --e.g. 天气预报预测气温、预计下一年度GDP增长率、电信运营商预测收入等 解决方法--回归 --Y=aX1+bX2+……nXn -- 一元回归线性回归多元回归非线性回归 --逻辑回归（Logistic回归）数据挖掘聚类关联分类预测二、文本分类流程 -------------------------------- 9/23 步骤概述 10/23 python 文本预处理 12/23 分词 特征选择加权 --降维：提高分类准确率；提高运行速度 语义映射文本-词频矩阵Document Term Matrix 三、算法 -------------------------------- 13/23 一、分类算法（1） 决策树 KNN（最近邻） SVM（支持向量机） 14/23 一、分类算法（2） 线性可分 线性不可分 15/23 一、分类算法（3）--优缺点及适用情况 决策树 --由于词条数量大，决策树很庞大，不易生成。 KNN --缺点：k值需要自己设定，不能自适应调整，需要大量实验。 --样本分布不均衡时，影响分类精度 SVM --优点：不容易过拟合 --最终决策函数依赖于少量支持向量，与样本空间维数无关，避免了维数灾难。 16/23 二、其它算法 聚类k-means --算法： 1.选择k个点作为初始质心； 2. 将每个点指派到最近的质心； 3.重新计算每个簇的质心； 4.重复2-3直至质心不发生变化。 关联规则Apriori --事务transaction --项集I={网球拍，网球，运动鞋，羽毛球} --求频繁二项集「网球拍，网球」的支持度与置信度--apriori算法 --支持度 --置信度 17/23 四、遇到的困难及解决办法 -------------------------------- 18/17 一、特征选择VS特征加权 特征选择 特征加权（10，3，4，20，5）（10，20，4，20，5） 19/23 二、准确率VS召回率 20/23 四、数据挖掘利器 -------------------------------- 21