数据挖掘实习.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
实习生:王漪 指导导师:赵昕 实习工作总结汇报 目录 2/23 一、数据遇上挖掘 -------------------------------- 3/23 一、数据挖掘解决四类问题--分类 4/23 描述 --分类问题属于预测性的问题 --预测结果是类别(类别A、B或C),而不是数字 应用 --电信行业:根据客户基本信息,预测他会不会离网 --银行业:某客户的信用度是好/一般/差,是否批准其贷款请求 --。。。 --邮件应用:垃圾邮件过滤及邮件自动分类 --网页自动分类:基于网页内容分类 --。。。 结构化数据 非/半结构化数据 二、数据挖掘解决的四类问题--聚类 5/23 描述 --把一群对象划分为若干组 --不属于预测问题 --分类与聚类的区别 应用 --客户细分:选择客户消费行为习惯的若干指标对用户群进行划分: 特征相似的用户聚为一类,特征相似度低的聚在不同类。 三、数据挖掘解决的四类问题--关联 6/23 描述 --从大量数据中挖掘出数据项之间相互联系的有价值的知识。 --一群用户购买了很多产品,哪些产品同时购买的几率比较高? 买了A产品的同时买哪个产品的几率比较高? 应用 -- 典型的应用:购物篮分析(啤酒与尿布) 四、数据挖掘解决的四类问题--预测 7/23 描述 --狭义的预测,不包括之前的分类问题 --主要指预测变量的取值为连续数值型数据 --e.g. 天气预报预测气温、预计下一年度GDP增长率、电信运营商预测收入等 解决方法--回归 --Y=aX1+bX2+……nXn -- 一元回归 线性回归 多元回归 非线性回归 --逻辑回归(Logistic回归) 数据挖掘 聚类 关联 分类 预测 二、文本分类流程 -------------------------------- 9/23 步骤概述 10/23 python 文本预处理 12/23 分词 特征选择加权 --降维:提高分类准确率;提高运行速度 语义映射 文本-词频矩阵 Document Term Matrix 三、算法 -------------------------------- 13/23 一、分类算法(1) 决策树 KNN(最近邻) SVM(支持向量机) 14/23 一、分类算法(2) 线性可分 线性不可分 15/23 一、分类算法(3)--优缺点及适用情况 决策树 --由于词条数量大,决策树很庞大,不易生成。 KNN --缺点:k值需要自己设定,不能自适应调整,需要大量实验。 --样本分布不均衡时,影响分类精度 SVM --优点:不容易过拟合 --最终决策函数依赖于少量支持向量,与样本空间维数无关,避免了维数灾难。 16/23 二、其它算法 聚类k-means --算法: 1.选择k个点作为初始质心; 2. 将每个点指派到最近的质心; 3.重新计算每个簇的质心; 4.重复2-3直至质心不发生变化。 关联规则Apriori --事务transaction --项集I={网球拍,网球,运动鞋,羽毛球} --求频繁二项集「网球拍,网球」的支持度与置信度--apriori算法 --支持度 --置信度 17/23 四、遇到的困难及解决办法 -------------------------------- 18/17 一、特征选择VS特征加权 特征选择 特征加权 (10,3,4,20,5) (10,20,4,20,5) 19/23 二、准确率VS召回率 20/23 四、数据挖掘利器 -------------------------------- 21

文档评论(0)

希望之星 + 关注
实名认证
内容提供者

我是一名原创力文库的爱好者!从事自由职业!

1亿VIP精品文档

相关文档