- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
实习生:王漪
指导导师:赵昕
实习工作总结汇报
目录
2/23
一、数据遇上挖掘
--------------------------------
3/23
一、数据挖掘解决四类问题--分类
4/23
描述
--分类问题属于预测性的问题
--预测结果是类别(类别A、B或C),而不是数字
应用
--电信行业:根据客户基本信息,预测他会不会离网
--银行业:某客户的信用度是好/一般/差,是否批准其贷款请求
--。。。
--邮件应用:垃圾邮件过滤及邮件自动分类
--网页自动分类:基于网页内容分类
--。。。
结构化数据
非/半结构化数据
二、数据挖掘解决的四类问题--聚类
5/23
描述
--把一群对象划分为若干组
--不属于预测问题
--分类与聚类的区别
应用
--客户细分:选择客户消费行为习惯的若干指标对用户群进行划分:
特征相似的用户聚为一类,特征相似度低的聚在不同类。
三、数据挖掘解决的四类问题--关联
6/23
描述
--从大量数据中挖掘出数据项之间相互联系的有价值的知识。
--一群用户购买了很多产品,哪些产品同时购买的几率比较高?
买了A产品的同时买哪个产品的几率比较高?
应用
-- 典型的应用:购物篮分析(啤酒与尿布)
四、数据挖掘解决的四类问题--预测
7/23
描述
--狭义的预测,不包括之前的分类问题
--主要指预测变量的取值为连续数值型数据
--e.g. 天气预报预测气温、预计下一年度GDP增长率、电信运营商预测收入等
解决方法--回归
--Y=aX1+bX2+……nXn
-- 一元回归 线性回归
多元回归 非线性回归
--逻辑回归(Logistic回归)
数据挖掘
聚类
关联
分类
预测
二、文本分类流程
--------------------------------
9/23
步骤概述
10/23
python
文本预处理
12/23
分词
特征选择加权
--降维:提高分类准确率;提高运行速度
语义映射
文本-词频矩阵Document Term Matrix
三、算法
--------------------------------
13/23
一、分类算法(1)
决策树
KNN(最近邻)
SVM(支持向量机)
14/23
一、分类算法(2)
线性可分
线性不可分
15/23
一、分类算法(3)--优缺点及适用情况
决策树
--由于词条数量大,决策树很庞大,不易生成。
KNN
--缺点:k值需要自己设定,不能自适应调整,需要大量实验。
--样本分布不均衡时,影响分类精度
SVM
--优点:不容易过拟合
--最终决策函数依赖于少量支持向量,与样本空间维数无关,避免了维数灾难。
16/23
二、其它算法
聚类k-means
--算法:
1.选择k个点作为初始质心;
2. 将每个点指派到最近的质心;
3.重新计算每个簇的质心;
4.重复2-3直至质心不发生变化。
关联规则Apriori
--事务transaction
--项集I={网球拍,网球,运动鞋,羽毛球}
--求频繁二项集「网球拍,网球」的支持度与置信度--apriori算法
--支持度
--置信度
17/23
四、遇到的困难及解决办法
--------------------------------
18/17
一、特征选择VS特征加权
特征选择
特征加权
(10,3,4,20,5)
(10,20,4,20,5)
19/23
二、准确率VS召回率
20/23
四、数据挖掘利器
--------------------------------
21
原创力文档


文档评论(0)