培训_数据挖掘 - 副本.pptVIP

  1. 1、本文档共92页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
培训_数据挖掘 - 副本.ppt

两个有价值的方向:SVM聚类、SVM规则挖掘。 用于发现任意空间分布形状的类别 自动决定类别数 高维数据的高速聚类 避免类别之间相互重叠 数据挖掘中的新方法 SVM聚类 SVM关联规则挖掘 消除孤立点对关联规则的影响 处理海量数据非常有效 数据挖掘中的新方法 核系列方法(Kernel methods):传统的方法是将高维的问题映射到低维的空间,但是Kernel method,刚好相反。 事实上SVM就是kernel method中的一种,还有很多种核方法 核主元分析Kernel PCA用于数据挖掘中的数据预处理中; 核逻辑回归Kernel Logistic Regression用于海量数据的回归分析 核聚类分析 Kernel clustering; 核(偏)最小二乘Kernel Least Squares ….. 数据挖掘中的新方法 但一切不是绝对的! 数据挖掘-技术or艺术? 挖掘调优 数据挖掘项目的调优 数据挖掘项目的成功需要不断地优化挖掘流程 营销流程调优 挖掘建模流程调优 数据准备流程调优 数据挖掘项目的调优 营销流程的调优 目标客户群的调整 套餐定价/组合的更改 更改营销渠道与流程 根据不同生活习惯的人群选择外呼的时段 挖掘建模流程调优 挖掘建模数据集的划分 合理的数据采样、分层采样、随即采样、顺序采样,处理小概率事件 训练集、测试集、校验集合 模型训练数据、测试数据采用相同的尺度变换 Historical Data Train Set Test Set 训练 测试 预测 Random Sample Random Sample - Mutally Exclusive from Train Set Evaluate Accuracy Current Data Predictive Modeling Process 挖掘建模流程调优 算法调优 根据数据分布特性选择不同的算法 避免盲目追求算法精度、选择合适学习率、避免模型过拟合 模型校验集用于最大化模型泛化能力 不平衡样本的算法及类别权值确定,必要时改变挖掘模式 挖掘建模流程调优 两个定理 “奥卡姆剃刀”定理--简单就是最好的 “没有免费午餐”定理,“丑小鸭”定理—没有一种算法会在任何方面都占优 分群过程中的建模流程调优 群体数目确定 群体数目奇数为佳,一般为5-9个左右,加减2进行调整 如需减少群体数目,加入总量变量,减少分量变量,减少相似度阈值 增加群体数目,减少总量变量,增加分量变量,加大相似度阈值 如果某类包含个体数量超过50%,考虑进行迭代分群 分群过程中的建模流程调优 输入变量的调整 变量取值大部分为0或其他固定值的变量不建议使用 多个聪明变量之间相互重叠导致类别相互重叠时,增加变量个数 排除业务上有重叠的变量,如夜间通话时长和打折时段通话时长 分群过程中的建模流程调优 算法调优 K-Means 孤立点敏感、群体重叠、差别大时效果差;局部最优;可扩展性好,大数据集 Kohonan 结果对样本次序有关、初始参数值的选择 DBSCAN 可以发现任意形状边界,处理孤立点、需要更多的内存、I/O消耗 Distribution-Based Cluster 可以自动发现群体个数,孤立点不敏感 Neural Cluster 有时候会陷入局部最优解 SVC可以自动确定群体个数,任意形状边界群,复杂性和字段数无关 数据准备流程调优 数据调优增加数据质量 数据探索:发现数据中的异常点,了解数据分别模式 处理缺失值,属性变换,离散值变连续值 解决数据分布不一致的问题,[0-1]变换、Z变换 从业务角度看,无意义的变量不建议做挖掘模型的输入变量 数据准备流程调优 变量之间的相关性 发现输入样本的变量之间的相关性 变量之间耦合性强的变量不建议选取 文本分析提高客户流失预测模型的精度 2 2. 引入文本分析后模型的lift 值增量 1 1. 传统客户流失预测模型的lift 值 正则表达式规则抽取regular expression ruleshelloworld@ 电话号码 (0086)21网址: CIA book 数据集, 提取国家的地理数据,经纬度,面积等 正则表达式规则抽取-规则定义 正则表达式规则抽取-挖掘流程定义 字典查找 Dictionary lookup JK supermark公司,为了提高人员的IT技能水平,从全球500强企业的招聘网站,job description信息中提取目前最常用的IT技能 字典查找 dictionary lookup—字典定义 - C# , c#, C #, c # -

文档评论(0)

cnsg + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档