数据挖掘与数据分析.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
PAGE \* MERGEFORMAT 21 HYPERLINK /s/xIbsRREW-UoHIJx5rHyapQ \l # 数据挖掘与数据分析 什么是机器学习(ML)? 从概念上讲:给定(训练)数据,发现一些潜在的模式并将这个模式应用于新数据。 ML 的类型:监督学习;无监督学习;半监督学习;…… 监督学习:用于训练的输入数据有标记。 分类(学习决策边界)。?示例:文本/图像/视频分类,垃圾邮件检测等 回归(学习预测连续值)。?示例:预测房价,预测用户愿意支出的金额等 无监督学习:输入数据没有标记,尝试在数据中查找“隐藏的”结构。 聚类 异常值/异常现象检测 示例:对聚类流服务用户进行分组,对这些组以及某个视频在这些组中的受欢迎程度进行分析。 ML如何帮助企业业务 个性化服务(为每个用户提供量身定制的独特的体验),可以最大限度地提高参与度和收入 自动化执行一些容易出错或需花费大量时间的任务(如转录,字形识别等) 分析数据,提出更好的决策方案 …… 从小处着手:数据取样;初始特征标记;建一个简单的模型,看看它性能如何 Scale:用完整的数据训练;改进特征(特征工程);尝试不同的算法(模型选择) 特征工程(feature engineering)是什么? 在概念上,特征工程是将原始数据(日志,产品购买的历史记录或上网行为等)转换成可以由学习算法在训练和预测中使用的矢量(vector)的过程。 它是高度领域特定的。 取决于你试图从数据中学习什么。 劳动密集型 特征工程:如何做? 高级步骤: 决定你想要获得的洞察力(例如,我们想训练一个模型,为用户听歌提供推荐)。 决定如何建模(有许多方法!) .例如,建一个分类模型,给定用户和歌曲,模型将返回用户是否会对这首歌感兴趣的结果。或者我们有一个歌曲列表,把它给模型运行,模型将显示它认为用户可能会喜欢的歌曲。 考虑你有什么数据(例如,用户收听歌曲的历史记录和用户配置文件信息)。 考虑可能相关的要素:用户年龄(可能相关?); 用户名和电子邮件地址(完全无关); 用户位置(可能相关?);用户收听歌曲的历史记录(相关)。用户之前听过的歌曲的类型(乡村,摇滚,流行等)(非常相关) 把相关信息用数字表示(找到特征):?描述用户的特征;描述歌曲的特征 准备最终的训练数据 给定用户u(u1,u2,u3 ... un)的特征 歌曲的特征s1(s11,s12,s13,...,s1k),s2(s21,s22 ,... s2k)...? 为用户创建训练实例,u(u,si)(1 - 收听)和(u,sj)(0 - 没有收听) 特征标准化(Feature normalization ) 你的特征很有可能比例不同: 用户年龄:0到100 用户收入:从0到数百万 有些机器学习模型可能无法很好地处理这样的范围各异的特征。 正则化将对特征的惩罚不一致 距离将受到范围最大的特征的控制 一些优化算法可以更快地收敛(梯度下降) …… 解决方案: 标准化特征,使特征的范围大致相同 怎样评估模型? 你最关心的是什么?是“没有假正(false positives)”吗?还是整体的预测准确度? 将你关心的问题表达为一个可计算的指标,确保该指标与你关心的内容直接相关。 此指标可用于:选择模型;在部署之前测试模型;对模型或数据进行细化(例如添加更多特征)。 模型选择: 用简单的模型入手。 例如,尝试线性模型。 这些模型通常有效: ? ??分类:逻辑回归,感知器算法,AdaBoost,SVM(线性内核为大量数据,RBF为小数据),随机森林 ??? 回归:线性回归,随机森林 尝试几个不同的模型 基于模型在数据集上的性能选择模型 确保在对不同数据集进行模型选择之后评估最终性能指标(例如,不要使用相同的数据集来选择模型) 考虑深度学习 ?如果你有大量的有标记数据 如果你很难找到特征或特征之间的连接非常复杂(例如:对象检测) 能够忍受更长的训练/细化时间 如果你对深度学习有基本的了解:什么是架构选择?(多少层?完全连接还是不完全链接?等等);?如何防止过拟合? 超参数调优(Hyperparameter tuning) ML模型具有超参数:这些是在训练开始之前就已经固定并且影响训练过程和复杂性的参数。 例如:学习率,正则化常数等 默认值只是让它们得到平均的性能; 为了得到最好的ML模型,需要调优超参数 过程:设置值,训练模型, 评估,(基于评估)细化值 方法:Grid;算法辅助超参数调优(贝叶斯等) 有监督 ML pipelines 需要为以下内容设置 pipeline: 训练:获取数据(可能还需要存储数据);特征提取和数据标记; 拟合模型; 测试模型/选择模型;存储模型 预测

文档评论(0)

智慧IT + 关注
实名认证
内容提供者

微软售前技术专家持证人

生命在于奋斗,技术在于分享!

领域认证该用户于2023年09月10日上传了微软售前技术专家

1亿VIP精品文档

相关文档