- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
机器学习的算法陈勇定义: . 机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概 率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。 它是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,它主要使用归纳、综合而不是演绎。揭开神秘的机器学习算法· 我们越来越多地看到机器学习算法在实用和可实现的目标上的价值,例如针对数据寻找可用的模式然后进行预测的机器学习算法。通常,这些机器学习算法预测模型用于操作流程以优化决策过程,但同时它们也可以提供关键的洞察力和信息来报告战略决策。 机器学习算法的基本前提是算法训练,提供特定的输入数据时预测某一概率区间内的输出值。请记住机器学习算法的技巧是归纳而非推断——与概率相关,并非最终结论。 . 构建这些机器学习算法的过程被称之为机器学习算法预测建模。一旦掌握了这一机器学习算法模型,有时就可以直接对原始数据机器学习算法进行分析,并在新数据中应用该机器学习算法模型以预测某些重要的信息。模型的输出可以是机器学习算法分类、机器学习算法可能的结果、机器学习算法隐藏的关系、机器学习算法属性或者机器学习算法估计值。 机器学习算法技术通常预测的是绝对值,比如标签、颜色、身份或者质量。比如,某个机器学习算法主题是否属于我们试图保留的用户?用户会付费购买吗?用户会积极响应邀约吗? . 如果我们关心的是机器学习算法估算值或者连续值,机器学习算法预测也可以用数字表示。输出类型决定了最佳的学习方法,并会影响我们用于判断模型质量的尺度。谁对机器学习算法进行监督?· 机器学习算法可以是有人监督也或者是无人干预的。机器学习算法区别不在于算法是否可以为所欲为,而是是否要从具备真实结果的训练数据中学习——机器学习算法预先确定并添加到数据集中以提供监管——或者尝试发现给定数据集中的任何自然形态。大多数企业使用机器学习算法预测模型,对机器学习算法训练数据使用监督方式,而且通常旨在预测给定实例——邮件、人员、公司或者交易是否属于某个有趣的分类——垃圾邮件、潜在买家、信用良好或者获得后续报价。 · 如果在机器学习算法开始之前你不是很清楚在寻找什么,那么无人干预的机器学习算法能够提供全新的洞察力。无人干预的机器学习算法还能够生成集群与层次结构图,机器学习算法显示数据的内在联系,机器学习算法还能够发现哪些数据字段看起来是独立的,哪些是规则描述、总结或者概括。反过来,机器学习算法这些洞察能够为构建更好的预测方法提供帮助。 · 构建机器学习算法模型是一项反复练习的过程,需要机器学习算法清理数据和动手实验。目前市场上正在涌现一些自动和有向导的机器学习算法模型工具,它们承诺降低对数据科学家的依赖性,同时在常见领域获得最高的投资回报率。然而这里面真正的差别很可能需要你自己去发现。机器学习算法走起来· 尽管机器学习算法能够提供多种好处,但是在使用机器学习算法过程中也有可能导致严重问题。机器学习算法初学者需要理解所输入数据、项目范围和目标,以及工作中使用的机器学习算法。· 机器学习是很多大数据项目背后的重要推动力量,但是即便IT部门投入大量精力,在机器学习算法具体实施过程当中事情也有可能朝着错误的方向发展。 · 不幸的是,如果你没有牢固掌握机器学习算法所输入数据的质量和准确性、实际的业务目标以及真实环境限制,那么机器学习算法预测模型很有可能具有严重的潜在风险(比如无法避免黑天鹅效应)。· 对于机器学习算法和大数据初学者来说,很容易编写出效率低下的机器学习算法复杂模型或者对特定数据进行重复分析。事实上,在将这种机器学习算法“广义”模型应用到生产环境之前,很难判定哪种才算是最佳方式。 另外一种机器学习算法挑战是成功的定义会随着不同的使用情况而出现巨大差异。针对特定机器学习算法测试数据,可以使用数十种机器学习算法指标来描述机器学习算法模型数据输出结果的质量和准确性。即机器学习算法便对于IT专家来说,其至少需要熟悉机器学习算法输出结果的相关指标,并且了解各种机器学习算法象限知识,比如真正(True Positive)被模型预测为正的正样本、真负(True Negative)被模型预测为负的负样本、假正(False Positive )被模型预测为正的负样本、假负(False Negative)被模型预测为负的正样本等。· 在机器学习算法和大数据领域,许多关键机器学习算法指标都是根据这四种基本机器学习算法测量结果推导而来。比如,通常会使用正确标记(真正+真负)的实例数量除以总实例数量来定义机器学习算法整体准确性。如果想要了解究竟有多少个正确的机器学
文档评论(0)