- 1、本文档共16页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
机器学习概要介绍与入门StuQ微信号 stuq2015功能介绍 实践驱动的IT教育平台如何学习机器学习技术学习路线首先,机器学习这个东西,你想入门的话并不困难,因为简单的机器学习算法,它的思路其实很朴素的。 只要你学过一些基础的概率统计的知识,你都可以去理解它。就像说我们这边并不会完整的介绍机器学习的东西,因为它的历史非常长,门类非常繁多,我们最关注的主要的方法还是基于统计的机器学习。说到这,我就会从统计方法上来给大家讲一个机器学习的例子。比如说这边有很多人,都应该非常喜欢看书,但是大家都知道书店里面书非常多,现在网上也有非常多的卖书平台,比如京东,当当,那么我们怎么知道自己喜欢看什么书呢?一般的做法我们会先选一个分类,比如说你喜欢历史,你会选择历史书,你喜欢计算机,你就会选择计算机的书。但是这样就缺少一个惊喜,你不知道里面还有什么书,其实我很喜欢,但是我又想不到它。大家都知道,很多线下的实体书店都会提供一种服务,叫做书籍推荐。比如说新华书店等,他们有一个最简单粗暴的方法,就是把销量最高的书最热门的书摆到前台,叫热销书。比如有一百个人进去,有25个人在那边驻足停留,那么他们就达到了他们的目的。大家都知道,现在网上最大的卖书平台就是亚马逊了,亚马逊当年最有名的服务就是他们的荐书服务。他们就是组织一个非常专业的荐书团队,这个荐书团队会为不同的用户去推荐他们可能喜欢的书。就像你刚进亚马逊的首页上你看到的书,发现都是你喜欢的书,你会感到非常惊喜和意外。不过后来亚马逊直接把这个荐书团队给开除了,因为后来亚马逊他们自己的人直接写了一个图书推荐系统,而且后来通过实际的运营发现,这个图书推荐系统比荐书团队准确率还高。为什么这个荐书系统准确率会这么高呢?我可以用非常简单的方式讲一下荐书系统的原理。它在机器学习里面的算法就叫做关联规则算法 ,因为亚马逊他发现了一个规律,比如说如果很多人喜欢去买A这本书,然后买A这本书的人又会以很高的概率去买B这本书。比如说一百人买了A,其中90人买了B,那么有一个人来买A的时候,他是不是也有可能喜欢B?那么我们考虑这种情况,如果有一百个人同时买了A,B,C 3本书,其中70人都买了D这本书。那么如果有一个人买了A,B,C这三本书,那么是不是也有可能会喜欢D?我们甚至可以认为这个人喜欢D这本书是板上定钉的事了。所以说你会发现亚马逊不仅会在首页上推荐你喜欢的书,它可能已经筛选了你买过的所有的书,从这中间找出关联的你可能会喜欢的书。同时你买任何一本书的时候,他还会给你推荐一个书籍组合,让你去买组合里面的另外一本书。就像刚刚有同学讲到啤酒和尿布,这个故事也是一个非常经典的故事,这些类型的推荐系统全部都是用了关联规则的方法,但关联规则方法是包括很多算法,我们后面会在讲机器学习技术的时候谈到这些东西。当然,除了亚马逊网站以外,你现在去,比如说电影网站淘宝,他们都会有一个推荐系统。所以我们可以从这个最简单的例子看到,虽然机器学习是一门听起来非常高大上的学科,但是其实里面非常多的简单的算法,它的思想是非常朴素的,比如我们刚刚讲的关联规则,这其实就是我们高中和大学学到的概率论里面的统计思想 。所以说大家都应该可以非常简单地去理解这个原理,而且我们要知道机器学习里面最重要的一个流派就是统计学这个流派。刚刚可能有同学看到,我说机器学习入门不困难,他可能就觉得机器学习这门课不难。这里我要说一下,我刚刚只是说机器学习入门不难,但是说实话,如果你想学深入的话,它是非常困难的一门学科,为什么呢?有这么几个方面,首先,虽然说很多机器学习算法它的思想是非常简单的,我们会尽量说用比较朴素的语言把它的思想讲给大家,但是其实它是有很深的数学理论背景的,就跟我们学算法的时候不仅要知道算法的思想,也要去证明这个算法是不是正确的,还要知道这些算法背后的逻辑推理的过程。如果说你数学确实不好的话,你最多也就是去简单的使用那些现成的模型,学一下一些传统的成熟的机器学习方法,学会用这些方法去解决一些实际中的问题,可能说你的目的也就是这样。其实对于大多数人来说,这样也就差不多了,但是如果你想创造性去做一个工作,比如你想发明一个新的机器学习算法,或者说你想根据实际情况去调整很多模型的参数,想得到更好的训练效果,那么就是一件相对比较困难的事情。第二个问题,机器学习模型。虽然不能说浩如烟海,但其实也是非常非常多的。就跟你做数学题一样,你要解一个问题,你脑子里会去想你要用什么方法解决这个问题?我们在用机器学习方法去解决一个问题的时候,也会说我们到底要用哪个机器学习方法去解决它。我们肯定要去选择一个合适的模型,如果我们想把这个问题套到上面去呢,他毕竟不是万金油,还可能需要去改一些模型的细节和参数,所以这是一个非常有经验性的事情。而经验是需要在日常工作中积累的,所以这需要一个比较
您可能关注的文档
- 大数据引领智慧城市建设.docx
- 大数据时代信息化的发展趋势.pptx
- IBM大数据平台方案.pptx
- 大数据时代的社会网络.pptx
- 云计算与大数据数据挖掘.pptx
- Rapids大数据平台介绍.pptx
- IBM Cognos商业智能解决方案.pptx
- 星环大数据方案介绍.pdf
- 移动医疗大数据方案.pptx
- gStore—开源图数据库系统及其在企业中的应用.pdf
- 基于深度学习的城区场景机载激光雷达点云分类研究.docx
- 育儿观察类真人秀节目中的父职景观研究.docx
- TyG-BMI指数与新诊断2型糖尿病患者骨质疏松的相关性研究.docx
- ELK1通过miR-31-5p-CDIP1调控结直肠癌细胞自噬的机制研究.docx
- 双重股权结构下的公司经营绩效研究——以哔哩哔哩为例.docx
- 保护性耕作对黑土农田水分入渗特征的影响及机制.docx
- 桐油-杜仲胶-环氧树脂三元复合弹性体制备及防腐应用研究.docx
- 初中《道德与法治》课宪法教育现状与对策研究——基于武汉市五所中学的调研.docx
- 跨文化视角下中德称谓语对比研究.docx
- 低铂负载量电化学析氢催化剂的氢溢流作用研究.docx
最近下载
- 2024年浙江杭州萧山区卫生健康系统招聘事业人员147人笔试备考试题及答案解析.docx VIP
- 2022-2023学年北京市海淀区部编版小学四年级下册期末考试语文试卷.pdf VIP
- 系统集成服务实施方案.pdf VIP
- 人教版小学五年级数学上册《第一单元 小数乘法》大单元整体教学设计[2022课标].pdf
- 多巴胺用药护理.pptx VIP
- 作业3.1~3.6广东开放大学作业题库答案.docx
- 西藏自治区2020年小升初[数学]考试真题与答案解析.pdf VIP
- 站用交直流电源系统技术规范第5部分:交直流一体化电源系统.pdf VIP
- 2025年广东省梅州市中考地理模拟试卷.docx
- 2025年中考英语第二次模拟考试(广州卷)-备战2025年中考英语冲刺复习(广州专用).docx VIP
文档评论(0)