一起玩kaggle—kaggle介绍.pptxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一起玩kaggle—kaggle介绍 基于R的Kaggle实战案例详解 谷歌收购Kaggle 在 Google Cloud Next 谷歌云计算开发者大会上,华人 AI 学界的骄傲、谷歌云首席科学家李飞飞宣布了一则重大消息:谷歌收购 Kaggle。 Kaggle简介 Kaggle是由联合创始人、首席执行官安东尼·高德布卢姆(Anthony Goldbloom)2010年在墨尔本创立的,主要为开发商和数据科学家提供举办机器学习竞赛、托管数据库、编写和分享代码的平台。该平台已经吸引了数百万名数据科学家的关注,这些用户资源或许正是吸引谷歌的主要因素。 公司和研究人员发布其数据,来自世界各地的统计人员和数据挖掘者竞争制作最佳模型。这种众包方法依赖于这样一个事实,即有无数的策略可以应用于任何预测建模任务,并且一开始就不可能知道哪种技术或分析人员将是最有效的。Kaggle还举办招聘比赛,数据科学家们争相在Facebook,Winton Capital和沃尔玛等领先的数据科学公司面试。 学习总览 解题思路讲解 机器学习模型和数学模型 R的实现过程演示 首页 Kaggle官方介绍 Your Home for Data Science Learn to do data science Expand your career Play with data 解题思路 了解业务背景(题目背景) 创造新的特征列 选择数学模型 基于R实现模型 结合业务背景(题目背景)给出结论 案例举例:泰坦尼克号—灾难机器学习 泰坦尼克号(英语:RMS Titanic)是一艘奥林匹克级邮轮,于1912年4月处女航时撞上冰山后沉没。 哪些因素决定了乘客的生存率? 登船地点 泰坦尼克号由位于北爱尔兰贝尔法斯特的哈兰·沃尔夫船厂兴建,是当时最大的客运轮船,由于其规模相当一艘现代航空母舰,因而号称“上帝也沉没不了的巨型邮轮”。在泰坦尼克号的处女航中,从英国南安普敦出发,途经法国瑟堡-奥克特维尔以及爱尔兰昆士敦,计划横渡大西洋前往美国纽约市。但因为人为错误,于1912年4月14日船上时间夜里11点40分撞上冰山;2小时40分钟后,即4月15日凌晨02点20分,船裂成两半后沉入大西洋,死亡人数超越1500人,堪称20世纪最大的海难事件,同时也是最广为人知的海难之一。 船票 某新闻统计的存活率 成员 成员级别 乘员总人数 获救比率 死亡比率 获救人数 死亡人数 儿童 头等舱 6 83% 17% 5 1 二等舱 24 100% 0% 24 0 三等舱 79 34% 66% 27 52 女子 头等舱 144 97% 3% 140 4 二等舱 93 86% 14% 80 13 三等舱 165 46% 54% 76 89 船员 23 87% 13% 20 3 男子 头等舱 175 33% 67% 57 118 二等舱 168 8% 92% 14 154 三等舱 462 16% 84% 75 387 船员 885 22% 78% 192 693 数据字典 Variable Definition Key survival Survival 0 = No, 1 = Yes pclass Ticket class 1 = 1st, 2 = 2nd, 3 = 3rd sex Sex Age Age in years sibsp # of siblings / spouses aboard the Titanic parch # of parents / children aboard the Titanic ticket Ticket number fare Passenger fare cabin Cabin number embarked Port of Embarkation C = Cherbourg, Q = Queenstown, S = Southampton 变量说明 pclass 船票等级 1st = Upper,2nd = Middle,3rd = Lower age 年龄 年龄是小数,如果小于1,如果年龄是被估计的,它的形式是xx.5 Sibsp:Sibling(兄弟姐妹) 兄弟,姐妹,同父异母的弟弟,义妹 Sibsp:Spouse(配偶) 丈夫,妻子(包二奶和未婚夫被忽略) Parch:Parent 母亲,父亲 Parch:Child 女儿,儿子,继女,继子 有些孩子只和保姆一起旅行,因此对他们来说PARCH = 0 评判标准 Your score is the percentage of passengers you correctly predict. This is known simply as accur

文档评论(0)

178****9325 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档