Kaggle机器学习-数据科学现状调查.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Kaggle机器学习-数据科学现状调查

Kaggle机器学习/数据科学现状调查   Kaggle是互联网上最著名的数据科学竞赛平台之一,今年3月8日,这家机构被谷歌收购,6月6日又宣布用户数量超过了100万人。最近,这一社区首次进行了机器学习/数据科学现状调查。在超过16,000名从业者的详尽答卷中,我们可以一窥目前业内的发展趋势。有趣的是,Kaggle也将调查结果封装成了匿名数据集以供大家自行分析。   有史以来第一次,Kaggle对人工智能领域进行了全行业深度调查,试图全面了解数据科学和机器学习概况。本次调查收到了超过16,000份回复,众多受调查者的数据向我们提供了有关从业者人群、业界最新动态以及如何进入该行业的洞见。以下报告包括本次调查的所有主要结果,其中包含的主要内容有:   虽然Python很可能是机器学习最常用的编程语言,但统计学家更多地使用R语言。   平均而言,数据科学家的年龄在30岁左右,但是这个数字在不同的国家有所不同。例如,印度的受访者要比澳大利亚的平均年轻9岁。   有关被调查者教育程度,最普遍的学位是硕士,但是工资最高的($150k+)人群中,拥有博士学位的人稍稍多一点。   Kaggle已经公开了该调查的匿名数据集,以供大家进行探究:/kaggle/kaggle-survey-2017。   如何定义数据工作者?   观察数据从业者的方式有很多,但本文将从有关数据科学从业者的工作和背景的人口统计学信息开始。   调查对象的年龄   如图可见,本次调查对象的平均年龄大约30岁,但这个值在各个国家之间有变动。例如印度的调查对象的平均年龄就比澳大利亚的小了9岁。      你目前的就业状况如何?   受调查者中,有65.7%表示自己有全职工作。      你的职位是什么?   尽管我们把数据科学家定义为使用代码分析数据的人,我们发现数据科学领域可涵盖的工作非常多。比如在伊朗和马来西亚,数据科学从业者最流行的工作头衔是「科学家或者研究者」。      你的全职年薪是多少?   中位数$55,441,不过由于很多人没有全职工作(收入为0),所以这一数字不甚准确。尽管在我们的调查中「补偿和福利」的重要性排序稍微比「职业发展机遇」的低一点,不过知道什么是合理的补偿依然不错。在美国,一般机器学习工程师带回家最多的是培根。      131个回复由于超出最大值而没有显示出来,但它们被算进了中位数。   你的最高学历是什么?   因此,你需要再获得一个学位吗?通常来讲,数据科学从业者中最普遍的学历是硕士,但是获取最高薪水($150K-$200K和$200k+)的那些人多是有着博士学位。      被调查者的平均水平是数据科学家职称,30岁左右,硕士学历,年薪$55,000左右。但实际情况并不如此平均。这些最初的几个人口统计学问题只是展示了复杂的Kaggle数据科学社区在年龄、性别、国籍、工作职称、薪水、经验和学历方面的表层差异。   数据科学家的工作内容是什么?   我们把数据科学家定义为写代码以分析数据的一群人。他们的日常工作内容是什么?以下是我们的调查结果。   工作中使用什么数据科学方法?   Logistic回归是工作之中最为常用的数据科学方法,不过神经网络使用更为频繁的国家安全领域除外。总的来说,数据科学中更常见的还是使用经典的机器学习算法,简单的线性与非线性分类器是数据科学中最常见的算法,而功能强大的集成方法也十分受欢迎。我们看到目前神经网络模型的使用频率要高于支持向量机,这可能是近来多层感知机要比使用带核函数的SVM更加广泛的表现。      工作中使用最多的语言是什么?   Python是数据科学家最常用的语言,也是最常用的数据分析工具。不过,还有很多数据科学家仍然保持着对R语言的忠诚。      以上仅展示了15个回答,还有38个回答被隐藏。   在工作中常用的数据类型是什么?   关系型数据是开发者在工作中最常用的数据类型,因为大多数产业工程师都十分关注于这种关系型数据。而学术研究者和国防安全产业则更注重于文本与图像。      如何分享工作中的代码?   尽管很多受访者(58.4%)使用Git在工作分享他们的代码。但大公司中的开发者更倾向于将代码保留在本地,并通过像Email那样的文件共享软件来分享他们的代码。而初创公司可能需要在云中共享以保持更加敏捷的反应。      工作中遇到的障碍主要是什么?   脏数据(dirtydata)显然是排在了第一位,也就是说数据科学家一般最常见的困扰就是需要对数据进行大量的预处理工程。除了数据预处理工程以外,还有很多问题困扰着数据科学家,比如说众多的机器学习算法各有各的擅长领域,所以理解它们的性能也会有一些困难。不过我们注意到向其他人解释数据科学是什么也会困扰着数据科学家,解决办法可以是推荐机器之心

文档评论(0)

woai118doc + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档