- 4
- 0
- 约4.54千字
- 约 9页
- 2021-06-07 发布于湖南
- 举报
100天学习计划 | 一份详实的数据科学指南
我遇到过许多对学习数据科学充满热情的人,但仅仅几周后,他们就放弃了学习。我想知道为什么一个人对一个领域如此热情却不去追求它?通过与他们中的一些人交谈,我了解到人们放弃学习的主要原因是:
为了成为一名 \o 数据科学家 数据科学家,他们要学习的课题太多了
他们遇到的领路人说,要成为数据科学家,必须是一个有才华的程序员、数学专家、应用统计学大师,并且非常熟练地使用panda、NumPy和其他python库。
这些甚至会吓到一个有经验的数据科学家,难怪他们会让试图学习数据科学的人放弃。上面的每一个话题就像一片海洋,当有人试图快速掌握它们时,他们会感到沮丧并放弃学习。真正的事实是,要想成为一名成功的数据科学家或成为一名数据科学家,你甚至需要掌握更多。
如何学习数据科学
要成为一名数据科学家,你需要从以下条目中学到足够多的知识:
Python或R编程的基础知识
如果选择Python,那么像panda和Numpy这样的库
可视化库,如ggplot、Seaborn和Plotly。
统计数据
SQL编程
数学,尤指线性代数和微积分
在下面的视频中,我提到了学习数据科学的分步指南。我已经解释了达到数据科学不同专业水平所需的知识深度。
https://youtu.be/5zec-qxfMvg
如何计划学习?哪些主题应该首先涉及?
让我来解释一下100天学习数据科学的计划。下面是使用Python学习数据科学的逐日计划,该计划跨度为100天,每天至少需要花费一个小时
第一天:安装工具
只要确保安装了所需的工具,并且您对接下来几周/几个月将要使用的工具感到舒适即可。如果选择Python则安装Anaconda,其中还会安装IDEs Jupyter笔记本和Spyder。如果你选择’ R ‘,然后安装RStudio。试着在IDE中玩一玩,并熟练地使用它。比如,尝试理解包/库的安装、执行部分代码、清理内存等等。
第2天到第7天:数据科学的基础编程
下一步是学习基本的编程,下面是一些应该学习的主题:
创建变量
字符串数据类型和通常在字符串数据类型上执行的操作
数值数据类型、布尔值和运算符
集合数据类型列表、元组、集合和字典——理解它们之间的唯一性和差异非常重要。
If-Then-Else条件,For循环和While循环实现
函数和Lambda函数-它们各自的优点和区别
第8天到第17天: Pandas 库
了解 Pandas 库,在 Pandas 中需要了解的一些主题是:
创建数据帧,从文件读取数据,并将数据帧写入文件
从数据框架中索引和选择数据
迭代和排序
聚合和分组
缺失值和缺失值的处理
Pandas 的重命名和替换
在数据帧中连接、合并和连接
总结分析,交叉表格,和枢轴
数据,分类和稀疏数据
花10天时间彻底学习以上主题,因为这些主题在执行探索性 \o 数据分析 数据分析时非常有用。在介绍这些主题时,请尝试深入粒度细节,比如理解合并和连接、交叉表和枢轴之间的差异,这样不仅可以了解它们中的每一个,还可以知道在何时和何处使用它们。
我为什么要学 Pandas?如果您从事任何数据科学项目,它们总是从探索性 \o 有关数据分析的文章 数据分析开始,以便更好地理解数据,而您在 Pandas 中介绍的这些主题将会派上用场。另外,因为Pandas有助于从不同的来源和格式读取数据,所以它们速度快、效率高,还提供了对数据集执行各种操作的简单功能。
第18天到第22天:Numpy Library
学会 Pandas 之后,下一个需要学习的重要库是Numpy。学习Numpy的原因是与List相比它们非常快。在Numpy中要涉及的主题包括:
数组的创建
索引和切片
数据类型
连接与分离
搜索和排序
过滤所需的数据元素
为什么学习Numpy很重要?Numpy能够以快速和高效的方式对数据执行科学操作。它支持机器学习算法中常用的高效矩阵运算,panda库也广泛使用了Numpy。
第23天到第25天:可视化
现在,我们需要花一些时间来理解和使用一些关键的可视化库,比如ggplot、Plotly和Seaborn。使用示例数据集并尝试不同的可视化,如柱状图、线形/趋势图、盒状图、散点图、热图、饼状图、柱状图、气泡图和其他有趣的或交互式可视化。
数据科学项目的关键是与涉众交流洞察力,而可视化是实现这一目的的很好的工具。
第26天到第35天:统计、实现和用例
下一个要讨论的重要主题是统计学,探索常用的描述性统计技术,如平均值、中位数、众数、范围分析、标准差和方差。
然后介绍一些更深层次的技术,比如识别数据集中的异常值和测量误差范围。
作为探索各种统计测试(如下所示)的最后一步,了解这些统计测试在现实生活中的应用:
F-test
AN
您可能关注的文档
最近下载
- 2025年汽车用品零售门店商品销售数据分析报告.docx VIP
- 《砼结构与砌体结构设计》砌体结构.ppt
- 危险化学品货物运输(危货运输)企业安全生产标准化管理体系全套资料汇 .pdf VIP
- 己内酰胺生产现状及发展前景.doc VIP
- 鲁教版(五四学制)六年级地理上册《第五章居民与文化》单元测试卷及答案.docx VIP
- 己内酰胺生产现状及发展前景--资料.docx VIP
- (三年级下册)番禺区小学每周一古诗文内容(2021年9月修订).doc VIP
- 《混凝土结构设计》英文教学课件.pptx
- 2025年《乡土中国》各章节思维导图.pdf VIP
- 北京大学《大学英语一》2024-----2025学年期末试卷(A卷).pdf VIP
原创力文档

文档评论(0)