- 1、本文档共334页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Python机器学习开发实战;第1章 环境配置与学前知识;1.1 环境的安装;;1.2 机器学习相关概念;1.2.1 机器学习中的数据;;数据的预处理包含了以下几个步骤。
(1)数据清洗
在我们所得到的数据,有时会很脏,比如有缺失值,有异常值,如表1.2所示。
我们看到学号100001学号的同学,体重是空值。学号100003同学的身高异常的高。当我们遇到这样的样本的时候,最简单的方法就是将这些样本点去掉,但是这样会浪费了该样本点其他已有的信息,特别是在只有少量的样本的情况下。;;;;1.2.2 训练集和测试集;1.2.3 欠拟合与过度拟合;1.2.4 人工智能、机器学习、深度学习;第2章 Python基础知识;2.1 hello world!;2.2 变量;2.3 操作符;2.3.1 基本运算符;2.3.2 比较运算符;2.3.3 逻辑运算符;2.4 字符串;2.4.1 基础;2.4.2 转义字符;2.4.3 索引和切片;2.4.4 字符串方法;2.5 列表;元组可以看成列表的特殊形式,它和列表的差别主要是他不能改变,比如不能使用append,insert等方法。其他则和列表一样。元组的创建有两种方法,如下:
a=tuple()
a=();2.6 集合;2.7 字典;字典在编程中的使用频次和列表是一样的高。特别是在与其他的语言交互过程中,比如在网络通讯中我们经常使用到json格式的数据,json的数据结合和字典就是一样的。
1.查看所有键
2.查看所有值
3.查看所有键值,列表嵌套元组的形式返回
4.查看字典某个元素
5.删除字典所有元素
6.删除指定元素
7.弹出指定键
8.弹出任意键值
9.拷贝字典
10.更新值;2.8 循环语句;2.8.1 for语句;2.8.2 while语句;2.8.3 break语句;2.8.4 continue;2.9 判断语句;2.10 函数;2.11 面向对象编程;第3章 Numpy;3.1 创建数组;3.1.1 创建元素为0或1的数组;3.1.2 将列表转换为数组;3.1.3 生成一串数字;3.1.4 生成特殊数组;3.2 数组索引;3.3 排序与查询;3.5.1 三角函数;3.5.2 指数与对数;3.5.3 约数;3.5.4 数组自身加乘;3.5.5 算术运算;3.6 统计函数;3.7 线性代数;第4章 Pandas;4.1 序列对象Series;4.1.1 创建Series对象;4.1.2 Series索引;4.1.3 查看Series相关属性;4.1.4 二元运算;4.1.5 统计方法;4.1.6 缺失值处理;4.1.7 排序;4.1.8 计数与重复;4.1.9 其他;4.2 DataFrame;4.2.1 创建数据框;4.2.2 行操作;4.2.3 列操作;4.3 GroupBy;4.3.1 基本函数;4.3.2 统计函数;第5章 Matplotlib;5.1 作图类命令;5.1.1 线图;5.1.2 柱状图和条形图;条形图和柱状图属于同一类型,不过是一个是垂直方向的,一个是水平方向的,在Matplotlib中使用barh来绘制条形图。
结果如图5.5所示。
;5.1.3 散点图;5.1.4 饼图;5.1.5 面积图;5.2 坐标轴控制;5.2.1 axis;5.2.2 xlim与ylim;5.2.3 xticks与yticks;5.2.4 xlabel与ylabel;5.3 其他设置;第6章 scikit-learn;我们可以看到官网的宣传中主要提到到了四点:
一个简单高效的数据挖掘和数据分析工具。
对于所有人都是易用的,而且可以在各个环境中使用。
它是基于Numpy,Scipy和Matplotlib库。
开源的,可以商用。
这个库另一个最大的优点是库的设计是十分有条理的。我们可以看到scikit-learn主要分为六个板块,他们分别是:
分类(classification)
回归(regression)
聚类(clustering)
降维(dimensionality reduction)
模型选择(model selection)
预处理(preprocessing);其中分类和回归问题又被称为有监督学习,而聚类问题被称为无监督学习。而我们在实际进行机器学习过程的先后次序是1)预处理,2)降维,3)有监督和无监督学习,4)模型选择,如图6.2所示。
;6.1 预处理(preprocessing);6.1.1 标准化;;6.1.2 非线性转换;6.1.3 归一化;6.1.4 二值化;6.1.5 分类特征编码;;;;6
文档评论(0)