- 1、本文档共40页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
1 机器学习通用流程 目录 机器学习简介 2 Python机器学习工具库简介 3 一种既支持原生SQL,又支持ORM的工具库,ORM是Python对象与数据库关系表的一种映射关系,可有效提高写代码的速度,同时兼容多种数据库系统,如SQLite、MySQL、PostgreSQL,代价为性能上的一些损失。 SQLAlchemy提供了强大的对象模型间的转换,可以满足绝大多数数据库操作的需求,可通过3种方式操作数据库:使用SQL Expression,通过SQLAlchemy提供的方法编写sql表达式,间接地操作数据库;使用原生SQL,直接书写SQL语句;使用ORM对象映射,将类映射到数据库,通过对象操作数据库。 数据准备相关工具库 SQLAlchemy Python第三方库中的SQLAlchemy提供数据库连接,而NumPy和pandas都是当下非常重要的Python科学运算模块,为数据准备提供良好的支持。 支持多维数组与矩阵运算,此外也针对数组运算提供大量的数学函数库。 通常与SciPy和Matplotlib一起使用,支持比Python所支持的种类更多的数值类型。核心功能是被称为ndarray(n-dimensional array,多维数组)的数据结构。 这是一个表示多维度、同质并且固定大小的数组对象。由一个与此数组相关系的数据类型对象描述其数组元素的数据格式,例如其字符组顺序、在存储器中占用的字符组数量、整数或者浮点数等。 NumPy的数组包含以下3个特征:通常是由相同种类的元素组成的,即数组中的数据项的类型一致,能快速确定存储数据所需空间的大小;能够运用向量化运算来处理整个数组,速度较快;使用优化过的C语言的API,运算速度较快。 数据准备相关工具库 NumPy 基于NumPy的一种工具,为解决数据分析任务而生。纳入大量库和一些标准的数据模型,提供高效地操作大型数据集所需的工具及大量能快速便捷处理数据的函数和方法,为时间序列分析提供很好的支持,提供多种数据结构,如Series、Time-Series、DataFrame和Panel。 其中,Series和DataFrame是最常用的数据结构:Series是一个类似一维数组的对象,包含一个数组的数据,该数据可以是任何NumPy的数据类型,和一个被称为索引的与数组关联的数据标签; DataFrame类似日常使用的Excel表格,包含一个经过排序的列表集,每一行数据都可以有不同的类型值(数字、字符串、布尔等),拥有行和列的索引,可以看作是一个每个Series共享一个索引的Series的字典。 数据准备相关工具库 pandas Python下著名的绘图库,为了方便快速绘图,Matplotlib通过pyplot模块提供了一套和MATLAB类似的绘图API,将众多绘图对象所构成的复杂结构隐藏在这套API内部,十分适合交互式绘图。 只需要调用pyplot模块所提供的函数即可实现快速绘图以及设置图表的各种细节。 能够创建多数类型的图表,包括线图、散点图、等高线图、条形图、柱状图、3D图形、甚至是图形动画等。可通过参数定制图形,调整坐标轴、标题、图例、线条大小颜色等图形参数。 数据可视化相关工具库 Matplotlib Python中的可视化库可大致分为基于Matplotlib的可视化库、基于JS的可视化库和基于上述两者或其他组合功能的库。 在Matplotlib的基础上进行了更高级的API封装,从而使得作图更加容易,跟Matplotlib最大的区别为默认绘图风格和色彩搭配都具有现代美感,在大多数情况下使用Seaborn就能做出很具有吸引力的图。 提供5个预设好的主题(darkgrid、whitegrid、dark、white和ticks),默认主题为darkgrid。 可以绘制多种图形包括散点图、直方图、条形图、热点图、联合分布等。由于Seaborn是Matplotlib的高级接口,所以在使用Seaborn的时候仍然可以调用Matplotlib的函数。 数据可视化相关工具库 seaborn 一个Python交互式可视化库,用于在Web浏览器上进行展示。 优点是能用于制作可交互,可直接用于网络的图表。图表可以输出为JSON对象,HTML文档或者可交互的网络应用。支持数据流和实时数据,采用了分层方法兼顾不同用户的使用需求,并提供了适合不同使用级别的不同编程接口,即控制水平。 Bokeh提供了3种控制水平:最高的控制水平用于快速制图,主要用于制作常用图像;中等控制水平与Matplotlib一样允许开发人员控制图像的基本元素(例如分布图中的点);最低的控制水平主要面向开发人员和软件工程师,在最低的控制水平下没有默认值,需要定义图表的每一个元素。 数据可视化相关工具库 Bokeh 基于NumPy构建的
您可能关注的文档
- 临床医学大数据分析与挖掘—基于Python的机器学习与临床决策 第2章 数据准备.ppt
- 临床医学大数据分析与挖掘—基于Python的机器学习与临床决策 第3章 特征工程.ppt
- 临床医学大数据分析与挖掘—基于Python的机器学习与临床决策 第4章 有监督学习.pptx
- 临床医学大数据分析与挖掘—基于Python的机器学习与临床决策 第5章 无监督学习.ppt
- 领导干部2024年民主生活会对照检查发言材料(四个带头)范文.docx
- 2024年民主生活会个人“四个带头”对照检查(4方面15个问题)供参考.docx
- 两篇:2025年1月党支部“三会一课”方案参考主题例文.docx
- 2024民主生活会班子个人对照检查材料(含个人事项报告).docx
- 2024民主生活会相互批评意见例文.docx
- 2024年民主生活会个人“四个带头方面16个问题”对照检查+案例分析供参考.docx
最近下载
- 中国近代史纲要山东外事职业大学练习题复习资料汇总.docx
- MapGIS 6.7 栅格图像配准0.ppt
- GB50111-2006 铁路工程抗震设计规范(2009年版).docx
- 财务人员招聘启事.pdf VIP
- 2025年蛇年中小学寒假特色作业.pdf VIP
- 2022-2023学年北京市海淀区七年级(上)期末生物试卷(附答案详解).pdf VIP
- 2024-2034年中国银发经济行业发展监测及投资战略规划研究报告.docx
- DB5101∕T 98-2020 成都市软件和信息技术服务企业能力成熟度评价体系.docx
- (八省联考)宁夏2025年高考综合改革适应性演练 英语试卷(含答案).docx
- 13G322-1~4钢筋混凝土过梁(2013年合订本)图集规范-watermark.pdf
文档评论(0)