网站大量收购独家精品文档,联系QQ:2885784924

数据科学课程.pptx

  1. 1、本文档共15页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

建设新课程“数据科学”知识模块

线性建模预测

线性建模问题描述

建模过程

Y=XA

Y和X已知,A为待求常数,求解过程为建模

预测过程:

对未知样,测量其Xx后,可用建立的模型求其对应的Yx

Yx=XxA

多元线性回归—非线性模型的线性化

数据组织与科学计算

内容组成

数据的向量与矩阵表达

矩阵文本数据文件

矩阵重组:合并、拆分、过滤

矩阵的线性代数计算:转置、求逆、点乘、+、-

矩阵运算扩展:同长度向量相乘、矩阵向量对应列的+、-、*、/

线性回归建模与预测

一元线性模型

美国1958-1969年间小时收入指数y与失业率x之间的关系如下表,其符合模型:y=a0+a1/x。令z=1/x,用矩阵计算理论求解a0,a1

年份

y

x

年份

y

x

1958

4.2

6.8

64

2.8

5.2

59

3.5

5.5

65

3.6

4.5

60

3.4

5.5

66

4.3

3.8

61

3

6.7

67

5

3.8

62

3.4

5.5

68

6.1

3.6

63

2.8

5.7

69

6.7

3.5

多元线性回归

多元线性回归

建模过程

S=CA

(CTC)-1CTS=A

预测过程

未知浓度溶液,测量其Sx后,可用建立的模型求其对应的Cx

Sx=CxA

SxAT(AAT)-1=Cx

数据可视化

图像的显示与控制

数据的二维可视化

函数图

饼图

散点图

柱状图

折线图

数据的三维可视化

三维图表制作

案例

数据的图表化

(1)柱状图:某单位近几年销售量和销售额数据的图表化显示。

(2)饼图:某网站用户访问来源。

(3)散点图:全国主要城市的空气质量显示(分析PM2.5的值)

鸢尾花数据的三维可视化

下载鸢尾花数据库

每行代表一个样本,每个样本包括4列,分别是萼片长度、宽度,花瓣长度、宽度。

样本被分成三类,分别为:山鸢尾、变色鸢尾和维吉尼亚鸢尾,分别用数字0、1、2表示,请分别选择2个和3个变量,在二维和三维空间中,观察不同品种鸢尾花的分布情况

四、数据特征分析

1.数据加载(全国主要城市的GDP和人口数据集)

加载数据文件

DataFrame与Series

大数据集的处理

2.数据归整化

数据清洗

数据过滤与选择

数据离散化和面元数据

使用哑元变量操作分类数据

实例:某医院病人数据归整化

3.探索性数据分析

数值摘要

数据汇总、统计、分组运算

异常值检测与处理

维数约简与特征选择

实例:股票数据与大盘指数的相关性分析

4.时间序列

时间序列基础

时区的处理

重采样

实例:股票数据分析

典型案例与实验

数据集:肺癌基因表达数据的加载、预处理与探索性分析

实验要求:

(1)从csv文件中读入数据集

(2)数据清理:填补缺失值,去重、格式清洗、归一化

(3)统计特征分析

(4)基于filter方法的特征选择

(5)filter方法选择的基因子集中基因间相关性分析,剔除相关性较强的基因

五、网络爬虫与信息提取

五、网络爬虫与信息提取

典型案例与实验

内容(4个)

案例(8个)

实验(4个)

1

获取数据

百度新闻()

网易严选商品搜索()

百度新闻关键字搜索()

2

信息解析

网易云阅读()

酷狗top500音乐()

豆瓣网电影详情()

3

关键信息提取

诗词名句网()

中国天气网()

新浪博客个人页面()

4

scrapy爬虫框架

豆瓣网图书内容()

携程网机票信息()

前程无忧网招聘信息()

五、网络爬虫与信息提取

典型案例和实验

数据科学课程

六、人工智能与机器学习

主要内容

数据科学课程

模型(7个)

案例(6个)

实验(4个)

k近邻

糖尿病预测

线性回归

乳腺癌检测

实验一:测算房价

SVM

交通流量预测

实验二:识别手写字符

决策树

泰坦尼克号幸存者预测

实验三:预测隐形眼镜类型

K均值聚类/EM聚类

音乐归类

实验四:用矢量量化压缩图片

CNN

模仿大师绘画(TensorFlow)

六、人工智能与机器学习

典型案例和实验

文档评论(0)

金华 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档