- 1、本文档共15页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
建设新课程“数据科学”知识模块
线性建模预测
线性建模问题描述
建模过程
Y=XA
Y和X已知,A为待求常数,求解过程为建模
预测过程:
对未知样,测量其Xx后,可用建立的模型求其对应的Yx
Yx=XxA
多元线性回归—非线性模型的线性化
数据组织与科学计算
内容组成
数据的向量与矩阵表达
矩阵文本数据文件
矩阵重组:合并、拆分、过滤
矩阵的线性代数计算:转置、求逆、点乘、+、-
矩阵运算扩展:同长度向量相乘、矩阵向量对应列的+、-、*、/
线性回归建模与预测
一元线性模型
美国1958-1969年间小时收入指数y与失业率x之间的关系如下表,其符合模型:y=a0+a1/x。令z=1/x,用矩阵计算理论求解a0,a1
年份
y
x
年份
y
x
1958
4.2
6.8
64
2.8
5.2
59
3.5
5.5
65
3.6
4.5
60
3.4
5.5
66
4.3
3.8
61
3
6.7
67
5
3.8
62
3.4
5.5
68
6.1
3.6
63
2.8
5.7
69
6.7
3.5
多元线性回归
多元线性回归
建模过程
S=CA
(CTC)-1CTS=A
预测过程
未知浓度溶液,测量其Sx后,可用建立的模型求其对应的Cx
Sx=CxA
SxAT(AAT)-1=Cx
数据可视化
图像的显示与控制
数据的二维可视化
函数图
饼图
散点图
柱状图
折线图
数据的三维可视化
三维图表制作
案例
数据的图表化
(1)柱状图:某单位近几年销售量和销售额数据的图表化显示。
(2)饼图:某网站用户访问来源。
(3)散点图:全国主要城市的空气质量显示(分析PM2.5的值)
鸢尾花数据的三维可视化
下载鸢尾花数据库
每行代表一个样本,每个样本包括4列,分别是萼片长度、宽度,花瓣长度、宽度。
样本被分成三类,分别为:山鸢尾、变色鸢尾和维吉尼亚鸢尾,分别用数字0、1、2表示,请分别选择2个和3个变量,在二维和三维空间中,观察不同品种鸢尾花的分布情况
四、数据特征分析
1.数据加载(全国主要城市的GDP和人口数据集)
加载数据文件
DataFrame与Series
大数据集的处理
2.数据归整化
数据清洗
数据过滤与选择
数据离散化和面元数据
使用哑元变量操作分类数据
实例:某医院病人数据归整化
3.探索性数据分析
数值摘要
数据汇总、统计、分组运算
异常值检测与处理
维数约简与特征选择
实例:股票数据与大盘指数的相关性分析
4.时间序列
时间序列基础
时区的处理
重采样
实例:股票数据分析
典型案例与实验
数据集:肺癌基因表达数据的加载、预处理与探索性分析
实验要求:
(1)从csv文件中读入数据集
(2)数据清理:填补缺失值,去重、格式清洗、归一化
(3)统计特征分析
(4)基于filter方法的特征选择
(5)filter方法选择的基因子集中基因间相关性分析,剔除相关性较强的基因
五、网络爬虫与信息提取
五、网络爬虫与信息提取
典型案例与实验
内容(4个)
案例(8个)
实验(4个)
1
获取数据
百度新闻()
网易严选商品搜索()
百度新闻关键字搜索()
2
信息解析
网易云阅读()
酷狗top500音乐()
豆瓣网电影详情()
3
关键信息提取
诗词名句网()
中国天气网()
新浪博客个人页面()
4
scrapy爬虫框架
豆瓣网图书内容()
携程网机票信息()
前程无忧网招聘信息()
五、网络爬虫与信息提取
典型案例和实验
数据科学课程
六、人工智能与机器学习
主要内容
数据科学课程
模型(7个)
案例(6个)
实验(4个)
k近邻
糖尿病预测
线性回归
乳腺癌检测
实验一:测算房价
SVM
交通流量预测
实验二:识别手写字符
决策树
泰坦尼克号幸存者预测
实验三:预测隐形眼镜类型
K均值聚类/EM聚类
音乐归类
实验四:用矢量量化压缩图片
CNN
模仿大师绘画(TensorFlow)
六、人工智能与机器学习
典型案例和实验
文档评论(0)