- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
統计学习基础
统计学习基础
卿来云
中国科学院研究生院信息学院
lyqing@gucas.ac.cn / lyqing@jdl.ac.cn
概率 vs. 统计
概率:研究随机事件出现的可能性的数学分支,描述非确定性的正式语言
基本问题:给定以一个数据产生过程,输出的性质?
统计推断:处理数据分析和概率理论的数学分支,与数据挖掘和机器学习是近亲
基本问题:给定输出数据,该数据的产生过程?
数据产生过程
观测到的数据
概率
统计推断
统计学习
统计学 ≈ 根据数据进行推理的学科
统计学习 ≈多元统计分析 + 计算统计学
多元统计分析 ≈ 基于一个多元变量数据集,预测函数值
计算统计学 ≈ 统计问题的计算方法 (a.k.a. 统计计算) + 计算繁重的统计方法
数据挖掘 ≈ 研究数据分析,尤其是大数据量/复杂的数据集
学习的主要目的:预测
通过学习,得到训练数据的某种模型
然后利用该模型,预测未见过的测试数据
假设测试数据与训练数据来自相同分布
统计学习的任务
概率密度估计:预测概率密度
回归:预测连续目标变量的值
分类:预测离散目标变量的值
其他:聚类、降维
有监督/无监督学习
有监督学习:回归、分类
无监督学习:概率密度估计、聚类、降维
统计学习的主要部分
模型类别
参数模型、非参数模型
损失函数
L2损失、0-1损失、log似然损失…
推广性
训练误差(学习)、测试误差(预测)
优化计算
例:回归
数据产生过程为
加上 的高斯噪声
目标:用多项式模型
拟合 ,使得
最小。
例:回归(续)
拟合函数
样本数据点
例:回归(续)
例:人脸形状
ICCV2001: Learning inhomogeneous Gibbs models of faces by minimax entropy
一些问题
怎样表示误差?(损失函数)
怎样保证在未来的数据集上误差最小?(推广性)
对特定的数据,应该选择哪个模型/方法?(模型选择、假设检验)
我们的方法在未来数据集上的误差是多少?(误差估计、置信带、学习理论)
课程目的
为计算机专业的学生快速提供广泛的概率和统计背景
概率
统计
统计学习
为学习其他课程打好统计学基础
机器学习
数据挖掘
模式识别
人工智能
…
数学基础的重要性
研究数据分析必须打好概率和统计基础
Using fancy tools like neural nets, boosting and support vector machines without understanding basic statistics like doing brain surgery before knowing how to use a band-aid.
教材/参考书
[AOL] Larry Wasserman, All of Statistics: A Concise Course in Statistical Inference
中译本:《统计学完全教程》
主要教材:内容很全,但有些部分篇幅略少,更偏向于从统计的角度讲述
Chp1-13, Chp20
[ESL] Trevor Hastie, Robert Tibshirani, Jerome Friedman,The Elements of Statistical Learning – Data Mining, Inference, and Prediction
中译本:《统计学习基础—数据挖掘、推理与预测》
统计学习部分的主要教材:主要从机器学习的角度讲述
Chp1-7
[PRML] Bisshopr,Pattern Recognition and Machine Learning
课程内容(1)
第一部分:概率
随机变量及其概率分布
概率不等式和收敛性
第二部分:统计推断
统计推断基本知识
非参数估计、Bootstrap、Jackknife
参数估计
假设检验
课程内容(2)
第三部分:统计学习
统计学习概述
线性回归
核方法
统计判决理论
模型选择和模型评估
作业和考试
助教:池晨 chichen@jdl.ac.cn
作业:40%
每次作业留2周时间
请按时交作业,鼓励讨论,但NO COPY
期末考试: 60%,开卷
文档评论(0)