- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大数据挖掘与统计机器学习
吕晓玲
中国人民大学统计学院
1
自我介绍
• 教育背景
• 本科 硕士:南开大学数学学院概率论与数理统计专业
• 博士:香港城市大学商学院管理科学系
• 访学经历
• 2007年:奥地利林兹约翰开普勒大学统计系
• 2012年:美国伯克利加州大学伯克利分校统计系
• 工作经历
• 2000年– 2004年:香港城市大学商学院管理科学系研究助理
• 2007年至今:中国人民大学统计学院讲师 副教授
• 研究兴趣
• 统计机器学习方法
• 消费者行为统计分析
2
本次交流分享大纲
• 关于本书
• 对部分知识点的体会
• 大数据案例
3
一、关于本书
• 写作目的
• 大数据应用统计专业硕士
• 高年级本科生、从事数据分析的实际工作者
• 主要内容
• 有监督的学习:回归与分类
• 无监督的学习:聚类、推荐系统
• 模型选择和模型评价
• R、Python上机实践
• 大数据案例分析: 单机及分布式实现
• 主要参考书
• James, Witten, Hastie and Tibshirani (2013), An Introduction to Statistical
Learning with Applications in R, Springer
• Hastie, Tibshirani, Friedman (2008), The Elements of Statistical Learning –
Data Mining, Inference and Prediction, Second Edition, Springer
4
二、对部分知识点的体会
• 1. 第一章:数据智慧
• 统计学是一门科学,应该是以分析数据、解决问题为导向,不断
的提出新方法,并探讨其理论性质。
• 郁彬(2016 ),数据科学中的数据智慧, 《中国计算机学会通讯》
(中译稿)
• 将统计学核心部分重新定义为“数据智慧”非常必要,因为它比“应用
统计学”这个术语起到更好的概括作用。
• “数据智慧”是将领域知识、数学和方法论与经验、理解、常识、洞察
力以及良好的判断力相结合,思辨性地理解数据并依据数据做决策的一
种能力。
5
• 十个基本问题
• (1)要回答的问题
• (2 )数据收集
• (3 )数据的含义
• (4 )相关性
• (5 )问题的转化
• (6 )可比性:数据变换
• (7 )可视化
• (8 )随机性:数据的代表性、结果的不确定性
• (9 )稳定性:结果的可解释性、可重复性
• (10)结果验证
6
• 2. 第二章:岭回归与Lasso 回归
• (1)一张图看懂岭回归和Lasso回归
文档评论(0)