数据科学概论-李扬-ch1.pptxVIP

下载本文档

52
0
约 50页
2023-04-16 发布于浙江
举报
版权申诉

数据科学概论-李扬-ch1.pptx

1、本文档共50页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

数据科学概论-李扬-ch1数据科学概论-李扬-ch1

数据科学概论之绪论目录数据科学的概念数据科学的发展历程数据科学的应用领域 333数据科学的概念研究对象数据科学（Data Science）是一门利用数据学习知识的学科，其目标是从数据中提取出有价值的信息生产数据产品。由于内涵的复杂性与综合性，数据科学有机地结合了诸多领域中的理论和技术，包括：数学统计学模式识别机器学习数据可视化数据库高性能计算研究对象数据科学概念韦恩图（Drew Conway 版）研究对象数据科学能帮助各行业人士正确处理并利用在行业中获取的海量数据来理解问题，广泛应用于生物学、社会科学、人类学、商业等领域。接下来的几个例子展示了数据科学在以上领域的应用，分别涉及以下环节：数据收集数据清洗描述性统计信息挖掘基于数据进行预测研究对象：生物医学基于海量医疗数据的数据挖掘技术在为生物医学研究者提供有效工具的同时，也引发了隐私保护问题。生物医学统计研究对象：生物医学目前主要通过以下数据脱敏技术来达到保护隐私的目的:限制数据访问减少不必要分组有目的增加噪声例如，国内一些医院与高校合作时将患者数据转交给高校研究团队进行数据分析。在此之前，医院通常会把数据集中涉及患者姓名、手机号码等私人信息的内容隐去，防止泄露隐私。研究对象：社会学美国社会保障局的婴儿名数据集记录了 1880 年到 2010 年所有登记出生的婴儿名字。婴儿名数据集研究对象：社会学基于这一数据，社会学家可能会对以下问题感兴趣：某个有趣名字的流行程度随时间变化的趋势男孩与女孩名字的多样性是否存在显著的差异1880 年最受欢迎的十个名字与 2010年最受欢迎的十个名字有何不同强大的数据库语言（如 SQL）与丰富的数据可视化工具为这些问题的解决提供了高效的方案。研究对象：商业支付平台通常会向用户提供透支消费途径（如支付宝花呗、京东白条等），并通过用户信用评分模型规避违约风险。系统根据用户注册时填写的收入、职业、年龄、性别等个体信息，结合其过往的消费记录，对信用等级作出客观评价。研究对象：商业保证这一评价体系科学性的正是基于海量用户数据所建立的稳健的预测模型。商业数据分析常见的数据科学方法数据科学的核心问题是采用适宜的方法充分提取数据中的信息，实现数据价值最大化。根据研究思路的不同，数据科学方法可分为有监督学习、无监督学习与半监督学习。有监督学习? 有监督学习回归线性回归非线性回归正则化回归分位数回归分类Logistic 回归决策树支持向量机朴素贝叶斯神经网络有监督学习分类算法与预测算法之间并不存在绝对的鸿沟：起源于广义线性模型的 Logistic 回归被广泛地应用于分类研究，因为它可以输出样本点属于某个类别的概率，以实现分类。（比如一封电子邮件是垃圾邮件的概率是 70%，研究者可以将其归类为垃圾邮件）决策树算法通常代指用于分类的树模型，研究者只需要对其算法稍作调整，也同样可以应用于预测任务。无监督学习无监督学习的训练集样本中只有特征变量，没有对应的响应变量。无监督学习的分析重点不是预测，而是通过已有特征充分挖掘数据本身的结构信息。无监督学习的两大典型任务：聚类：即“物以类聚”，根据样本点的特征，通过统计测度度量彼此之间的相似度，将相近的聚为同一类。降维：在不损失过多信息的前提下将多个相关的特征合并成一个，使其具有更好的解释性。无监督学习聚类层次聚类K-means聚类基于密度聚类降维主成分分析因子分析推荐系统半监督学习当数据中同时存在大量没有标签的样本以及少量有标签的样本时，研究者需要使用半监督学习方法。半监督学习综合利用两部分数据信息，通过后者提高整个模型的精度。 202020数据科学的发展变迁数据科学的前身：统计学统计学从实践上升到理论并成为一门系统的科学，距今只有三百多年的历史。根据统计方法的演变，可以划分为三个时期：古典记录统计学近代描述统计学现代推断统计学古典记录统计学17 世纪中叶是古典记录统计学的萌芽期。彼时，随着欧洲资本主义兴起，政治改革家们对经济数据进行科学管理的需求日益增加。一系列统计学的奠基性工作在欧洲各国展开。代表人物：William Petty：创立政治算术学派，利用实际资料对欧洲各国国力作了系统的数量对比分析，为统计学的形成和发展奠定方法论基础。Gottfried Achenwall：创立国势学派，为统计学的发展奠定了经济理论基础；发明“统计学”术语。Pascal（帕斯卡）和Fermat（费马）：在信件来往中解决了著名的“赌资分配问题”，为概率论的诞生奠定基础。古典记录统计学“统计学”术语由英文中的“阶层”一词（Status）和德语中的“政治算术”一词（Politische Arithmetik）分别取 “Sta”、“tis”、“tik”这三个字段合成，德语中统计学对应的单词为“Statis