- 1、本文档共28页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据科学概论 肖波 中央民族大学 数据科学和数据科学家 数据科学定义 数据科学家定义 数据科学团队 学术数据科学家 企业数据科学家 近年对数据科学的炒作 ---除了上帝谁都要用数据说话! ---只管把数据拿来,数据自己会说话! 近年我们在各种场合听到各种关于大数据和数据科学家的议论。听起来仿佛谁不搞大数据和数据科学就要落后,企业就要走向末路。这就迫使我们一定要看个究竟。如果是这样那么怎么认识大数据,又如何成为大数据的行家里手呢?先来看看我们面临的问题。 数据科学直面的问题 缺乏最基本术语定义。 什么是大数据? 什么是数据科学? 大数据和数据科学的关系是什么? 数据科学是关于大数据的科学吗? 数据科学仅适用于Google和Facebook这样的大技术公司吗? 为什么有人认为大数据只是个交叉学科(空间,财务,技术等)而数据科学只是个技术问题? 到底数据多大才算大?抑或它只是个相对的术语? 1.当代社会数据无处不在 我们掌握大量生活方方面面的数据,但是缺乏计算处理的经验。购物,交流,读报,听音乐,搜信息,表达意见。如人所知,所有这些都被在线跟踪。 人们也许不知道“数据化”已经通过技术采集并利用在线数据来观察我们的离线行为。二者结合起来可以像研究新物种一样研究我们。 不仅仅是因特网数据,还有金融,医药工业,药品,生物信息,社会福利,政府信息,教育,退休及其他可以想到的数据。对大部分部门和工业数据影响力不断增长。在某种情况下,这种数据足可以称之为“大” 2.“数据化” 他们定义数据化为“将所有对生活有影响的因素转化为数据”。 他们提到的例子有:谷歌增强现实眼镜数据化凝视,推特数据化变化的思想。 数据化是一个有趣的概念,我们来想象一下它对于人们共享数据所产生的影响。我们正在被数据化,抑或说我们的行为被数据化。当我们在线“喜欢”什么人或事的时候,我们就被数据化了,至少有可能被数据化了。如果我们甚少上网也可能被通过cookies在不知情的情况下被动地数据化了。当我们走过一个商店甚至走在街上都可能被传感器,摄像头,谷歌眼镜等无意识地数据化。 这些拍摄的图像从我们兴高采烈地参加社会媒体活动到各种户外调查和谈话,都是在数据化。我们的倾向可能被大肆渲染,而结果并非如此。 3.数据化使谁获益? 一旦我们数据化了事物,我们就可以转换它们的用途并把信息变为新的数值形式。 这里有一个问题要关注:谁是上面论述中的“我们”?他们使用什么类型的数据?大部分情况下的“我们”是模型作者和驱使人们去花钱买东西的企业。而“数据”通过自动化被转换成增加的效益。 4.为什么会出现数据科学 不仅仅因为这些数据大而有趣(或更具挑战),而是数据本身往往是实时的,成为一个数据产品的原材料。在因特网它意味着亚马孙推送系统,Facebook的朋友推荐,电影和音乐推送等等。在财务方面意味着信用评级,交易算法和模型等。在教育方面意味着动态个性化学习和像 Knewton ,Khan学院一样的教学评估。对政府而言意味着基于数据的决策。 5.什么是数据科学? 什么是数据科学?它到底是新生事物还是统计学或数据分析的改头换面?它是真的存在有还是炒作?若它是真实的和新生的那它的涵义是什么? 数据科学广义的定义 研究探索Cyberspace中数据界(datanature)奥秘的理论、方法和技术,研究的对象是数据界中的数据。数据科学的研究对象是Cyberspace的数据,是新的科学。数据科学主要有两个内涵:一个是研究数据本身,研究数据的各种类型、状态、属性及变化形式和变化规律;另一个是为自然科学和社会科学研究提供一种新的方法,称为科学研究的数据方法,其目的在于揭示自然界和人类行为现象和规律。 与其他学科的关系 数据科学的体系结构 数据科学的狭义定义: 数据科学是研究数据的科学。它利用统计学知识和计算机技术对专业领域的对象进行现实大数据分析与挖掘及其它方式的数据处理,以使组织获取更大的经济效益。 数据科学概念图 6.数据科学的三要素 专业领域知识 数学统计学知识 1.线性代数 2.概率统计 计算机软件知识 可视化 推送系统 数据处理 黑客技巧 程序设计 7.数据科学家 数据科学家是计算机科学,统计学,沟通技巧,数据可视化方面的专家,并且具有领域专业知识。没有哪个人是所有学科的专家。所以有必要组织具有不同背景和专业的人形成一个团队。作为一个团队,他们可以面对任何特殊问题。我们看了现在对数据科学家技能的要求后更加需要强调团队的重要性。 数据科学家(Data Scientist )只是一个职位。类似于
文档评论(0)