- 1、本文档共31页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
第九章大数据与人工智能9.1大数据9.2人工智能9.3大数据与人工智能的关系9.4大数据与人工智能的应用及社会问题
9.1大数据9.1.1大数据概述9.1.2数据科学和数据思维9.1.3大数据处理与可视化
9.1大数据9.1.1大数据概述关于大数据,到目前为止还没有一个统一的概念,常见的概念有三个。第一是维基百科给出的定义:无法在可承受的时间范围内用常规软件进行捕捉、管理和处理的数据集合;第二是研究机构Gartner给出的定义:需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产;第三是麦肯锡全球研究所给出的定义:一种规模大到在获取、存储、管理、分析方面都大大超出传统数据库软件工具能力范围的数据集合。大数据不仅体现在我们字面上理解的数据量巨大上,而是有四个方面的主要特点:第一,数据体量巨大。第二,数据类型繁多。第三,商业价值高,而价值密度却较低。第四,数据产生速度快。
9.1大数据9.1.2数据科学和数据思维数据科学。数据科学是以数据为中心的科学,是指导数据分析与处理的科学以及相关的系统理论与方法。数据科学通过系统性地研究数据的组织和使用,可以促进发现及改进关键决策过程。数据科学研究内容包括以下几个方面:(1)基础理论。(2)实验方法与逻辑推理方法。(3)领域数据学。(4)数据资源的开发方法和技术。2.数据思维数据思维是大数据时代的产物,是计算思维的最新的重要发展。数据思维首先要重视数据的全面性,而非数据的随机抽样性。其次是关注数据的复杂性,弱化精确性,要求对一个大的框架进行模糊的准确度趋势的判断。
9.1大数据9.1.3大数据处理与可视化大数据处理数据清洗。数据清洗是在用户确认的前提下,运用每个过滤规则认真进行验证、过滤和修正,而不仅仅是要将无用的数据滤除。不同的状况和不同性质的数据问题,所采用的清洗方法也有所不同,如:(1)缺失值处理如果数据中的某个或某些特征的值是不完整的,则这些值称为缺失值。对缺失值处理有以下几种方法:删除法删除法是指将含有缺失值的特征或者记录删除。替换法替换法是指用一个特定的值替换缺失值。插值法常用的插值法有热平台、冷平台、回归插补、多重插补等。数据预处理的主要内容包括数据清洗、数据集成、数据变换和数据规约。
9.1大数据9.1.3大数据处理与可视化(2)冗余属性处理冗余属性是指同一属性重复出现,同一属性命名不同,其他属性中包含另一属性或者很大程度上可以代表该属性。对冗余属性处理前,需要分析冗余属性产生的原因以及去除这部分属性后可能造成的不良影响(3)异常值处理常见的异常值是人为输入错误,常见的异常值处理方法有:删除含有异常值的记录:直接将含有异常值的记录删除。视为缺失值:将异常值视为缺失值,利用缺失值的处理方法进行处理。平均值修正:可用前后两个观测值的平均值修正异常值。不做处理:直接在含有异常值的数据及上进行数据分析、建模等操作。
9.1大数据9.1.3大数据处理与可视化数据集成。数据集成是指将多个数据源中的数据合并,并存放到一个一致的数据存储(如数据仓库)中的过程。数据变换。在数据变换中,数据被变换成适用于算法需求的形式,数据变换策略主要包含以下几种。(1)简单函数变换简单函数变换是对原始数据进行某些数字函数变换,常用的变换函数包括平方、开方、取对数和差分运算等。简单函数变换常用来将不具有正态分布的数据变换成具有正态分布的数据。(2)规范化规范化也称为数据标准化或归一化处理,是数据挖掘的一项基础工作。主要有几下几种规范化方法:min-max标准化、小数定标标准化、z-score标准化数据规约。在大数据集上进行复杂的数据分析和挖掘需要很长的时间,数据规约主要是为了在尽可能保持数据原貌的前提下,最大限度地精简数据量,得到原数据集的规约表示。常用的数据规约方法主要包括以下几种:(1)维规约。维规约指的是减少所考虑的随机变量或属性的个数。(2)数值规约:通过选择替代的、较小的数据形式替换原数据来减少数据量。(3)数据压缩:通过变换以便得到原数据的规约或“压缩”表示。
9.1大数据9.1.3大数据处理与可视化2.数据可视化数据可视化是将大型数据集中的数据以图形图像表示,并利用数据分析和开发工具发现其中未知信息的处理过程。数据可视化技术的基本思想是将数据集中的每一个数据项作为单个图元素表示,大量的数据集构成数据图像,同时将数据的各个属性值以多维数据的形式表示,可以从不同的维度观察数据,从而对数据进行更深入的观察和分析。一个典型的可视化分析过程如图9.2所示常用的可视化技术有直方图、盒状图、茎叶图、饼图、累积分布图、散点图、等高线图、曲面图、低维切片图、矩阵图、平行坐标系图等
您可能关注的文档
- 《机电一体化技术基础》课件_目录.pptx
- 《数字信号处理》课件_第0章.ppt
- 《CC++语言程序设计案例教程》课件_第12章 模 板.ppt
- 《计算机导论》课件_计算机导论第五章.pptx
- 《计算机文化基础 》课件_第2章.ppt
- 《电路分析(修订版)》课件_第6章.ppt
- 《电机与电力拖动(》课件_第1章.pptx
- 《CC++语言程序设计案例教程》课件_第4章 数组.ppt
- 《计算机文化基础 》课件_第1章.ppt
- 《机电一体化技术基础》课件_期中复习.pptx
- 广东省广州市增城区2023-2024学年九年级上学期期末道德与法治试题(答案).doc
- 广东省广州市2021-2022学年九年级上学期期末模拟历史试题(含答案).docx
- 广东省广州市天河区暨南大学附属实验学校2022-2023学年九年级上学期期末历史试题.doc
- 广州市南沙区2023—2024学年第一学期九年级历史期末教学质量监测模拟试卷.doc
- 广东省广州市天河区暨南大学附属实验学校2022-2023学年九年级上学期期末历史试题(答案).doc
- 在全市县区委书记第五次工作座谈会上的讲话.docx
- 3篇中央政法工作会议发言材料汇编.docx
- 5篇贵州省庆祝第二十个中国记者节座谈会经验交流发言材料汇编.docx
- 在全市人大工作座谈会上的讲话.docx
- 在全市人大系统改革创新工作交流会上的讲话.docx
文档评论(0)