- 1、本文档共14页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
《大数据导论》简答题与答案
1.人类社会的数据产生方式经历了哪些阶段?简述各阶段的特点。
人类历史上从未有哪个时代和今天一样产生如此海量的数据,人类社会的数据产生方式大致
经历了3个阶段:运营式系统、用户原创内容阶段、感知式系统阶段。
(1)运营式系统:
数据库的出现使得数据管理的复杂度大大降低,实际中数据库大都为运营系统所采用,
作为运营系统的数据管理子系统,如超市的销售记录系统、银行的交易记录系统、医院病人
的医疗记录等。人类社会数据量第一次大的飞跃正是建立在运营式系统广泛使用数据库开始,
这些数据规范、有秩序、强调数据的一致性,且这些数据的产生方式是被动的。
(2)用户原创内容阶段:
互联网的诞生促使人类社会数据量出现第二次大的飞跃,但真正的数据爆发产生于
Web2.0时代,其重要标志就是用户原创内容。以博客、微博为代表的新型社交网络的出现
和快速发展,使得用户产生数据的意愿更加强烈;新型移动设备出现,易携带、全天候接入
网络的移动设备使得人员在网上发现自己意见的途径更为便捷
数据结构复杂,无秩序,不强调数据的一致性或只强调弱一致性,这些数据的产生方式
是主动的。
(3)感知式系统:
人类社会数据量第三次大的飞跃最终导致了大数据的产生,这次飞跃的根本原因在于感
知式系统的广泛使用。微小带着处理功能的传感器设备广泛布置于社会的各个角落,通过这
些设备对整个社会的运转进行监控,这些设备会源源不断地产生新数据,这些数据的产生方
式是自动的,数据呈现多源异构、分布广泛、动态演化等。
简单来说,数据产生经历了被动、主动和自动三个阶段,这些被动、主动和自动的数据
共同构成了大数据的数据来源。
2.大数据处理的关键技术都有哪些?并做简要描述。
大数据处理的关键技术主要包括:数据采集和预处理、数据存储、数据计算处理、数据分析
和挖掘、数据可视化展示等。
1).数据采集,又称数据获取,是大数据生命周期的第一个环节,通过RFID射频识别技术、
传感器、交互型社交网络以及移动互联网等方式获得的各种类型的结构化、半结构化及非结
构化的海量数据。
2).数据预处理是数据分析和挖掘的基础,是将接收数据进行抽取、清洗、转换、归约等并
最终加载到数据存储的过程。
3).数据存储,需要将采集到的数据进行存储管理,建立相应的数据库。
4).数据计算处理。单台计算机必然无法完成海量的数据处理工作,需要分布式架构的计算
平台。
5).数据分析与挖掘,是基于商业目的,有目的的进行收集、整理、加工和分析数据,提炼
有价值信息的一个过程。
6).大数据可视化技术,可以提供更为清晰直观的数据表现形式,将错综复杂的数据和数据
之间的关系,通过图片、映射关系或表格,以简单、友好、易用的图形化、智能化的形式呈
现给用户,供其分析使用。
3.简述网络大数据的一般采集过程。
大数据采集主要包括:系统日志采集、网络数据采集、数据库采集和其他数据采集四种。
网络数据采集常用的是通过网络爬虫或网站公开API等方式从网站上获取数据信息。该
方法可以将非结构化数据从网页中抽取出来,将其存储为统一的本地数据文件,并以结构化
的方式存储。它支持图片、音频、视频等文件或附件的采集,附件与正文可以自动关联。
网络大数据的一般采集过程:先在URL队列中写入一个或多个目标链接作为爬虫爬取信
息的起点;爬虫从URL队列中读取链接,并访问该网站;从该网站爬取内容;从网页内容中
抽取出目标数据和所有URL链接;从数据库中读取已经抓取过内容的网页地址;过滤URL,
将当前队列中的URL和已经抓取过的URL进行比较;如果该网页地址没有被抓取过,则将该
地址(SpiderURL)写入数据库,并访问该网站;如果该地址已经被抓取过,则放弃对这
个地址的抓取操作;获取该地址的网页内容,并抽取出所需属性的内容值;将抽取的网页内
容写入数据库,并将抓取到的新链接加入URL队列。
4.解释为什么要进行数据预处理。
高质量的数据是能够满足应用需求的数据。数据质量涉及很多因素,包括准确性、完整性、
一致性、时效性、可信性和可解释性。
1)不完整数据的出现可能有多种原因:重要的信息并非总是可以得到、用户输入时的遗漏、
用户理解错误导致相关数据没有记录、设备故障导致的输入缺失、记录中不一致数据的删除、
记录历史或被修改的数据被忽略、缺失的数据,特别是某些属性缺失值的元组。
2)不正确数据的出现原因有:收集数据的设备出现故障、人为或计算机内部错误在数据输
文档评论(0)