- 1、本文档共18页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
模块一思考与练习
一、填空题
.数据的类型有很多种,主要分为三种,即―结构化数据和_、半结构化 数据—和—非结构化数据—O
.大数据的三个明显特征分别是攵据量大、数据实时性与数据多样性
.魔镜现在有五个版本,即企业基础版、企业标准版、企业高级版、—云平 台版和Hadoop版。
二、简答题
.简述大数据的定义。
大数据(big data , mega data ),或称巨量资料,指的是需要新处理模式才 能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息 资产。
.大数据的价值表现在哪几个方面?
)大数据是新时代信息技术的关键支撑
)大数据是促进现代社会经济开展的推动力
)大数据将成为科技创新的引擎
.大数据的特点有哪些?
大数据具有四大特点,即volume (容量),代表海量的数据规模;variety (种类),代表数据类型的多样性;value(价值),代表深度的数据价值velocity (速度),代表数据流转的迅速与体系的动态性
.大数据的分析工具主要有哪些?
InfoSphere Biginsights ; BigQuery ;魔镜
3 .垂直网站通常指的是为满足用户在某些特定的领域或某种特定的需求提 供有关这个领域或需求的全部深度信息和相关服务的专业性网站。
三、简答题
.搜索引擎的产生和开展经历了哪几个阶段?试简述各阶段的特点。
答:早期出现的搜索引擎只是检索FTP网站文件的程序,随后的搜索引擎 开始收录网络地址形成分类目录,后续的开展中搜索引擎开始收录标题,目前的 搜索引擎,已经开展到抓取网页全文阶段。
.简述搜索引擎索引系统的形成过程。
答:1 )提取关键词:通过结构化、消噪去除掉网页中所有的格式代码,同 时去除非正文关键词或停用词,网页的主文字内容后应用自身的分词系统,将此 文分成一个分词列表,然后存储在数据库中,并与此文的URL进行一一对应
2 )倒排文件建立索引:在不同索引词组成的索引表中记录索引词ID号,表 明匹配该索引词的文档数量,并匹配文档在记录文件内的偏移量,通过这偏移量 就可以读取记录文件对应区域的信息。
3)对网页完成重要度分析并完成排名
3?私有化的Web化数据所指代的含义是什么?它的产生有何背景?
答:私有化的Web化数据是指垂直网站在到达一定规模后,拥有与搜索引 擎同比竞争的能力时,会特意屏蔽搜索引擎的爬虫,将自己的数据私有化。它的 产生一方面由于互联网中局部信息并未Web化,另一方面Web化的网页中的信 息,搜索引擎也不可能实现完全抓取。
模块六思考与练习
一、选择题
.不属于大数据主要的存储模型的是(D )。
A.关系型数据库
B.列式数据库
C.键值存储
D.视频数据库
.不属于关系型数据库的是(B )0
A. Oracle B. Sybase C. DB2 D. Microsoft SQL Server
.数据存储方式有(D ) 0
A.在线存储B,近线存储C.异地备份 D.以上皆对
二、填空题
.云存储系统的结构模型由4层组成:存储层、基础管理层、应用接口层 和访问层。
.在一个图形数据库中,最主要的组成有两种:结点集和连接结点的关系。
.分布式存储系统具有如下几个特性:可扩展。(2 )低本钱自动运维。(3 ) 高性能(4 )易用。
三、简答题
.简述大数据存储的概念。
数据存储是指数据流在加工过程中产生的临时文件或需要查找的信息的存 储。数据以某种格式记录在计算机内部或外部存储介质上。数据存储要命名,这 种命名要反映信息特征的组成含义。数据流反映了系统中流动的数据,表现出动 态数据的特征;数据存储反映系统中静止的数据,表现出静态数据的特征。
.大数据存储的常见问题是什么?
L容量
.延迟
.平安问题
4本钱
.数据保存
.灵活性
.应用感知
.小用户
3.大数据存储的方式有哪几种?
关系型数据库、列式数据库、键值存储、文档存储、图形数据库模块7 思考与练习
一、选择题
1.以下不属于大数据基本特征的是(D )。
A.数据规模庞大
B.数据的形式多样化
C.数据的获取及处理速度快
D.数据的处理具有实时性
.数据挖掘中关联规那么分析最典型的算法是(D )。
A. KNN 算法 B. Naive Bayes 算法 C. k-means 算法 D.Aprior 算法
.大数据处理流程中的第二个步骤是(A )。
A.数据的导入和预处理B.数据的统计与分析C.数据清洗 D.数据的采集
二、填空题
.数据仓库是一组支持决策过程的、面向主题的、集成的、随时间而变的持 久的数据集合。
.数据挖掘的最终目标是获取数据的有效价值,其具体的实际应用功能可分 为三大类、六分项来说明:—分类―和—聚类—属于分类区隔类;_回归分 析—和—时间序列—属于推算预测类;关联规那么—和 序列模式属
文档评论(0)