- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于大数据收集与存储数据挖掘分析及研究
基于大数据收集与存储数据挖掘分析及研究
摘要: 大数据应用研究已成为学术界热点。为更好地收集与存储大数据,变革对数据的管理以使其在大数据时代更好地服务于企业、社会与科学研究,探讨了目前大数据收集与存储方式的优缺点,提出了大数据挖掘与分析面临的问题,为下一步研究大数据生物存储方法奠定基础。
关键词:大数据;数据收集;数据存?Γ皇?据挖掘;云计算
DOIDOI:10.11907/rjdk.171755
中图分类号:TP301文献标识码:A文章编号2017)010000103
英文标题The Analysis and Research of Data Mining Based on the Big Data Collection and the Storage
――副标题
0引言
随着互联网、物联网、云计算、三网融合等IT与通信技术迅猛发展,数据的快速增长给许多行业带来了严峻挑战与宝贵机遇,信息社会进入了大数据时代[1]。2011年5月,在“云计算相遇大数据”为主题的“EMC World 2011”会议中,EMC抛出了Big Data概念。《纽约时报》2012年2月一篇专栏称“大数据”时代已经降临许多现实世界的领域。哈佛大学社会学教授加里?金说:“这是一场革命,庞大的数据资源使得各个领域开始了量化进程,无论学术界、商界还是政府,所有领域都将开始这种进程。”大数据的涌现不仅改变着人们的生活、工作方式与企业运作模式,甚至还会引起科学研究模式的根本性改变。
大数据是指无法在一定时间内用常规机器与软硬件工具对其进行感知、获取、管理、处理、服务的数据集合[2]。IBM将大数据的特点总结为4个V,即大量化(Volume)、多样化(Variety)、快速化(Velo- city)与价值密度低(Value)。首先,网络空间中数据的规模不断扩大,已经从GB、TB到PB,有的甚至以EB或ZB等单位来计数,IDC研究报告称,未来10年全球大数据将增加50倍,管理数据仓库的服务器数量将增加l0倍以迎合50倍的大数据增长。有专家研究认为,从人类文明诞生到2003年所产生的数据大约为5EB,而2003-2012年产生的数据是2003年以前的500倍之多,达到2.7ZB,2012-2015年所产生的数据又翻了3倍。大数据数据集在以难以想象的速度增长,大数据收集、存储及挖掘给数据的处理带来了极大挑战。
1数据收集
大数据的特点除了数量多以外,还有种类杂、来源广等,这导致处理数据前的存储问题变得比以往更为复杂[38]。存储数据本身不是一项新技术,但旧时存储技术已无法完全胜任大数据下的要求,因为在海量数据面前,存储数据已不再是单纯的存储行为,在存储这些数据前,首先要面对如何提取或收集有用数据。
随着手机、平板电脑、智能家电、VR等硬件与搭载其上的社交软件、数据处理工具、编辑器等软件普及,每天或者说每秒都会产生难以估量的数据。这些数据必须收集起来加以分析,才能使其价值体现出来,而数据收集难点主要有以下几个方面:
(1) 求真。信息增多,同时也意味着错误或虚假情报增多,错误的信息不仅增加了工作量,还影响了数据分析的价值。因此,在获取信息时对信息可信度进行评估是非常重要且必要的。
(2) 及时。大数据下并不一定总需要保障数据的及时性,但也有相当多情况需要保障及时性,如交通出行数据或突发事件处理等,因此需要兼顾及时性问题。
收集数据在大数据时代下已不再是被动与单一地收集特定数据,而是主动收集需要的数据,随时随地进行收集。作为实现数据有效价值的第一步,还有很长一段路要走,这是有意义的一条道路,将会对大数据发展起到非常重要的作用。
2数据存储
提取出有用数据后,就应该选择合适数据库或其它方式进行存储,以方便以后的数据分析。基于传统关系型数据库的存储特点,由于大数据结构复杂,且无法在获取数据前很好地预测大数据结构,目前数据库还未能满足大数据时代的数据存储需求。
大数据中有大量冗余,消除冗余是降低开销的重要途径。大数据当前的存储方式不仅影响效率也影响成本,需要研究高效率低成本数据存储方式、多源多模态数据高质量获取与整合理论技术、错误自动检测与修复理论技术以及低质量数据上的近似计算理论与算法。这些问题对当今数据处理技术提出了巨大挑战。
目前一些大公司(如Google、Facebook、Microsoft、IBM与Oracle等)都设计了许多专门应对大数据时代的存储技术,尤其是Google在这一方面取得了非常大的成就。
2013年,Goldman 与Ewan Birney[9]在实验室实现了DNA存储技术,成功使用DNA编码存储了5个文件。在此之前
您可能关注的文档
最近下载
- 电力行业系统 解决方案 【智慧】火电厂综合安防 解决方案.pdf VIP
- 2021年湖南省长沙市雅礼教育集团九年级中考一模联考英语试卷(word版,含答案).docx VIP
- 2022年湖南省长沙市雅礼集团联考九年级上学期期末化学试卷(含答案).docx VIP
- 湖南省长沙市雅礼教育集团2023-2024学年九年级下学期期中考试英语试卷(含答案).pdf VIP
- 国家电网有限公司合规管理与合同相关知识试卷及答案.docx VIP
- 《光学功能材料》课件.ppt VIP
- 纳米材料制备技术与原理.pptx VIP
- 2023直流配电系统用直流变压器技术规范.docx VIP
- 五上unit6inanatureparkpartalet'slearn教学设计.doc VIP
- 现代控制理论复习题现代控制理论复习题.doc VIP
原创力文档


文档评论(0)