- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大数据的研究方法及可能应用—王磊报告
大数据的研究方法及可能应用
王磊
【摘要】: 如今,“大数据”已经成为了一个十分热门的词汇,新闻媒体对其进行长篇累牍的报道,与之相关的学术文章数量激增,大数据图书也受到了极力的追捧。其实,随着以云计算、移动互联、智能化为特征的信息社会的深入发展,人类储存的数据总量在不断增大,数据增长的速度也在持续的加快中。维克托?迈尔?舍恩伯格也曾说过:“世界的本质是数据,大数据将开启一次重大的时代转型。”社会生活的方方面面和我们认识世界的方式都受到了大数据带来的冲击,但是,对于大数据的认知和应用还有许多值得我们探索的地方。
【关键词】:大数据、数据挖掘、贝叶斯分类、图模型、协同推荐、客户价值、社会网络、文本挖掘
关于大数据
数据的海洋
20世纪90年代后期,以信息技术、计算机技术、网络技术等为代表的高新技术快速发展,以此为标志,人类社会正式迈入数字时代。现在,伴随着各种各样的智能设备和轻巧灵便的可穿戴计算设备的普及,我们的行为、地理位置、收入与支出、身体生理状况等衣食住行的方方面面都成为了可以被记录和分析的数据。数据量也就由此在不断增大,而且,数据的种类和形式也在持续的更新。可以说,我们的生活已经被日益增长的数据所充斥。
事实上,各行各业都先后受到了数据增长带来的冲击。在天文学领域,2000年美国的斯隆数字巡天(Sloan Digital Sky Survey)项目启动,位于美国新墨西哥州的大型天文望远镜在短短几周内收集到的数据已经比天文学历史上总共收集到的数据还要多。到了2010年,天文望远镜收集到的数据总量已经高达1.4×2^42字节。在生物学领域,2003年人类第一次破译人体基因密码,全世界的优秀科学家们辛苦工作了十年才完成了30亿对碱基对的排序。而到了现在,世界范围内的基因仪每15分钟就可以完成相同的工作。在金融领域,美国股市每天的成交量高达70亿股,更令人惊讶的是,其中三分之二的交易都是由建立在数学模型和算法之上的计算机程序自动完成的。在互联网领域,Facebook这个创立时间不足十年的公司,每天更新的照片量超过1000万张,每天人们在网站上点击“喜欢(Like)”按钮或者写评论大约有三十亿次,这就为Facebook公司挖掘用户喜好提供了大量的数据线索。[1] 总之,在各个领域都出现了爆发式增长的数据。这种增长的速度超过了我们创造任何一种机器的速度,甚至超过了我们的想象。
那么,我们周围究竟有多少数据呢?这些数据增长的速度又有多快呢?根据南加利福尼亚大学的统计学家马丁·希尔伯特(Martin Hilbert)的估算,在2007年人类大约存储了超过300艾字节(EB)的数据。[2] 在这里,1艾字节(EB)等于2^60字节(B)。这是个什么概念呢?一部完整的电影总可以被压缩为1个吉字节(GB)的大小,而1个艾字节(EB)相当于10亿吉字节(GB),是一个非常巨大的单位。这就是说,2007年人类储存的数据总量超过了3000亿部电影的数据量。如果我们一天看一部这样的电影,需要近10亿年的时间才能看完!这还不是最为庞大的数字,2010年全球数据总量约为1.8泽字节(ZB),预计2020年全球数据总量将达到40泽字节(ZB)的规模。[3] 1个泽字节(ZB)是1024艾字节(EB),是比艾字节(EB)更为巨大的单位。由此可见,人类现在创造的数据总量是相当庞大的。不仅如此,人类存储数据的信息量的增长速度比世界经济的增长速度快4倍,而计算机数据处理能力的增长速度则比世界经济的增长速度快9倍。[4] 我们真的是被数据的海洋淹没了。
大数据的概念及特征
如此巨大和快速增长的数据量催生了大数据(Big Data)概念的产生。大数据,是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。[5] 从这个概念上看,大数据必然不能通过单台计算机进行处理,也不能使用传统的方法进行分析,必须依托于云计算这一先进的技术。同时,大数据具有4个基本特征。第一,数据体量巨大。前文也已提及,现在数据总量已经达到EB级别,甚至达到了ZB级别。第二,数据类型繁多,来源广泛。各种各样的网络文章、音频资料、视频资料、图片资料、地理位置信息等等都是数据的不同类型与来源。第三,价值密度低,商业价值高。体量如此巨大的数据不可能全部都是有用的信息,而这极少量的信息蕴含的价值往往是巨大的。以视频资料为例,公安机关在侦破刑事案件时通常需要调取案发现场的监控视频。而在连续不间断的监控过程中,有用的数据可能仅仅只有一两秒,而有时恰恰是这一两秒的数据就能帮助公安机关发现破案的蛛丝马迹。第四,增长速度快。正如前文所说,现如今数据增长的速度远远超过了世界经济增长的速度,而且这一速度还在不停地加快中。这就是所谓的大数据4V特征,即Volume(大量)、Veloci
您可能关注的文档
最近下载
- 2024党章党规党纪知识测评考试后附参考答案.docx VIP
- 临床注射操作医院感染风险防控.pptx
- 化工安全:危险化学品MSDS培训.pptx VIP
- 2024年度“七一”知识竞赛测评考试题库后附参考答案.docx VIP
- 天麻钩藤颗粒治疗高血压的临床疗效及对患者血脂异常的影响.doc VIP
- GHTF_SG3_N99_10_2004质量管理体系_过程确认指南_中文word版本.doc VIP
- 2024年党务工作基层党建知识复习题(附参考答案).docx VIP
- 锂离子电池组设计手册全书.docx
- 投标保密措施(2025版).docx VIP
- GHTF-SG3-N99-10-2004过程确认指南-英文文.doc VIP
文档评论(0)