大数据特征的分析研究.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大数据特征的分析研究

大数据特征的分析研究 陶水龙 北京市档案局 X 关注成功! 加关注后您将方便地在 我的关注中得到本文献的被引频次变化的通知! 新浪微博 腾讯微博 人人网 开心网 豆瓣网 网易微博 如何利用“档案大数据”有效辅助政府实现精准有效决策以及行业创新转型升级, 是目前档案界研究的热点。笔者认为, 在进行大数据分析和挖掘、进而创建大数据服务以及产品时, 仅仅考虑传统的大数据特征是不够的, 还必须要考虑大数据所具有的动态性和鲜活性等特征。因此, 如何发现和找到具有更高质量和更佳品质的数据结果, 提供更有价值的数据服务, 成为新时代下档案工作面临的挑战和机遇。 大数据的特征 大数据一词最早从哪里来, 现在已无从考究, 但早在1980年出版的阿尔文·托夫勒著作《第三次浪潮》中就出现了“大数据”一词。2001年, 美国麦塔集团 (后被Gartner公司收购) 分析师DouglasLaney在《3DData?Management:?Controlling?Data?Volume, ?Velocity?and?Variety》中指出了大数据最早的3 V特征:量 (Volume, 数据大小) 、速 (Velocity, 资料输入输出的速度) 与多样 (Variety, 多样性) 。在DouglasLaney的基础上, IBM先后提出了大数据的4V和5V特征:量 (Volume, 数据大小) 、速 (Velocity, 资料输入输出的速度) 、多样 (Variety, 多样性) 、价值 (Value, 价值密度) 、质量 (Veracity, 数据的准确性) 。2011年, 在美国麦肯锡 (Mc Kinsey) 全球研究院发布的《大数据:下一个创新、竞争和生产力的前沿》研究报告中强调了“BigData”一词的重要性, 自此, 大数据概念开始风靡全球。在百度百科中, 大数据被定义为:无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合, 是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。 目前, 大数据应用已融入社会行业的各个方面。从“互联网+”到“大数据+”, 大数据正在快速地向传统产业蔓延, 驱动生产方式和管理模式的革新, 推动着制造业向互联网化、数字化和智能化方向发展。电信、金融等行业正积极利用已积累的丰富的数据资源, 对客户细分、风险防控等应用进行实践探索, 以加快行业自身服务优化、业务创新和产业升级的步伐。 新时代背景下大数据的新特征 拥有大数据不是最终的目的, 通过数据处理、数据分析达到数据服务于社会, 才是档案大数据的终极目标。如何有效利用大数据让政府决策精准有效、实现行业突破创新转型, 这就需要考虑大数据的鲜活性, 即数据的时效性和动态性特征。因此, 笔者在现在流行的大数据5V特征模型基础上, 提出2D特征, 即Deadline (时效性) 和Dynamic (动态性) 。大数据的5V+2D特征模型如图所示。 大数据的5 V+2D特征模型图 ??下载原图 Volume:规模大, 包括采集、存储和计算的量都非常大。大数据的起始计量单位至少是P (1000?个T) 、E (100万个T) 或Z (10亿个T) 。就我国的馆藏档案而言, 档案库存量已达到近6亿卷, 以每卷3厘米厚度, 我国的馆藏档案能从长江源头至入海口铺个来回。据估算, 我国档案正以每5年50%的速度递增。 Velocity:数据增长速度快, 数据的采集、存储和计算速度也快, 时效性要求高。比如, 微博要求几分钟前的新闻能够被用户关注, 个性化推荐算法要求尽可能实时完成推荐。这是大数据区别于传统数据挖掘的显著特征。 Variety:种类和来源多样化。互联网时代加剧了档案数据的多样化, 包括结构化、半结构化和非结构化数据, 具体表现为网络日志、音频、视频、图片、地理位置信息, 等等。多类型的数据对数据的采集、存储和计算提出了更高的要求。 Value:互联网大数据价值密度相对较低, 或者说是浪里淘沙却又弥足珍贵。而档案大数据, 由于档案数据的独特性, 其具有较高的准确性和可信度, 所以它的价值密度也相对增加。 Veracity:档案数据对数据的准确性和可信度要求比一般数据更高, 即档案数据的数据质量更高。 Deadline:提供“服务”的大数据需具有一定的鲜活性和时效性, 几年前收集积累的历史数据不一定能够适用于现实况状, 所以在利用数据时, 需要考虑所选用数据应该在“保鲜期”内, 只有挖掘使用在这个期限内的数据, 才能创造最大的价值。 Dynamic:世界上每秒每分都在产生着数据, 除了数据样式的多变外, 数据是否具有保存价值也在动态变化当中, 档案大数据中的每个数据元也在动态过程中。 设计大数据5V

文档评论(0)

zijingling + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档