读徐子沛《大数据》有感.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
读徐子沛 《大数据》有感 如果要问当今什么技术最为火热,我想毫无疑问大数据必然是热门答案之一。 那么什么是大数据呢? 大数据 (big data),指无法在一定时间范围内用常规软件工具进行捕捉、 管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力 和流程优化能力来适应海量、高增长率和多样化的信息资产。(摘自百度百科) 大数据之所以产生,是因为今天无处不在的传感器和微处理器。我们正在迈 进普适计算的时代。 数据正在里指数级增长。之所以增长速度如此之快,背后有许多原因。现在 几乎所有数据的产生形式,都是数字化的。各种传感器的剧增,高清晰度的图像 和视频,都是数据爆炸的原因。如何处理这样海量的数据,并且从其中挖掘出有 价值的内容是摆在科技公司和政府面前的一道难题。 任何一个组织,要抓住大数据的机遇,就必须做好几个方面的工作。从技术 角度来看,首先要收集并且开发特定的工具,来管理大规模并行服务器产生的结 构化和非结构化数据,这些数据,可能是自己专有的,也可能来源于云。其次, 每一个组织都需要选定分析软件,用它来挖掘数据的意义。但可能最重要的是, 任何组织都需要人才来管理和分析大数据。这些人被称为数据科学家他们集黑 客和定量分析员的优势和特长于一身,非常短缺。聪明的领导人,将想方设法留 住这类人才。与此同时大量的基础设施建设一样重要,且不提大数据的处理需要 大量高性能的计算机,光是储存这些数据就需要极为大量的存储设备,所以基建 也是极为重要的一个环节。 在徐子沛老师的《大数据》一书中从美国政府的角度作为切入点,通过一系 列实例深入分析了大数据的政府运作、实践成果。 书中首先提到了奥巴马政府倡导信息公开透明,在上任之初便大力推行信息 的公开化和透明化。信息之与民主,就如货币之于经济。受美国国家文化影响, 美国人民对于信息的知情权的重视程度几近对于枪支自由的执着。 在2010年的规划数字化的未来:美国总统科学技术顾问委员会给总统和 国会的报告》中提到:如何收集、管理和分析数据正在日渐成为我们网络信息技 术研究的重中之重。以机器学习,数据挖掘为基础的高级数据分析技术,将促进 从数据到知识的转化、从知识到行动的跨越。联邦政府的每一个机构和部门,都 需要制定一个应对大数据 (Big Data) 的战略。 对于具体如何处理数据方面而言,必然离不开两个方面,一个是数据本身, 另一个则是处理这些纷杂数据的程序。程序和数据的关系,就好像发动机和燃料, 所有的程序,都是靠数据驱动的;数据之于程序,又好比血液之于人体,一旦血 液停止流动,人就失去了生命,代码也将停止运行。数据的生命力,甚至比程序 更持久。程序可以不停地升级、换代甚至退出使用,但保存数据的数据库却会继 续存在,其价值很可能与日俱增、历久弥新。 书中提到一个非常有意思的例子:劳工统计局在1997年开展的青少年纵向 调查。它眼踪调查的对象虽然是青少年本身,但受访人、问卷人却可以是家长、 老师、雇主等等和该青少年密切相关的个人和群体,每次问卷都有数十个问题, 需要受访人 1 小时左右才能完成。因为付出了时间,受访人在完成问卷之后, 能获得 8 到 20 美元不等的报酬。同样的问题,也可能在不同的年份、在相同 受访人员的问卷中重复出现,以测试受访人态度的变化。 随着数据的积累,一幅以个人成长为中心、越来越大的社会画卷也开始展开。 这种以一个国家为单位的大型社会调查,是研究一个社会长期变迁不可或缺的重 要资源,也为政策的制定、调整和评价提供了重要的参考和依据。 这些原始的数据积累,不但在时间的横向上具有相当高的参考价值,在个人 为背景的纵向上也可以一定程度上展示社会的经济,教育等方面的长期变迁。通 过不同的数据组合对比可以得出多样化,多层次,多角度的综合结论,这对于政 府在政策制定和规划上有着极为重要的促进作用。 仅仅在2000年的时候,全世界全部的存储信息中还只有1/4是数字化的, 其余的都保存在纸张、胶片和其他模拟介质上。但是由于数字数据数量的增长十 分迅速——几乎每三年就翻一番,这种情形很快发生了逆转。今天,在所有存储 信息中只有不到2%是非数字化的。 可以用数据爆炸来形容目前的数据增长情况。数据爆炸体现在三个方面:一 是同一类型的数据量在快速增大;二是数据增长的速度在加快;三是数据的多样 性,即新的数据来源和新的数据种类在不断增加。 对于爆炸的数据急需国家层面出台相关政策引导发展已经

文档评论(0)

anma + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档