大数据集合的研究及意义.pdfVIP

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

沈阳理工大学学士学位论文

文献综述

大数据集合的研究及意义

沈阳理工大学学士学位论文

沈阳理工大学学士学位论文

大数据蕴含巨大价值

随着信息技术的发展,特别是物理信息系统、互联网、云计算和社交网络等技术的

突飞猛进,大数据普遍存在,正在成为信息社会的重要财富,同时也带来了巨大的挑

战.数据可用性问题就是大数据的重要挑战之一.随着数据的爆炸性增长,劣质数据也

随之而来,数据可用性受到严重影响,对信息社会形成严重威胁,引起了学术界和工业

界的共同关注.大数据蕴含着巨大的价值,对社会、经济、科学研究等各个方面都具有

重要的战略意义,为人们更深入地感知、认识和控制物理世界提供了前所未有的丰富信

息.例如,著名国际咨讯机构Gartn2012年预测全球大数据相关产业的规模将达2320

亿美元;2010年时代杂志刊载的医学十大突破中,医疗科技公司CardioDX通个基因样

本的分析,最终识别出能够预测冠心病的23个主要基因;2009年Google的研究每日

超过30亿次搜索请求和网页数据的挖掘分析,在H1N1流感爆发几周就预测出流感传

播;通过微博等网络大数据的挖掘分析能够发现社会动态,预警重大和突发性事件.大

数据主要有3个来源:1)分布在Web上的丰富数据库资源;2)物理信息系统,如智能电

网、智慧城市等;3)科学实验与观测数据(简称科学数据),如高能物理实验数据、生物

数据、空间观测数据等.通常,物理信息系统数据和科学数据一般都通过由传感器或观

测设备构成的传感网来获取.2012年世界经济论坛发布了《大数据、大影响》[33的

报告,从金融服务、健康、教育、农业、医疗等多个领域阐述了大数据给世界经济社会

发展带来的机会。2012年3月,奥巴马政府发布《大数据研究和发展倡议》H】,投资

2.5亿美元,正式启动大数据发展计划,计划在科学研究、环境、生物医学等领域寻

求突破。

沈阳理工大学学士学位论文

沈阳理工大学学士学位论文

大数据集合满足的性质

我们认为,一个正确的大数据集合至少应满足以下5个性质:

1一致性:

数据集合中每个信息都不包含语义错误或相互矛盾的数据.例如,数据(公司一“先

导”,国码一“86”,区号一“10”,城市=“上海”)含有一致性错误,因为10是北京区

号而非上海区号.又如,若银行信用卡数据库显示某持卡人在北京和新疆两地同时使用

同一信用卡消费,则出现数据不一致,预示发生信用卡欺诈的可能.

2精确性:

数据集合中每个数据都能准确表述万方数据李建中等:大数据的一个重要方面:数

据可用性现实世界中的实体.例如。某城市人口数量为4130465,数据库中记载为400

万,宏观来看该信息是合理的,但不精确.一致的信息也可能含有误差,未必精确.在

许多应用领域,信息精确性至关重要。

3完整性:

数据集合中包含足够的数据来回答各种查询和支持各种计算.例如,某医疗数据库

中的数据一致且精确,但遗失某些患者的既往病史,从而存在不完整性,可能导致不正

确的诊断甚至严重医疗事故.

4时效性:

信息集合中每个信息都与时俱进,不陈旧过时.例如,某数据库中的用户地址在

2010年是正确的,但在2011年未必正确,即数据过时.据统计,商业和医疗信息库中

平均50%的用户信息在2年内可能过时,而过时信息将会导致严重后果.

5实体同一性:

同一实体在各种数据源中的描述统一.例如,为防止信用卡欺诈,银行需监测信用

卡的使用者和持有者是否为同一人.又如,企业的市场、销售和服务部门可能维护各自

的数据库,如果这些数据库之间没有共享统一的客户标识,企业的兼并和重组会使兼并

后的公司的客户数据库中存在大量具有差异的重复客户信息,导致实体表达混乱.根据

以上5个性质,我们可以如下定义数据可用性:一个数据集合满足上述5个性质的程度

是该数据集合的可用性.

6大数据获取和整合:

是指从Web数据源或传感网获取数据并将其加工整合为存储在计算系统中的数据

沈阳理工大学学

文档评论(0)

188****0134 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档