大数据挑战分析报告.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

5.4 大数据应用面临的挑战

任何新生事物在发展初期,都将披上无限光环、拥有众多的发展机遇,同时也将面临许多挑战或是发展过程中必须跨越的鸿沟。大数据能够吸引公众的注意力,在于其背后所隐藏的价值。大数据是分析的对象或分析的原始资料,大数据所拥有的4V特征给大数据分析带来了技术方面的阻碍,大数据的广泛应用仍然面临许多的挑战。

5.4.1大数据存储挑战

随着物联网应用的深入、电子商务的普及和社交网络的流行等,大量的数据不断产生。各单位以EB作为数量级的存储要求,已非常普遍。降低存储成本,提高存储效率和压缩通信成本是大数据应用过程中首先考虑的问题。处理对象除数据量大特点外,数据类型的多样化成为数据存储必须解决的问题。传统的数据以结构化模式为主,多采用关系数据库进行存储,保证数据的一致性和可靠性。随着音视频数据和图片数据信息大量出现,这种非结构化数据对当前数据的存储方式带来了巨大挑战。面对大数据中的数据量大和类型多样化,设计较为合理的分层希请架构成为重点,提高存储系统的扩展性和可用性。为提高大数据的访问效率,建立合理的索引机制显得尤为重要。

5.4.2大数据分析面临机器学习挑战

机器学习作为数据挖掘与分析的重要技术手段,一直倍受关注。基于机器学习的数据挖掘分析方法可分3种:分类、聚类和关联规则分析,分别应用于不同的分析任务中,具有很多较为成熟的算法。这些成熟的机器学习算法均是基于内存设置、概念静态不变、数据流速不快和数据类型较单一。在大数据时代,这些传统的机器学习方法正面临新的挑战,相关假设前提,在大数据分析过程中无法保证。

在大数据时代数据量至少按PB或EB级别获取,无法按照传统的方式基于内存模型进行算法分析,需要改变样本读取策略。随着数据量的增加处理时间变长,相反大数据时代要求信息处理的实时性要求越来越高。这些需求对于传统的处理模式和样本抽样方法提出挑战,研究新型的数据分治与并行处理策略是大数据处理的基本方针。

大数据中数据类型丰富,以半结构化或非结构化数据为主,如网络流量、文本数据、图片和音、视频数据等。这些类型的数据具有共同特征,就是数据维度高,导致机器学习算法处理效率低下、模型的准确性不高。一般解决方案是通过特征选择和降维的方法去除无关或冗余属性,增加分析的有效性,减少运行时间。因此,如何利用降维特征选择技术降低大数据处理的复杂性、提高分析效率是需要解决的问题。

挖掘大数据中隐匿的价值无疑是大海捞针,这对基于机器学习的分析模型在性能方面提出了更高的要求。收集样本存在时间先后次序问题,因此训练样本在数量上是有限的,所反映的样本分布信息不全面。基于训练样本所得分析模型的泛化能力是大数据分析准确性的前提。目前很多性能较好的机器学习算法对于用户来说是“黑匣子”,只能看到结果,面对量大,类型复杂、速度快的大数据环境,提高分析模型预测结果的可理解性至关重要。

大数据环境中,数据产生沿时间轨迹源源不断的产生,因此数据具有时间属性的特征。由于时间或空间发生变化,数据产生在特征空间的分布变化是不可避免的,即概念漂移现象发生。如何在动态数据流分析过程,准确区分出概念漂移样本和噪声样本是提高分类模型准确性的关键。在大数据环境,样本的标注和重新训练学习所带来的成本或代价是昂贵的,利用历史数据和模型进行知识迁移是大数据环境中机器学习面临的另一挑战。

5.4.3大数据分析中隐私保护

大数据中存在价值,通过大数据分析可以发掘出其中的价值信息,利用这些信息能够促进社会经济发展,提高用户体验。大数据分析是一把双刃剑,通过大数据分析能够获取有价值的信息,但同时也出现隐私泄露问题。近年来,因隐私信息泄露导致相关案件发生率呈上升趋意调查报告显示72%的人担心他们的在线行为被跟踪分析。因此大数据时代,隐到保护是大数据研究的一个重要方向。

隐私问题可以追溯到1890年,Warren等人发表《隐私权》一文。文中认为个人隐私权是一项独特的权利,应该得到法律的保护。近年来IT技术的快速发展,互联网应用的普及,个人隐私保护问题愈发受到重视和关注。为追求发展和高额利润,许多企业和个人热衷于收集个人数据信息,如人们上网留下的“足迹”、社交网络上用户评论、各种监控数据信息等。单点收集到数据表面并未涉及个人信息,但是通过数据累积和汇聚集成,经大数据分析处理之后可以获取个人偏好、追踪到行动轨迹和社交圈子。这些隐性的数据暴露往往是个人无法预知和控制的,现实生活中利用众包技术实现搜索往往能够更加快速、准确地获得想要的个人隐私信息。所以大数据时代的隐私保护面临技术和人力层面的双重考验。

大数据的价值在于其背后的信息或规律能够被人们发现并加以利用,所以数据的公开与隐私保护成为一对矛盾。数据公开是必然的趋势,而且我国计划在2018前建立数据公共访问平台。数据公开可以了解社会发展状况和国民经济

文档评论(0)

vermonth134 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档