浅析网络大数据带来挑战.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
浅析网络大数据带来挑战

浅析网络大数据带来挑战   [摘 要]近几年,网络大数据越来越显示出巨大的影响作用,面对类型繁多的结构化、半结构化、非结构化的海量数据,如何去粗存精、去冗存真是大数据分析面临的挑战。为此,分析了网络大数据的复杂性、不确定性、涌现性,对网络数据的搜集、分析和挖掘有一定的借鉴意义。   [关键词]大数据;复杂性;不确定性;涌现性;挑战   中图分类号:TP372 文献标识码:A 文章编号:1009-914X(2018)14-0374-01   前言:   继物联网,数据挖掘等名词已经广泛应用于各行各业,深入到人们的生活中之后,大数据也已经悄然来到我们的身边,准备掀起下一个信息革命的浪潮。大数据的来临带来了一场生活、工作与思维的大变革,涉及到公共卫生、商业、思维等相关领域的革命。网络大数据越来越显示出巨大的影响作用,正在改变着人们的工作与生活,加强对大数据研究具有重要意义。   1 网络大数据的复杂性   复杂性造成网络大数据存储、分析、挖掘等多个环节的困难.网络大数据的复杂性主要包括数据类型的复杂性、数据结构的复杂性和数据内在模式的复杂性。   1.1 数据类型复杂性   信息技术的发展使得数据产生的途径不断增加,数据类型持续增多.相应地,则需要开发新的数据采集、存储与处理技术。例如社交网络的兴起,使得微博、SNS个人状态信息等短文本数据逐渐成为互联网上的主要信息传播媒介.与传统的长文本不同,短文本由于长度短,上下文信息和统计信息很少,给传统的文本挖掘(如检索、主题发现、语义和情感分析等)带来很大的困难。相关的研究包括利用外部数据源、搜索结果扩充文档,或者利用内部相似文档信息来扩充短文本的表达。然而,无论是利用外部数据,还是利用内部数据,都可能引入更多的噪声。另一方面,不同数据类型的有机融合给传统的数据处理方法带来了新的挑战。   1.2 数据结构的复杂性   传统上处理的数据对象都是有结构的,能够存储到关系数据库中。但随着数据生成方式的多样化,如社交网络、移动计算和传感器等技术,非结构化数据成为大数据的主流形式。非结构化数据具有许多格式,包括文本、文档、图形、视频等等.非结构化数据当中蕴含着丰富的知识,但其异构和可变的性质也给数据分析与挖掘工作带来了更大的挑战。与结构化的数据相比,非结构化数据相对组织凌乱,包含更多的无用信息,给数据的存储与分析带来很大的困难。目前相关的研究热点,包括开发非关系型数据库来存储非结构化数据。   1.3 数据模式的复杂性   随着数据规模的增大,描述和刻画数据的特征必然随之增大,而由其组成   的数据内在模式将会以指数形式增长。首先,数据类型的多样化决定了数据模式的多样化。不仅需要熟悉各种类型的数据模式,同时也要善于把握它们之间的相互作用。这种面向多模式学习的研究需要综合利用各个方面的知识(如文本挖掘、图像处理、信息网络、甚至社会学等等)。其次,非结构化的数据通常比结构化数据蕴含更多的无用信息和噪声,网络数据需要高效鲁棒的方法来实现去粗存精,去冗存真。搜索引擎就是从无结构化数据中检索出有用信息的一种工具。尽管搜索技术在工业上已经取得极大的成功,但仍然存在很多不足,都有待进一步提高。另外,网络大数据通常是高维的,往往会带来数据高度稀疏与维度灾难等问题。在这种情况下,由于数据模式统计显著性较弱,以往的?y计学习方法多针对高频数据挖掘模式,因此难以产生令人满意的效果。   2 网络大数据的不确定性   2.1 数据的不确定性   原始数据的不准确以及数据采集处理粒度、应用需求与数据集成和展示等   因素使得数据在不同维度、不同尺度上都有不同程度的不确定性.传统侧重于准确性数据的处理方法,难以应对海量、高维、多类型的不确定性数据。具体而言,在数据的采集、存储、建模、查询、检索、挖掘等方面都需要有新的方法来应对不确定性的挑战。近年来,概率统计的方法被逐步应用于不确定性数据的处理中。一方面,数据的不确定性要求我们使用不确定的方法加以应对;另一方面,计算机硬件的发展也为这类方法提供了效率、效能上的可能。目前,该领域研究尚浅,在学术界和产业界尚有大量问题亟待解决。   2.2 模型的不确定性   数据的不确定性要求对数据的处理方式能够提出新的模型方法,并能够把   握模型的表达能力与复杂程度之间的平衡.在对不确定数据的建模和系统设计上,最常用且朴素的观点是“可能世界模型”.该观点认为,在一定的结构规范下,应将数据的每一种状态都加以刻画.但该种模型过于复杂,难以用一种通用的模型结构来适应具体的应用需求.在实际应用中,我们往往采取简化的模型刻画不确定性数据的特性,如独立性假设、同分布假设等等.尤其值得注意的是,概率图模型由于具有很强的表达能力而且可对数据相关性进行建模,因此已

文档评论(0)

151****1926 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档