网站大量收购闲置独家精品文档,联系QQ:2885784924

大数据之美:挖掘、Hadoop、架构,更精准地发现业务与营销.pptxVIP

大数据之美:挖掘、Hadoop、架构,更精准地发现业务与营销.pptx

  1. 1、本文档共426页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

;;不同领域的组织和专家对于大数据的理解都略有不同,但其内在的价值却得到了一致的肯定。

大数据是所涉及的数据量规模巨大到无法通过人工在合理时间内达到截取、管理、处理、并整理成为人类所能解读的信息。(维基百科)

大数据是在多样的或者大量数据中,迅速获取信息的能力。(大数据作用的角度定义)

大数据是融合物理世界、信息空间和人类社会三元世界的纽带。(宏观角度)

大数据是新一代信息技术产业的强劲推动力。(信息产业角度);大数据技术主要有大数据科学、大数据工程和大数据应用。大数据科学是通过寻找在大数据网络的快速发展和运营过程中的规律,并用其来验证大数据与社会活动之间的复杂关系;大数据工程是通过规划建设大数据并进行运营管理整个系统。大数据应用主要体现在业务需求方面,而在此之前,大数据需要对大量的数据进行有效处理,其中包括大规模并行处理(MPP)数据库、分布式文件系统、数据挖掘电网、云计算平台、分布式数据库、互联网和可扩展的存储系统。

大数据把时间做为处理要求,把处理方式分为流处理和批处理。两种处理方式的不同将给相关的平台带来体系结构上的不同。流式处理是指假设数据的潜在价值是数据的新鲜度,因此该处理方式应尽可能快地处理数据并得到相应的结果。在数据连续到达的过程中,由于流携带了大量数据,只有小部分的流数据被保存在有限的内存中。流处理理论和技术的研究已相对成熟,其代表性的开源系统有Storm,S4和Kafka。流处理方式用于在线应用,通常工作在秒或毫秒级别;批处理是指在批处理方式中,数据首先被存储,随后被分析。MapReduce是非常重要的批处理模型。MapReduce的核心思想是,数据首先被分为若干小数据块chunks,随后这些数据块被并行处理并以分布的方式产生中间结果,最后这些中间结果被合并产生最终结果。由于简单高效,MapReduce被广泛应用于生物信息、web挖掘和机器学习中。;从数据生命周期的角度,从数据源、数据特性等方面总结比较了主要的数据分析方法,包括结构化数据分析、文本分析、web数据分析、多媒体数据分析、社交网络数据分析和移动数据分析。

1.结构化数据分析

在科学研究和商业领域产生了大量的结构化数据,这些结构化数据可以利用成熟的RDBMS、数据仓库、OLAP和BPM等技术管理,而采用的数据分析技术则是前面介绍的数据挖掘和统计分析技术。近来深度学习(deeplearning)逐渐成为一个主流的研究热点。许多当前的机器学习算法依赖于用户设计的数据表达和输入特征,这对不同的应用来说是一个复杂的任务。而深度学习则集成了表达学习(representationlearning),学习多个级别的复杂性/抽象表达。

2.文本分析

文本数据是信息储存的最常见形式,包括电子邮件、文档、网页和社交媒体内容,因此文本分析比结构化数据具有更高的商业潜力。文本分析又称为文本挖掘,是指从无结构的文本中提取有用信息或知识的过程。文本挖掘是一个跨学科的领域,涉及信息检索、机器学习、统计、计算语言和数据挖掘。大部分的文本挖掘系统建立在文本表达和自然语言处理(NLP)的基础上。文档表示和查询处理是开发矢量空间模型、布尔检索模型和概率检索模型的基础,这些模型又是搜索引擎的基础。NLP技术能够增加文本的可用信息,允许计算机分析、理解甚至产生文本。词汇识别、语义释疑、词性标注和概率上下文无关文法等是常用的方法。基于这些方法提出了一些文本分析技术,如信息提取、主题建模、摘要(summarization)、分类、聚类、问答系统和观点挖掘。;3.Web数据分析

对于互联网企业来说,精通数据分析技术、精通如何监测和测量数据指标,目前成为企业运营的核心技术,而Web数据分析的目标是从web文档和服务中自动检索、提取和评估信息以发现知识,涉及数据库、信息检索、NLP和文本挖掘,可分为web内容挖掘、web结构挖掘和web用法挖掘(webusagemining)。

4.多媒体数据分析

多媒体数据分析是指从多媒体数据中提取有趣的知识,理解多媒体数据中包含的语义信息。多媒体数据的来源异常丰富,其不再是我们以往认为的图像,而是来源于各种可以产生丰富的图像、视频、语音数据的智能设备。除此之外,还有在现实生活中的各种监控摄像设备、医疗图像设备、物联网传感设备、卫星等都能产生大量的图像、视频数据。因此多媒体数据在很多领域比文本数据或简单的结构化数据包含更丰富的信息,提取信息需要解决多媒体数据中的语义分歧。以新浪微博为例,用户的微博含有大量的图片、视频等链接,即体现在被大量关注和转发的微博上。而用户对于纯文本的微博信息关注程度比较低。再者目前微信的使用量居高不下,其主要凭借以语音作为信息载体,改变了以往以纯文本的形式进行社交的方式。为此,多媒体数据分析研究覆盖范围较广

文档评论(0)

139****1983 + 关注
实名认证
文档贡献者

副教授、一级建造师持证人

一线教师。

领域认证该用户于2023年06月21日上传了副教授、一级建造师

1亿VIP精品文档

相关文档