- 1、本文档共3页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大数据分析方向, 方法与工具
大数据分析:方向, 方法与工具
刘润泽
青岛市第二中学
X
关注成功!
加关注后您将方便地在 我的关注中得到本文献的被引频次变化的通知!
新浪微博
腾讯微博
人人网
开心网
豆瓣网
网易微博
摘????要:
目前, 大数据分析的重点主要是集中在了相关的意义和具体的发展现状上, 但是却没有过多的关注大数据的发展方向、分析方法和实用工具这三个重要的方面, 由此可见, 大数据的研究内容尚不完善。本文将重点分析大数据分析的方向、方法和工具, 结合着现阶段的研究现状加以明确, 了解大数据的相关信息, 同时进一步证实大数据的地位, 使其更好的发挥出应用价值。
关键词:
大数据分析; 方向; 方法; 工具;
大数据是时下热门的词汇, 其中涉及到的内容非常丰富。随着科学技术的发展, 人们日常生活和工作产生的数据量已经呈现出指数级增长的趋势。根据相关的指标显示, 具体的数据量每四年翻一番, 这样的速度将会在2020年前保持下去, 这将意味着人类在近些年产生的数据量就相当于之前产生的全部数据量。
1 大数据分析方向
在数据量不断激增的今天, 如果仅仅依靠着数据说话, 将会发生偏颇, 因此还是应该重点实施大数据分析, 明确大数据的分析方向。面对大数据的驱动影响, 当下面临的挑战并不是技术类的问题, 更多的则是方向性问题和组织问题。大数据分析重点依靠着数据挖掘专家, 同时也需要统计专家及行业专家的相互结合, 要求这些专家掌握最扎实的知识。大型的数据分析项目还是需要具备领导能力、数据管理能力及行业领域专长等于一身的专家。要想保证大数据的分析结果能够更好的利用, 需要密切关注拥有变化经验的管理者。
大数据分析本身就是一项拥有着巨大投资风险的活动, 所以分析所得的结果存在着较大的不确定性, 甚至于出现无法达到预期效果的问题。虽然可以在事前及时的确定好亟待解决的相关问题, 同时明确具体的方向, 但是存在的不确定性无法消除。分析不确定性的具体原因, 就是因为大数据里是否包含着原先并不了解的新知识, 若是不存在, 则在做出任何分析时, 都无法拥有新的发现。是不是没有适当的分析方法和分析工具?若是因为分析方法或者是分析工具有问题, 那么大数据中的宝贵知识仍然无法及时的发现, 由此可见, 大数据的投资仍然需要谨慎一些, 通过逐步推进的方式, 及时的规避因投资失误带来的风险隐患。
2 大数据的来源
2.1 交易数据:交易的数据包含着POS机数据、信用卡刷卡数据、电子商务数据、公司的生产数据、库存数据等。
2.2 移动通信数据:
可以上网的智能手机已经成为人们日常生活中必不可少的移动设备。移动通信设备本身记录下来的数据量和相关的数据信息拥有着极高的立体完整度, 所以相较于各家互联网公司实际掌握的数据来说占据着明显的优势。
2.3 人为数据:
人为的数据重点包含着电子邮件、文档和视频等多种媒体运行过程中产生的数据流, 其中大部分的数据都属于非结构性的数据, 因此可以利用文本分析的方式, 及时的对其进行分析。
3 大数据分析
大数据分析的过程都是把一些具有描述性、诊断性且预测性的模型适用在数据中, 这样回答出相关的问题, 并且发现新的见解。通过明确分析技术的范围, 适当的阐述出历史报告, 同时规划出相应的行动路线。大数据分析的首要前提是对数据的抽取、转换和加载, 整个过程主要是将来源不同且类型不一的数据抽取出来, 通过对其清洁、转换和集成的过程, 加载至相应的数据库中, 为联机的分析处理打下基础。这些过程都是同步进行, 因此数据的质量会差别较大, 如果缺乏了基本的邮政编码地址, 可能需要在数据清洁的时候及时处理。因为数据量和数据的种类较多, 所以数据工程师们多是花费大量的时间进行清洁, 这样进行储存和分析。
4 大数据分析工具
大数据分析现阶段并未找到合适的分析工具。因为依照不同的公司需求, 处理的数据规模和种类还是存在着差异。有一部分项目仍然是需要简单的电子表格, 还有些需要的是大型软件及工具的组合。大数据分析工具非常复杂, 同时整个程序密集, 要求结合着多种技能才可以发挥出良好的应用效果。按照相关的流程逐一划分, 多数的软件可以划分为查询及报告软件、联机分析处理软件等。数据仪表盘也就是指监控型的信息显示, 具体的功能就是彰显出正在发生的情况, 比如网络营销人员还是需要密切的关注关键字的推广状况, 从而达到实际的指标。现阶段, 相对流行的大数据处理确定标准系统是Hadoop。这种系统可以帮助企业和商业分析师更及时的找到良好的相关性和关系, 让他们及时的从现有的大数据集获中取得远见。一般来说, 良好的大数据分析系统应该具备最基本的磁性、灵活性、深刻性, 磁性主要是指这样的系统可以及时的抓取相关的数据信息, 不用管其具体的结构和质量, 灵活性则是指系
文档评论(0)