数据分析12个误区.docVIP

下载本文档

12
0
约3.7千字
约 8页
2018-09-10 发布于福建
举报
版权申诉

数据分析12个误区.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

数据分析12个误区

数据分析12个误区　　在IT界，炒作越大误区就越多，数据分析也不例外。数据分析是当下IT界最热门的领域之一，它可以带来显著的业务效益，但是误区会妨碍企业顺利和及时地交付可能使业务用户、最终使客户受益的分析功能。企业在制定或夯实分析策略时，应当提防这12个误区。误区1：数据分析需要大量投入　　这年头，实施的每一项技术似乎都要过财务稳健性这道关卡。IT和业务经理们提议启动项目或部署新工具时，首先面临的问题之一是“这要花多少钱？” 　　　　一些人认为，数据分析本质上很烧钱，因此仅限于预算庞大或内部资源丰富的大企业。不过移动和在线房地产服务提供商Trulia的工程副总裁Deep Varma表示，并非所有的数据分析工作都需要大量投入。　　Varma说：“现在市场上有众多的开源及其他工具可以帮助你开始展示数据分析具有的价值。你要深入了解内部数据存储和想解决什么样的问题。有了云计算，试着用分析技术解决业务问题也变得很容易。” 　　安永咨询公司的全球分析主管Beatriz SanzSaiz补充道，现代分析技术“基于云系统和大数据架构，它们本身比传统的数据仓库系统便宜得多。” 　　Saiz说：“此外，数据和分析技术通常用来获得三个结果：提高流程效率、增加收入和积极主动的风险管理。所以总的来说，运用数据和分析技术可以为任何公司带来大幅节省成本的好处。” 误区2：需要大数据才能执行分析　　对许多人来说，大数据和分析这两个概念密不可分。这种想法指的是，企业需要在执行分析之前收集大量数据，以便获得业务洞察力和改进决策制定等。　　当然，大数据分析的好处已得到了公认，拥有资源的公司确实可以利用其存储的数据作为分析工作的一部分，从而获得显著的竞争优势。但大数据对分析来说必不可少的想法是错误的。　　人力资源公司Allegis Global Solutions的商业智能执行董事Tim Johnson说：“人们常常努力采集尽可能多的数据;他们一听到‘大数据’就来劲。一个误区是以为数据越多越好，机器会分门别类。” 　　然而分析员需要的是具体的数据，而不是更多的数据。Johnson说：“95%的用户在寻找与其工作相关的信息，支持决策和提高业绩。”企业切忌一味获取更多的数据，而是要明白业务用户不光关注需要访问哪些数据，还关注如何展示数据。　　Johnson说：“让员工可以访问每一个信息（这些信息采用多种格式）会让人无所适从，实际上阻碍采用。而是应搞清楚对他们来说重要的信息，以及如何以最简单的格式向他们展示这些信息。” 误区3：分析可以消除人为偏差　　自动化系统执行的方式不应该有偏差。但技术是人类开发的，所以消除所有偏差几乎不可能。一些人认为，分析技术和机器学习可以消除人为偏差。　　全球技术咨询公司ThoughtWorks的技术负责人Mike Mason说：“遗憾的是，这根本就不对。算法和分析使用‘训练数据’加以调整，会重现该训练数据具有的任何特征。” 　　Mason表示，在一些情况下，这会给分析结果带来无害的偏差;在其他情况下，会带来较严重的偏差。他说：“就因为‘算法这么说’并不意味着答案是合理的或有用的。” 误区4：最好的算法总是胜出　　实际上，有了足够的数据，“有时候算法并不重要。”在Mason提到的IEEE上的一篇文章《数据的不合理有效性》中，谷歌的工程师认为，简单的统计模型加上超海量数据比含有众多特征和摘要的“更智能化”模型取得了更好的结果。　　Mason说：“在一些情况下，仅仅处理数量更多的数据就能取得最好的结果。” 误区5：算法万无一失　　Johnson表示，人们天生就高度信任统计模型和算法;随着许多企业纷纷搞分析项目，它们日益依赖复杂的模型来支持决策。　　“由于人们不了解模型、算法及其他先进的数据科学实践，所以信任它们。”Johnson表示，用户不觉得自己具备可以挑战模型的知识，于是他们只好信任构建模型的“聪明人”。　　“在过去五六十年，我们听说过人工智能会在20年内取得主导地位，我们会继续听到人们这么说。在我们能公然信任机器学习和结果之前，还有好多事情要做。在此之前，我们要让构建算法和模型的人解释是如何得出答案的。不是我们不能依赖结果，而是需要透明度，以便我们能够信任和验证分析。” 误区6：数据科学是神秘的“魔法” 　　近年来数据科学备受关注，有时让人犯疑：它到底是什么样的学科。数据科学基本上是利用算法找出数据中的模式。　　数据存储公司Micron的CIO Trevor Schulze说：“数据科学似乎很神秘，因为这些算法能够分析人脑理解能力之外的更多变量和更庞大数据集。” 　　“近年来随著计算能力和内存增大，我们现在能够迅速解决仅仅10年前用任何技术都解决不了的问题。数据