- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
PAGE1 / NUMPAGES5
认识大数据的本质,养成大数据思维
践行数据的商业价值,理解大数据的本质,从哪里开始?应该从认识不确定性开始。
01什么是不确定性
什么是不确定性?打个比方,老王、老李做一个游戏“猜花生米”。老王出一只拳头,让老李猜里面是空的还是抓了一粒花生米。这个事件对老王而言是确定性事件,因为老王自己有没有抓花生米,他心知肚明。这个事件对猜拳的老李来说就是不确定性事件,因为老李无法对老王的猜拳决策做出绝对准确的预测。
在实际生活中,不确定性事件广泛存在。事实上,人生就是由一系列或大或小的不确定性事件构成的。婚姻选择有着极大的不确定性。一对相爱的男女是否应该接受对方成为自己的终身伴侣,这是一个重大选择。这个选择的后果是什么?是幸福的远航,还是痛苦的开始?这有很大的不确定性。为了极小化这种不确定性,青年男女往往需要一场死去活来的恋爱,以便充分暴露双方的优点和缺点,以减少未来婚姻中的不确定性。但是,无论你如何了解,这种不确定性仍然存在。
世界到处都充满了不确定性,那我们对未来的世界认识是不是不可知的?答案是否定的。世界上很多事情是难以用确定的公式或者规则来表示,但是这种不确定性并不是无规律可循,这个时候就需要用到统计学中的概率模型来描述。在概率论的基础上,信息论鼻祖香农博士建立了一套完整的理论,将世界的不确定性和信息联系起来,这就是信息论,用来解释不确定性的世界。
02信息可消除不确定性
什么是信息?在看《暗时间》时(推荐大家看看),里面讨论了一些信息论相关的内容,于是就尝试搜索信息论和不确定性的关系,结果发现香农说了这么一句话:“信息是用来消除不确定性的东西”。信息论的鼻祖果然是鼻祖,一句话解释了信息。
信息是否可以被度量?如何度量信息?1948年,香农提出了“信息熵”这个概念,解决了信息度量的问题。他指出,信息量与不确定性有关:假如我们需要搞清楚一件非常不确定的事情,或者我们一无所知的事情,就需要收集大量的信息。相反,如果我们对某件事已经有了较多的了解,那么不需要太多的信息就能把它搞清楚。从这个角度来看,信息量的度量就是不确定性的多少。
举例说明,就拿互联网广告来说,在门户网站上投放展示类的品牌广告,点击率是非常低的。因为对于受众用户,广告投放时几乎是随机猜测用户的需求,很不准确。而搜索广告因为有用户输入的关键词,准确率会大幅度提高,至于提高多少,取决于关键词所提供的信息量。这就是搜索广告所赚到的广告费用要高出展示广告两个数量级。通过这个例子,也能说明,信息时代,谁掌握了更多的信息,谁就掌握了更多财富的可能性。
03大数据与信息的关系
了解大数据的人,都可能知道,大数据有5V特点,这是IBM提出来的:Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。但从信息论的角度,大数据通常是具备三个主要特征,数据量大,多样性和完备性。
1、大数据的体量足够大
大数据最明显的特点就是体量大,这一点无论是内行还是外行都认可,没什么异议。我们国家仅仅北京的国家超级大数据中心,占地面积就8万平方米,包含9栋数据中心机房和1栋感知体验中心。
但是,过去由于数据量不够,即使用了数据,依然不足以消除不确定性,因此数据的作用其实有限,很多人忽视它的重要性是必然的,数据的价值也就被严重低估。在那种情况下,哪个领域先积攒下足够的数据,它的研究进展就显得快一些。语音识别领域,就是因为早期积攒了大量的音频数据,才可以捷足先登,第一批尝到了数据驱动方法的甜头。
2、大数据的多维度足够多
众所周知,Google的人工智能已经走在了前沿,也是目前全球估值最高的公司。但是,无论是AlpahaGo、无人驾驶还是IT医疗公司Calico,都是建立在多维度的大数据基础之上的。例如关于“食物”这个问题,Google会利用用户输入的信息,收集所有相关的信息。不仅涉及到食物的做法、吃法、成分、营养价值、价格、问题来源的地域和时间等维度。
大数据的多维度,统计学中称为相关性,信息论中称为互信息。互信息,它在信息论中,实现了对信息相关性的度量。比如“央行调整利率”和“股市短期波动”的互信息很大,这就证实了两者具备强相关性。第二个视角,交叉验证。举例说明,夏天的时候,“空气湿度高”和“24小时内要下雨”之间的互信息比较大。也就是说空气湿度高,24小时下雨的可能性比较大,但并不能说空气湿度高就一定会在24小时内下雨。还需要结合气压信息,云图信息等其他纬度的信息,来交叉验证“24小时内要下雨”这件事情,那么预测的准确性要高的多。
3、大数据的完备性
要理解它,需要介绍信息论中的一个重要概念—交叉熵。它可以反映两个信息源之间的一致性,或者两种概率模型之间的一致性。当两个数据源完全一致的时候,其交
您可能关注的文档
最近下载
- 2025年拍卖师大宗商品(如煤炭、钢材)拍卖结算的数量、质量确认专题试卷及解析.pdf VIP
- 基于推理引擎的AI语言协议与话语伦理自动融合机制研究.pdf VIP
- 近世代数课件-3.1. 加群、环的定义.pptx VIP
- (中建八局)看图识图培训资料.pptx VIP
- 锂电池工艺流程及制程控制点详解.pdf
- T BJTJ 001—2024 新型热轧带肋高强钢筋应用技术标准.pdf VIP
- 塔吊安全管理培训PPT课件完整版(强烈推荐).pptx VIP
- ECN工程变更管理流程HHC.doc VIP
- 山东章股产品资料-L系列ZL系列罗茨鼓风机.pdf
- 年产5万吨乙苯及苯乙烯生产工艺.doc VIP
原创力文档


文档评论(0)