大数据挖掘的最新应用和进展.docx

  1. 1、本文档共3页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大数据挖掘的最新应用和进展报告 作者 五元小馄饨 大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。 又或者可以将其这样定义:一种规模大到在获取、 存储、管理、分析方面大大超出了传统 数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。 《大数据时代》一书作者维克托认为大数据时代有三大转变: 第一,我们可以分析更多的数据,有时候甚至可以处理和某个特别现象相关的所有数据,而不是依赖于随机采样。更高的精确性可使我们发现更多的细节。 第二,研究数据如此之多,以至于我们不再热衷于追求精确度。适当忽略微观层面的精确度,将带来更好的洞察力和更大的商业利益。 第三,不再热衷于寻找因果关系,而是事物之间的相关关系。例如,不去探究机票价格变动的原因,但是关注买机票的最佳时机。大数据打破了企业传统数据的边界,改变了过去商业智能仅仅依靠企业内部业务数据的局面,而大数据则使数据来源更加多样化,不仅包括企业内部数据,也包括企业外部数据,尤其是和消费者相关的数据。 而大数据挖掘是基于大数据又不等同于大数据,大数据挖掘是基于数据库理论,机器学习,人工智能,现代统计学的迅速发展的交叉学科,在很多领域中都有应用。涉及到很多的算法,源于机器学习的神经网络,决策树,也有基于统计学习理论的支持向量机,分类回归树,和关联分析的诸多算法。数据挖掘的定义是从海量数据中找到有意义的模式或知识。 大数据挖掘在各行各业都有着广阔的发展前景和应用空间。 下面就主要说说大数据在金融领域的应用,一般认为有精准营销和大数据风控两个方面。精准营销就不说了,基于行为数据去预测用户的偏好和兴趣,继而推荐合适的金融产品,相比传统的短信群发模式,不知要先进了多少倍,这个大家容易理解。而对于大数据风控,其逻辑便在于“未来是过去的重复”,即用已经发生的行为模式和逻辑来预测未来。 统计学规律告诉我们,在实验条件不变的条件下,重复实验多次,随机事件的频率等于其概率。意味着,随着随机事件的大量发生,我们是可以发现其内在规律的。而大数据里面包含的海量数据,就为我们发觉隐藏在随机事件后面的规律提供了条件。大数据风控的两个应用,信用风险和欺诈风险,背后都是这个逻辑,通过分析历史事件,找到其内在规律,建成模型,然后用新的数据去验证和进化这个模型。 以美国主流的个人信用评分工具FICO信用分为例,FICO分的基本思路便是:把借款人过去的信用历史资料与数据库中的全体借款人的信用习惯相比较,检查借款人的发展趋势和经常违约、随意透支、甚至申请破产的各种陷入财务困境的借款人的发展趋势是否相似。 FICO评分是传统金融机构对大数据的运用,再来看看典型互金机构ZestFinance对大数据的运用,ZestFinance的客群主要就是FICO评分难以覆盖的人群,要么是在FICO得分过低金融机构拒绝放贷的人,要么是FICO得分适中,金融机构同意放贷但利率较高的人。 在ZestFinance的评分模型中,会大量应用到非征信数据(50%-70%左右),在其官方宣传中,提到会用到 3500 个数据项,从中提取 70,000 个变量,利用 10 个预测分析模型,如欺诈模型、身份验证模型、预付能力模型、还款能力模型、还款意愿模型以及稳定性模型,进行集成学习或者多角度学习,并得到最终的消费者信用评分。 但是大数据的应用还存在着许多有待解决的问题,第一个问题就是数据共享的问题。大数据的应用前提就是要有大数据,而对于很多金融机构而言,并没有所谓的大数据,又怎么谈应用呢。 一般来讲,盈利性质的商业公司和企业都不会轻易泄露自己的数据、建模方法和分析过程,这个无可厚非,但客观上便产生了这样一种效果,几大互联网巨头变成了数据黑洞,用户的数据进得去、出不来,可以为企业自身而用,但不能为整个行业或社会而用。此外,散落在税务、公积金、海关、工商等领域的数据梳理和整合,也是漫长的过程。 还有一个问题是关乎我们每一个人的问题,就是关于个人隐私和数据保护的问题。没错,对于很多公司而言数据是核心驱动力。但问题是,在数据保护和用户隐私等相关法律框架最终明确落地之前,数据既是宝贵的资产,也可能演变成为声誉风险、合规风险、用户诉讼风险等各类问题的潜在来源,是福是祸,尚是未知之数。

文档评论(0)

zichibumu + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档