互联网和金融，在数据挖掘上究竟存在什么区别？.doc

下载文档

1
0
约4.31千字
约 7页
2018-04-20 发布于湖南
举报
版权申诉
保障服务

互联网和金融，在数据挖掘上究竟存在什么区别？.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

分析：互联网和金融，在数据挖掘上究竟存在什么区别？论文类别：计算机?-?互联网研究上传时间：2015/10/25?15:12:00论文作者：未知 ? 　　(中讯)在银行做了两年的数据分析和挖掘工作，较少接触互联网的应用场景，因此，一直都在思考一个问题，“互联网和金融，在数据挖掘上，究竟存在什么样的区别”。在对这个问题的摸索和理解过程中，发现数据挖掘本身包含很多层次。并且模型本身也是存在传统和时髦之分的。本文就想聊聊这些话题。　　一、数据挖掘的层次　　一直想整理下对数据挖掘不同层次的理解，这也是这两年多的时间里面，和很多金融领域、互联网做数据相关工作的小伙伴，聊天交流的一些整理和归纳。大概可以分为四类。　　(一)纯粹的数据加工　　侧重于变量加工和预处理，从源系统或数据仓库，对相关数据进行提取、加工、衍生处理，生成各种业务表。然后，以客户号为主键，把这些业务表整合汇总，最终可以拉出一张大宽表，这张宽表就可以称之为“客户画像”。即，有关客户的很多变量和特征的集合。　　在这个阶段，主要的数据加工工具为SQL和SASbase。　　(二)傻瓜式的挖掘工具　　较为典型的就是SASEM和clementine，里面嵌入很多较为传统成熟的算法、模块和节点(例如逻辑回归、决策树、SVM、神经网络、KNN、聚类等)。通过鼠标的托拉拽，流程式的节点，基本上就可以实现你挖掘数据的需求。　　傻瓜式操作的优点就是使得数据挖掘，入手非常快，较为简单。但是，也存在一些缺陷，即，使得这个挖掘过程变得有点单调和无趣。没办法批量运算模型，也没办法开发一些个性化的算法和应用。用的比较熟练，并且想要进一步提升的时候，建议把这两者抛弃。　　(三)较为自由的挖掘工具　　较为典型的就是R语言和Python。这两个挖掘工具是开源的，前者是统计学家开发的，后者是计算机学家开发的。　　一方面，可以有很多成熟的、前沿的算法包调用，另外一方面，还可以根据自己的需求，对既有的算法包进行修改调整，适应自己的分析需求，较为灵活。此外，Python在文本、非结构化数据、社会网络方面的处理，功能比较强大。　　(四)算法拆解和自行开发　　一般会利用python、c、c++，自己重新编写算法代码。例如，通过自己的代码实现逻辑回归运算过程。甚至，根据自己的业务需求和数据特点，更改其中一些假定和条件，以便提高模型运算的拟合效果。尤其，在生产系统上，通过C编写的代码，运行速度比较快，较易部署，能够满足实时的运算需求。　　一般来说，从互联网的招聘和对技能的需求来说，一般JD里面要求了前三种，这样的职位会被称为“建模分析师”。但是如果增加上了最后一条，这样的职位或许就改称为“算法工程师”。　　二、模型的理解：传统的和时髦的　　据理解，模型应该包括两种类型。一类是传统的较为成熟的模型，另外一类是较为时髦有趣的模型。对于后者，大家会表现出更多的兴趣，一般是代表着新技术、新方法和新思路。　　(一)传统的模型　　传统的模型，主要就是为了解决分类(例如决策树、神经网络、逻辑回归等)、预测(例如回归分析、时间序列等)、聚类(kmeans、系谱、密度聚类等)、关联(无序关联和有序关联)这四类问题。这些都是较为常规和经典的。　　(二)时髦有趣的模型　　比较有趣、前沿的模型，大概包括以下几种类型，即社会网络分析、文本分析、基于位置的服务(Location-BasedService，LBS)、数据可视化等。　　它们之所以比较时髦，可能的原因是，采用比较新颖前沿的分析技术(社会网络、文本分析)，非常贴近实际的应用(LBS)，或者是能够带来更好的客户体验(数据可视化)。　　(1)社会网络的应用　　传统的模型将客户视为单一个体，忽视客户之间的关系，基于客户的特征建立模型。社会网络是基于群体的，侧重研究客户之间的关联，通过网络、中心度、联系强度、密度，得到一些非常有趣的结果。典型的应用，例如，关键客户的识别、新产品的渗透和扩散、微博的传播、风险的传染、保险或信用卡网络团伙欺诈、基于社会网络的推荐引擎开发等。　　(2)文本挖掘的应用　　文本作为非结构化数据，加工分析存在一定的难度，包括如何分词、如何判断多义词、如何判断词性，如何判断情绪的强烈程度。典型的应用，包括搜索引擎智能匹配、通过投诉文本判断客户情绪、通过舆情监控品牌声誉、通过涉诉文本判定企业经营风险、通过网络爬虫抓取产品评论、词云展示等。　　文本和湿人。关于文本分析，最近朋友圈有篇分享，很有意思，号称可以让你瞬间变成湿人。原理很简单，就是先把《全宋词》分词，然后统计频数前100的词语。然后你可以随机凑6个数(1-100)，这样就可以拼凑出两句诗。比如，随机写两组数字，(2，37，66)和(57，88，33)，对应的词语为(东