- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
2015134228 周岐山 数据挖掘
数据挖掘的算法及其在智能金融的应用 数据挖掘是什么 数据挖掘(Data mining),又译为资料探勘、数据采矿。它是数据库知识发现。数据挖掘一般是指从大量的数据中自动搜索隐藏于其中的有着特殊关系性的信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。 数据挖掘是通过分析每个数据,从大量数据中寻找其规律的技术,主要有数据准备、规律寻找和规律表示3个步骤。数据挖掘的任务有关联分析、聚类分析、分类分析、异常分析、特异群组分析和演变分析等。 数据挖掘的算法 数据挖掘算法类型 1.C4.5 2.CART 3.KNN(K Nearest Neighbours) 4.Naive Bayes(朴素贝叶斯NB) 5.Support Vector Machine(支持向量机SVM) 6.EM(期望最大化) 7.AdaBoost 8.Apriori 9.PageRank 10.K-Means 11.HITS 12.BIRCH 13.FP-Tree 14.GSP 15.PrefixSpan 简单介绍几个算法 C4.5算法 C4.5就是一个决策树算法,它是决策树(决策树也就是做决策的节点间像一棵树一样的组织方式,其实是一个倒树)核心算法ID3的改进算法,所以基本上了解了一半决策树构造方法就能构造它。决策树构造方法其实就是每次选择一个好的特征以及分裂点作为当前节点的分类条件。C4.5比ID3改进的地方时: ID3选择属性用的是子树的信息增益(这里可以用很多方法来定义信息,ID3使用的是熵(entropy)(熵是一种不纯度度量准则)),也就是熵的变化值,而C4.5用的是信息增益率。也就是多了个率嘛。一般来说率就是用来取平衡用的,就像方差起的作用差不多,比如有两个跑步的人,一个起点是100m/s的人、其1s后为110m/s;另一个人起速是1m/s、其1s后为11m/s。如果仅算差值那么两个就是一样的了;但如果使用速度增加率(加速度)来衡量,2个人差距就很大了。在这里,其克服了用信息增益选择属性时偏向选择取值多的属性的不足。在树构造过程中进行剪枝,我在构造决策树的时候好讨厌那些挂着几个元素的节点。对于这种节点,干脆不考虑最好,不然很容易导致overfitting。对非离散数据都能处理,这个其实就是一个个式,看对于连续型的值在哪里分裂好。也就是把连续性的数据转化为离散的值进行处理。能够对不完整数据进行处理,这个重要也重要,其实也没那么重要,缺失数据采用一些方法补上去就是了。 BIRCH BIRCH也是一种聚类算法,其全称是Balanced Iterative Reducing and Clustering using Hierarchies。BIRCH也是只是看了理论没具体实现过。是一个综合的层次聚类特征(Clustering Feature, CF)和聚类特征树(CF Tree)两个概念,用于概括聚类描述。聚类特征树概括了聚类的有用信息,并且占用空间较元数据集合小得多,可以存放在内存中,从而可以提高算法在大型数据集合上的聚类速度及可伸缩性。 BIRCH算法包括以下两个阶段: 1)扫描数据库,建立动态的一棵存放在内存的CF Tree。如果内存不够,则增大阈值,在原树基础上构造一棵较小的树。 2)对叶节点进一步利用一个全局性的聚类算法,改进聚类质量。 由于CF Tree的叶节点代表的聚类可能不是自然的聚类结果,原因是给定的阈值限制了簇的大小,并且数据的输入顺序也会影响到聚类结果。因此需要对叶节点进一步利用一个全局性的聚类算法,改进聚类质量。 Apriori 这个是做关联规则用的。不知道为什么,一提高关联规则我就想到购物篮数据。这个没实现过,不过也还要理解,它就是通过支持度和置信度两个量来工作,不过对于Apriori,它通过频繁项集的一些规律(频繁项集的子集必定是频繁项集等等啦)来减少计算复杂度。 数据挖掘在金融智能领域应用 数据挖掘所能解决的问题 目前,在很多领域,数据挖掘(data mining)都是一个很时髦的词,尤其是在如银行、电信、保险、交通、零售(如超级市场)等商业领域。数据挖掘所能解决的典型商业问题包括:数据库营销、客户群体划分、背景分析、交叉销售等市场分析行为,以及客户流失性分析、客户信用记分、欺诈发现等等。 数据挖掘技术在证券行业的应用 数据挖掘在证券行业的应用方向主要有:客户分析、客户管理、财务指标分析、交易数据分析、风险分析、投资组合分析等。 例如:风险防范:通过对资金数据的分析,可以控制营业风险,同时可以改变公司总部原来的资金控制模式,并通过
您可能关注的文档
- 2015-2016学年高中政治 专题三 联邦制、两党制、三权分立 以美国为例 4 美国的利益集团课件.ppt
- 2015-2016学年高中政治人教版必修2课件-第二单元-为人民服务的政府-第三课-我国政府是人民的政府.ppt
- 2015-2016学年高中物理 第2章 第6节 变压器课时作业 教科版选修3-2.doc
- 2015-2016学年高二12月月考语文试卷.doc
- 2015-2016学年高二地理优化作业:章末测评 第3章《地理信息技术应用》(湘教版必修3)(浙江专用).doc
- 2015-2016学年高二物理鲁科版必修1 课件:6.4 超重与失重(共28张PPT).pptx
- 2015-2016延庆毕业考试(一模)数学试题及答案.doc
- 2015-2016新人教版八年级上册期中考试卷(语文)含答案.doc
- 2015-2016海淀区初三上学期期末化学试卷及答案.docx
- 2015-2016第一单元有理数测试题2015.doc
文档评论(0)