- 1、本文档共7页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
东软数据挖掘在证券行业中的应用.doc
东软数据挖掘在证券行业中的应用
一、前言
数据挖掘(Datamining)或称为知识发现已经成为许多使用者从浩如烟海般的数据中提取有用信息,并赢得竞争胜利的第一号秘密武器。数据挖掘是指在对大量的企业历史数据进行探索后,揭示出其中隐藏着的规律性内容,并且由此进一步形成模型化的分析方法。通过数据挖掘还可以建立起企业整体或某个业务过程局部的不同类型的模型。这些模型不仅可以描述企业当前发展的现状和规律性,而且可以用来预测当条件变化后可能发生的状况。这可以为企业开发新的产品和服务、甚至于为企业机构的重组提供决策支持依据。
证券市场存在巨大的风险。证券公司应该能够给自己的客户提供大盘及各股的未来走势的信息,给客户的投资、选股提供有价值的参考,尽可能地回避风险。更何况,大多数证券公司本身就是证券的投资者。股票价格的变动受多方面因素的影响,而证券投资分析的方法很多,并且一般分为:技术分析和基础分析两类,可以说在证券行业的应用分析是一门十分庞大、复杂的研究课题。
在这个方案里,我们使用证券的数据和数据挖掘产品Open Miner 1.0.1,作为抛砖引玉,分别对客户关系管理、技术分析和基础分析三个大的应用方向给出了数据挖掘的例子,更多的内容请参考。
二、客户关系管理:利用聚类做客户行为分析
1、目标
用客户交易数据统计出每个客户的交易情况,根据客户行为进行聚类。通过对客户数据进行聚类,将客户进行分群,考察每类客户的对证券公司的贡献情况,这样可以根据客户的产生类别的交易行为等其他特点知道该类用户是否对公司最有价值,并且证券公司根据客户行为的特点对贡献度大的客户类采取相应的政策照顾,并且还能吸引某些行为类似的贡献度较低类的客户发展为较高贡献的客户。
2、数据解释
对交易数据(变量描述如表1)进行数据总结,生成客户股票交易行为数据表,变量描述如表2。使用的数据包括股民代码,买卖股票的最大、最小数量/金额,平均价格,总金额等。
3、步骤
我们使用数据挖掘的聚类算法,聚类数为4,聚类准则采用Newton。
图 1 客户聚类数据挖掘流图
4、模型结果
聚类后给数据集增加了一个新的类别变量,标志客户所属的类别。
图 2 每类之间的距离图
5、应用评估
从表4可以看出第二类客户买卖的股票种类比较多,交易频繁,成交金额大,是公司的大用户,人数虽少但需要精心对待。第四类交易次数虽然排名第二与第一相比相差6、7倍,是对公司贡献率第二大的类别,并且人数是第二多的,与贡献最多的类别相比只是交易次数少,通过提高服务等内容吸引他们多做交易,从而提高公司收益。第一类买卖股票的平均价格最低,买卖的股票种类比较少,是对公司贡献率第三大的类别,并且人数是最多的,是证券公司主要的客户群,并且由于行为特点与公司贡献第二大类的用户比较相近,只是卖的少买的多,通过提高服务等内容吸引他们往公司最有利的行为转变。第三类客户买卖的股票种类少,但买卖股票平均价格比较高,交易次数少,看来主要做高价股,需要多提供高价股的信息吸引更多的交易,从当前对公司的贡献程度看是最少的。
此外,如果我们补充对客户基本信息(如年龄,开户等)的分析,还可以得出更有效的信息。
三、股市技术分析:利用时间序列预测股票价格
1、目标
数据挖掘是对大量的历史数据进行处理和分析,提炼出有价值的信息(表现为规则、模型等模式信息)。其中的时间序列模型,可以用于股票价格的预测。
2、数据解释
我们使用的数据是东大阿尔派(600718)在半天的变动情况做短线分析,此外又使用从1996年5月-1999年5月的日交易历史数据做做日线分析。数据内容包括股价的时间和当前价格。
3、步骤
数据处理:提取中各股的历史数据,确定时间序列的窗口长度为8(经过多次试用得到效果较好)。在Open Miner 1.0.1中建立工程,流程图如下:
图 3 时间序列分析的流程图
4、模型结果
日价格预测偏差图如下(窗口长度为8):
图 4 时间序列的日价格预测图
短线价格预测偏差图如下:
图 5 时间序列短线预测图
5、应用评估
股票日价格预测的效果比较好,基本反映了实际的变化趋势。短线价格预测的效果差一些,原因之一是指标值的分布比较集中。另外的原因是由于国内股票价格有10%的停板限制,这样股价变化幅度不是很大,相对比较稳定。而我们所采用的模型实际是针对稳定模型的,故此效果比较好。对于非稳定模型(一般股价变化应是这种情况),我们可以手动做差分来解决这个问题,由于这个过程比较需要时间,在这个方案里没有做实现。
四、股市基本分析:利用决策树等预测
1、目标
基本分析家假设:任何金融资产的真实价值等于这项资产的所有者的所有预期收益流量的现值。具体地说,分析家不仅需要预测折现率,而且还必须预测这种证券的
文档评论(0)