金融时间序列聚类研究方法比较探究.docVIP

下载本文档

6
0
约6.85千字
约 12页
2017-11-10 发布于福建
举报
版权申诉

金融时间序列聚类研究方法比较探究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

金融时间序列聚类研究方法比较探究

金融时间序列聚类研究方法比较探究　　【摘要】本文研究目的是通过使用金融时间序列聚类方法验证收益率序列相似的公司是否属于同一个行业。由于金融时间序列数据不服从正态分布，不能用线性相关系数来进行相似性度量，因此文中选用几种非线性相关系数来对金融序列相似度进行度量，然后运用PAM、agnes、diana三种聚类方法分别对金融时间序列进行聚类。研究发现：最终聚类结果和初始的行业分类比较吻合，表明同一个行业中的股票收益率相似度很大。【关键词】非线性相关系数相异度度量聚类方法验证统计量引言时间序列聚类在很多领域有重要的作用，如金融和经济，工程学和生命科学等等。时间序列聚类有多种方法，聚类时通常要构建两个时间序列之间的相异度度量。如Piccolo（1990）[14]和Maharaj（1996）[12]提出的基于扩展的自相关系数的距离，Galeano（2000）[7]提出基于自相关的距离，Tong和Dabas（1990）[15]提出基于残差拟合的距离，Bohte（1980）[3]提出基于交叉相关系数距离，Caiado（2006）[5]提出基于周期图的距离，Maharaj和DUrso（2010）[13]提出基于谱的相异度度量，Berndt和Clifford（1996）[2]提出动态时间扭曲距离，De Gregorio（2008）[6]提出马尔科夫算子距离，等等。时间序列聚类分析在金融领域显得尤为重要，因为金融从业人员对金融资产之间的相似性很感兴趣，通过研究资产之间的相似度，对资产进行聚类，来进行投资和风险管理。因此，金融研究者提出了很多统计方法来分析资产价格序列的相似结构。例如，Mantegna和Bonanno（2001）[4]使用Pearson相关系数来度量两个股票收益率序列之间的相似度。考虑到金融时间序列的波动性，Caiado和Crato（2006）[5]提出了一种描述两个股票收益率数据之间动态特征的的类Mahalanobis距离度量方式，并且提出了一种聚类程序来对DJIA指数进行聚类。本文中，通过HoeffdingD，Kendallsτ和Spearmansρs三种相关系数分别来定义金融时间序列的相似度，然后运用PAM、agnes、diana三种聚类方法对相异度度量矩阵进行聚类，从而对不同的相似度度量方法和聚类方法进行比较。这对实际中进行金融时间序列分析有借鉴作用。文章结构分为四个部分，第一部分介绍几种了相关系数和相异度度量方法；第二部分介绍了几种聚类方法和聚类评价标准；第三部分运用股票收益率数据进行了实证分析；第四部分做出总结并提出相关建议。一、相关系数和相异度度量在对金融时间序列数据进行聚类之前，首先要获得适合于聚类算法的数据结构。Kaufman和Rousseeuw（1990）[10]提出，聚类算法的数据结构通常有两种：第一种数据结构是对象—属性的n×p矩阵，其中矩阵的行代表对象，矩阵的列代表属性；第二种数据结构是相异度矩阵，矩阵的行和列的性质一样，代表的都是两个对象之间的相异度。本文运用的是相异度矩阵数据结构，因此首先介绍一些相关系数和相异度的概念。（一）相关系数相关系数是最常用的相似度的度量方式，常用的相关系数包括：Pearson相关系数ρp，HoeffdingD，Kendallsτ和Spearmans ρs。其中Pearson相关系数ρp是一种线性相关系数，其他三种均为非线性相关系数。由于金融时间序列不服从正态分布，而呈现的是一种厚尾分布，不适合用线性相关系数进行两个金融时间序列的相关性度量。因此，本文主要考虑后三种非线性相关系数。 1.相关系数ρp Pearson相关系数描述的是一种线性相关关系，相关系数的值在[-1，1]之间，数值越接近于1或-1，说明两个变量相关程度越大，数值越接近于0，说明两个变量之间相关程度越小。如果ρp（X，Y）=0，则说明X和Y是相互独立的，反之则不成立。 2.Kendall’sτ 当且仅当事件{X2X1且Y2Y1}或事件{X20}才会出现。因为事件{X2X1且Y2Y1}和事件{X2 　　1.PAM（围绕中心点）方法。PAM方法是一种基于划分的聚类方法，它不仅可以对对象-属性矩阵进行聚类，也可以对相异度矩阵进行聚类，本文用于对相异度矩阵进行聚类。这种方法是由Kaufman和Rousseeuw提的，又被称为k-medoid方法。 PAM的聚类算法如下：（1）首先选择k个对象，这k个对象应当为它们各自所定义的类的中心，使得每个类中其他对象到它的平均距离最短，这k个对象被称为代表性对象。从这可知，最初的k个代表对象不是随机选择的，这也是这种方法和k-means方法的主要不同点。