- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大数据豆形可视化及其在资本市场中应用
大数据豆形可视化及其在资本市场中应用
摘要:“大数据”时代催发了可视化技术的再创新。“豆形图”以其处理海量数据的超强能力可以直观地展现大数据的结构特征,并为大数据的可视化分析奠定基础。本文首先引入“豆形图”及其可视化大数据的特征,并将其应用于资本市场中典型的金融大数据――超高频数据,构造用于可视化分析的豆形时间序列,分析数据的日内模式和动态特征,为大数据的可视化技术开辟新的方向。
关键词: 豆形图;金融大数据;可视化;超高频数据
中图分类号:F830 文献编码:A DOI:10.3969/j.issn1003-8256.2014.06.001
1 引言
2012年12月,英国人维克托?迈尔?舍恩伯格所著的《大数据时代》在我国出版,他在书中指出,大数据带来的信息风暴正在变革我们的生活、工作和思维, 大数据开启了一次重大的时代转型。而哈佛大学社会学教授加里?金说:“这是一场革命,庞大的数据资源使得各个领域开始了量化进程,无论学术界、商界还是政府,所有领域都将开始这种进程”。金融市场更是催生了大数据,随着计算机存储和传输能力的提升,股票、外汇、衍生品等金融市场记录了以小时、分钟,甚至是以秒为采集频率的高频或超高频数据,即金融大数据(Financial Big Data)。金融大数据提供了交易价格、收益率、交易量、交易方向以及交易时间间隔等多维度、具有高度持续性的交易信息,是金融市场的实时再现,这对理解和研究金融市场微观结构、行为金融、资本资产投资等具有重要的商业价值,同时引发基于金融大数据的产业创新。
金融大数据的相关研究在本世纪初期开始风靡全球,在定量研究方面,世界各国学者在此领域取得卓越的成绩,对于金融市场的发展做出了杰出的贡献。观之金融大数据的定性分析,金融大数据在研究统计特征,尤其是更高频资产收益率的波动率方面作用很大,鉴于其大量的观测值,对于金融大数据的可视化方面的研究存在着不小的瓶颈。
金融数据的可视化在表现金融序列属性特征时比统计模型更为形象、直观。从原始数据中难以挖掘的规律、纯理论运算中难以得到的结论,我们可以从可视化图形中窥知一二。尤其是“大数据”时代的到来,金融大数据的可视化研究还未取得有效进展,豆形图的出现为金融大数据的可视化开辟了道路。豆形图(Beanplot)可以可视化比较组别间的单变量数据,并且可以展示密度曲线、重复观测和多峰形态分布等数据特征,这是箱形图所不能比拟的。尤其值得一提的是,豆形图在金融大数据的可视化领域展示了突出的优势,不仅克服了箱形图的不足,还能够充分展现海量数据的信息,极大提高大数据可视化的有效性和精确性。为此,本文在简单介绍数据可视化发展历史的基础上,引入豆形图及其属性特点,展示了模拟的“豆形”例子,并将其应用于实际金融大数据,构造可视化的豆形时间序列,分析金融大数据的日内模式和动态特征,为后继的金融大数据建模提供数据的属性特征。
2 金融大数据的可视化
最初,我们使用条形图可视化条形时间序列。条形图会正确显示原始趋势以及每个时间间隔内最小值和最大值。然而,此类图形中,在单一的时间间隔内,采用单一的点来绘制每个观测,致使条形图尽在存在极少点的情况下才能彰显其用途。因此,这也使其很难应用在大数据框架中。直方图在时间和空间维度上汇总数据时用处很大,因为其结构简单、灵活,能够合理、精确地描述数据基本特征的能力。然而,在多组数据比较方面,直方图的叠加会使空间变得混乱。箱形图(Turky, 1977)常用于比较组与组间分布的差异,能够揭示某一总体的几种属性:中心,范围,不对称性、离群点以及数据主要结构的变化。然而,随着观测个数增加,离群点的个数会增加,箱形图的可视能力渐弱。并且,还将忽略关于分布密度的信息,而这些密度信息在可视化金融大数据上却是极其重要的。小提琴图(Benjamini,1988)结合了密度曲线的可视化以及箱形图的优点,更好地显示了分布形状。虽然在小提琴图中可见其基本分布,但随数据量的增大,很多样本点(除了最低点和最高点)却是不可视的,难以在金融大数据的可视化方面有所展露。
本文提出用豆形图来可视化金融大数据。事实上,所有个体观测在每一个“豆”中都是可视的。豆形图会绘出每个时间点的均值(由豆形线表示)以及整体均值,这非常便于比较金融时间序列不同时间点的属性特征。另外,在豆形图中,不仅大数据密度的分布是可见的,还会显出数据存在的噪音、“波峰”、“波谷”和波动情况。由于在日内数据中,波动会代表数据的主要特征,因此豆形图对于研究金融大数据极其重要。
国外的研究中,豆形图已经逐渐被应用于金融大数据的可视化,近十年对于豆形时间序列的研究文献,已成为金融大数据可视化文献中重要组成
原创力文档


文档评论(0)