- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大数据时代可视化技术的再创新大数据的豆形可视化及其在资本市场中的应用
1 金融大数据与豆形图
2012年12月,英国的威克托埃尔斯恩伯姆(威克托埃尔塞恩博姆)的大数据时代在中国出版。在这本书中,大数据的信息浪潮改变了我们的生活、工作和思维,大数据开启了一个重要的时代。而哈佛大学社会学教授加里·金说:“这是一场革命, 庞大的数据资源使得各个领域开始了量化进程, 无论学术界、商界还是政府, 所有领域都将开始这种进程”。金融市场更是催生了大数据, 随着计算机存储和传输能力的提升, 股票、外汇、衍生品等金融市场记录了以小时、分钟, 甚至是以秒为采集频率的高频或超高频数据, 即金融大数据 (Financial Big Data) 。金融大数据提供了交易价格、收益率、交易量、交易方向以及交易时间间隔等多维度、具有高度持续性的交易信息, 是金融市场的实时再现, 这对理解和研究金融市场微观结构、行为金融、资本资产投资等具有重要的商业价值, 同时引发基于金融大数据的产业创新。
金融大数据的相关研究在本世纪初期开始风靡全球, 在定量研究方面, 世界各国学者在此领域取得卓越的成绩, 对于金融市场的发展做出了杰出的贡献。观之金融大数据的定性分析, 金融大数据在研究统计特征, 尤其是更高频资产收益率的波动率方面作用很大, 鉴于其大量的观测值, 对于金融大数据的可视化方面的研究存在着不小的瓶颈。
金融数据的可视化在表现金融序列属性特征时比统计模型更为形象、直观。从原始数据中难以挖掘的规律、纯理论运算中难以得到的结论, 我们可以从可视化图形中窥知一二。尤其是“大数据”时代的到来, 金融大数据的可视化研究还未取得有效进展, 豆形图的出现为金融大数据的可视化开辟了道路。豆形图 (Beanplot) 可以可视化比较组别间的单变量数据, 并且可以展示密度曲线、重复观测和多峰形态分布等数据特征, 这是箱形图所不能比拟的。尤其值得一提的是, 豆形图在金融大数据的可视化领域展示了突出的优势, 不仅克服了箱形图的不足, 还能够充分展现海量数据的信息, 极大提高大数据可视化的有效性和精确性。为此, 本文在简单介绍数据可视化发展历史的基础上, 引入豆形图及其属性特点, 展示了模拟的“豆形”例子, 并将其应用于实际金融大数据, 构造可视化的豆形时间序列, 分析金融大数据的日内模式和动态特征, 为后继的金融大数据建模提供数据的属性特征。
2 金融时间序列的可视化
最初, 我们使用条形图可视化条形时间序列。条形图会正确显示原始趋势以及每个时间间隔内最小值和最大值。然而, 此类图形中, 在单一的时间间隔内, 采用单一的点来绘制每个观测, 致使条形图尽在存在极少点的情况下才能彰显其用途。因此, 这也使其很难应用在大数据框架中。直方图在时间和空间维度上汇总数据时用处很大, 因为其结构简单、灵活, 能够合理、精确地描述数据基本特征的能力。然而, 在多组数据比较方面, 直方图的叠加会使空间变得混乱。箱形图 (Turky, 1977) 常用于比较组与组间分布的差异, 能够揭示某一总体的几种属性:中心, 范围, 不对称性、离群点以及数据主要结构的变化。然而, 随着观测个数增加, 离群点的个数会增加, 箱形图的可视能力渐弱。并且, 还将忽略关于分布密度的信息, 而这些密度信息在可视化金融大数据上却是极其重要的。小提琴图 (Benjamini, 1988) 结合了密度曲线的可视化以及箱形图的优点, 更好地显示了分布形状。虽然在小提琴图中可见其基本分布, 但随数据量的增大, 很多样本点 (除了最低点和最高点) 却是不可视的, 难以在金融大数据的可视化方面有所展露。
本文提出用豆形图来可视化金融大数据。事实上, 所有个体观测在每一个“豆”中都是可视的。豆形图会绘出每个时间点的均值 (由豆形线表示) 以及整体均值, 这非常便于比较金融时间序列不同时间点的属性特征。另外, 在豆形图中, 不仅大数据密度的分布是可见的, 还会显出数据存在的噪音、“波峰”、“波谷”和波动情况。由于在日内数据中, 波动会代表数据的主要特征, 因此豆形图对于研究金融大数据极其重要。
国外的研究中, 豆形图已经逐渐被应用于金融大数据的可视化, 近十年对于豆形时间序列的研究文献, 已成为金融大数据可视化文献中重要组成部分。我国金融市场的稳步发展也为豆形时间序列的研究提供了数据条件。但与国外相比, 我国学界在介绍以及应用豆形图对金融大数据进行可视化研究方面尚处于空白阶段。鉴于此, 本文参考了国外学者的研究成果, 试图对豆形时间序列作系统的介绍, 目的在于揭示豆形时间序列在金融大数据可视化中的优势, 以及改进我国在金融大数据可视化应用领域的不足。
3 密度线的显示
豆形图 (Beanplot) 是一个或多个豆形的图示。如图1右图所示, 每
文档评论(0)