- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
金融高频数据研究基于统计的视角
一、 国内关于高频数据集的研究
高频数据不是新问题。地质、气候、工厂生产、实验观测和其他领域的高频数据随处可见。然而,随着计算机存储技术的快速发展,高效数据的记录变得越来越方便,处理大数据的挖掘技术也越来越成熟。因此,高频数据的问题越来越受到重视。特别在金融领域, 鉴于中国证券市场历史短暂且发展迅速, 跨期的观测数据往往在可比性上不能令人满意, 如果采用高频数据, 那么就可以在较窄的观测区间内产生满足分析所需要的数据量, 同时可以对市场微结构模型做出恰当的验证。
对金融高频数据的研究至少可以追溯到上世纪80年代, 如Harris (1986)等发现交易量波动率在日内呈“U”型。随后有BailliaBollerslev (1989, 1990)、Andersen Bollerslev (1994) 、Goodhart Maureen (1997)、Granger (1998)、Bauwens (2008) 、Andersen (2001) 、Nielsen Frederiksen (2008)等多位学者在波动率和交易间隔建模等方面的跟踪研究。
国内关于高频数据的研究主要有:来升强等 (2010)针对粗集分类方法因离散化而损失数值型变量提供的高质量信息, 提出一种基于Bayes概率边界域的粗集分类方法, 并将其应用于高频数据。然而该文只是把高频数据作为方法的验证, 并没有正面讨论高频数据。徐国祥等 (2007)通过衡量残差密度函数的参数和非参数估计值之间的紧密程度对ACD模型的设定进行了检验。唐勇等 (2006)研究了针对高频金融时间序列而开发的波动率测量方法——已实现极差波动 (realized range-based volatility, RRV) 的加权形式。韩冬等 (2006)研究了流动性的“周内效应”和“日内效应”后发现, 当控制波动性、交易量和股价等对流动性有重要影响的变量时, 效应依然存在。凌士勤等 (2005) 提出基于高频数据的分类信息混合分布GRACH模型。
事实上, (超) 高频数据这类大规模数据集本身是数据挖掘的对象, 然而在金融高频数据的研究中, 数据挖掘技术尚未得到足够的重视, 目前的研究仍多仰赖于经典统计方法和计量经济模型的修正。另一方面, 统计分析的对象是数据, 而国内鲜有方法论框架下直接将金融高频数据作为一类研究对象进行的讨论与分析, 这不可避免对金融高频数据产生一些认识上的误区。本文从统计视角对高频数据挖掘研究过程中的一些误区和被忽略的问题展开讨论, 并对金融高频数据挖掘进一步研究的思路做了展望。
二、 金融高频数据的不等间隔随机数据
经济金融领域研究的“高频数据”、“超高频数据”、“低频数据”主要是根据计量单位来做区分的。金融“高频数据” (high-frequency data) 特指日内数据 (high-frequency intra-daily data) , 即主要以小时、分钟或秒为采集频率的数据;“低频数据”通常指以天、周、月、年作为计量单位的数据;而金融“超高频数据”则是对交易过程实时采集的数据 (tick-by-tick data) , 即按照每笔交易的发生逐笔记录的数据。这里需要注意的是, 超高频数据并不是抽样数据, 而是全样本数据;不是等间隔数据, 而是不等间隔且间隔随机的数据。
从函数的观点来看, 金融高频数据以时间t为自变量, ti指时刻i, 并假定Δti=ti-ti-1等间隔;而超高频数据则以交易为自变量, ti=t (i) 指第i次交易的时刻, Δti=ti-ti-1是两次交易的时间间隔, 往往是不等间隔的。
应该注意到, 首先, 实际交易时间与模型时间 (钟表时间) 的这种不一致性在超高频数据中还表现为, 在同一市场上, 多笔交易同时发生, 甚至可以同时以不同的价格成交, 即“同一时刻的交易可能会因为交易系统或数据传输等原因从而在不同的时刻发布出去;而不同时刻的交易也可能在同一时刻被合并称同一数据被发布”。从这个角度来讲, 以秒来计量时间都已经是非常大的尺度了。其次, 金融高频数据和超高频数据的价格都是离散的 (price discreteness) 。这是因为交易所对最小交易价格单位有限制, 所以每笔成交价格只能是最小交易价格 (tick size) 的整数倍。我们通常遇到的时间序列、连续时间金融, 其区别主要是自变量 (时间) 是否离散, 因变量 (x (t) ) 的取值都是在整个实数域或大于0的部分, 而这里的离散价格意味着因变量的取值是离散的。第三, 与低频数据相比, 金融高频数据的质量往往并不高 (大规模数据的基本特征) , 因为交易数据会因种种原因而缺失, 某些交易的确切时间也不见得准确, 而且还有微结构噪音等因
原创力文档


文档评论(0)