- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一种面向金融时间序列趋势特征挖掘算法研究
一种面向金融时间序列趋势特征挖掘算法研究
[摘 要]时序数据相似性挖掘是数据挖掘中的重要研究内容。本文根据金融事件序列自身特点,将股票中的时间序列转换为以价格变动率为变量的时间序列,对趋势特征提取、聚类算法进行改进,并给出新的相似度量标准,将时间序列的预测问题转化为频繁和有效特征集的发现问题,进而进行挖掘预测。实验结果表明,该方法能有效预测时间序列中的事件。
[关键词]金融时间序列 数据挖掘 相似性 趋势特征 聚类
一、引言
随着数据挖掘技术的发展,在时间序列中进行数据挖掘的研究也逐渐引起了许多学者的兴趣,其中一个研究热点就是从时间序列中发现相似的序列模式。将时间序列相似性研究应用于股票的预测,可以从历史数据中寻找与当前的股票相似的模式,因为人们相信历史会重现,所以可以用相似模式的历史数据来预测当前股票在未来的走势。
本文将股票中的时间序列转换为以价格变动率为变量的时间序列进行分析,并对趋势特征提取、聚类算法进行改进,将时间序列的预测问题转化为频繁和有效特征集的发现问题,进而进行挖掘预测,根据连续一段时间的涨跌情况判断市场趋势,以求能准确把握市场趋势,获取更大利润。
二、时间序列数据相似性模式挖掘
时序数据相似性模式挖掘的研究已有一些研究成果,对于时间序列相似性的研究主要集中在以下3个方面:(1)时间序列由时域转换到频域后研究。这种方法将时间序列从时域通过傅立叶变换或小波变换映射到频域,使用一个固定长度的滑动窗口在序列中移动,将窗口内的数据经过变换后,采用各种频率来代替原始数据;(2)在时域内研究。这种方法直接在时域内处理数据,主要技术包括数据平移、按比例调节数据幅值、平滑处理和时间弯曲等;(3)定性计算相似性。为了消除前面两种方法的缺点,人们提出了定性计算相似性的方法,这种方法是在时域内进行研究,但并不是逐点进行相似性计算,而是只考虑一些有意义的点,如平均值、峰值、斜率或趋势值等,这样将大大减少计算量。
三、趋势特征挖掘方法
常见的金融时间序列数据主要包括股票、期货、外汇、债券等金融产品的市场交易记录,记载这些交易的时间序列数据反映的是一个有众人参与的市场环境下相应交易品种的价格变动情况,市场参与者更关心自己的投入是赚还是赔以及赚和赔的程度有多大,具体商品价格是次要的,如果投入的本钱经过市场上一番交易之后能够增值,投资者的目的就达到了。投资者要的不是具体的商品,而是能从市场上得到比投入本钱更多的回报,至于投资品种、产品单价是多少并不重要。本文在对金融时间序列数据的分析中,以价格变动率(xi-xi-1)/xi-1作为研究切入点,正为涨,负为跌,而涨和跌是性质截然相反的市场走向。
由于股票时间序列含有很多噪声,两个极值点之间往往离的很近,有时只有2个时间单位,因此在进行特征提取前必须进行平滑处理,去除噪声,然后寻找转折点来对时间序列分段线性化。平滑处理技术很多,本文采用采用最简单的有限脉冲响应法(FIR),具体算法如下:
给定时间序列,则平滑过程为式(1):
其中是原始数据,是清洗后的数据,是含N维系数的向量,N根据具体数据来定,是设计FIR的重点,由脉宽和精度来确定,可用Matlab信号处理工具箱中有关函数得到。
1.趋势特征抽取算法
时间模式挖掘是在空间中寻找能表征和预测事件的区域,如果预测点之前的时间模式包含在这些区域当中,则预测该事件点的发生提供了一种决策方法。时间序列数据的特征提取是模式发现的前提条件。分段线性法是目前应用最为广泛的时间序列特征提取方法之一,该方法具有较高的滤除噪声和数据抽象能力,可以根据需要获得时间序列数据不同精度的抽象表示。由于以近似误差为目标函数将会使某些显著的趋势在拟合的过程中失去其原有的特征,因此本文提出相应趋势特征抽取算法(TFPA)。该算法从时间序列数据中提取显著特征,能更好地保留原始时间序列中的数据变化趋势。TFPA算法也是用直线段近似表示时间序列,每一直线段通常代表一种趋势特征。如果一个趋势特征是显著的,那么说明该趋势斜率很大,时间序列数据值发生了显著的变化,呈现出明显的趋势特征;或者该趋势持续时间长,具有一定的代表意义。本文为时序数据中的显著趋势特征作如下定义:
定义1 设li为时间序列数据分段线性表示的第i段直线段的斜率, △ti 为该趋势线段持续的时间,如果|li|大于给定的阈值或者△ti大于给定的闽值,则认为该段特征是显著的。
算法1(TFPA):
Input: T(1:n);;:斜率差异阈值
Output: T(1:n)的趋势特征序列Seg_TS
Seg_TS=;
for(i=1;i
对于所有特征序列,如果在目标事件
文档评论(0)