基于时间序列聚类和ARMA模型的检索量预测.doc

基于时间序列聚类和ARMA模型的检索量预测.doc

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于时间序列聚类和ARMA模型的检索量预测

模型的检索量预测*基于时间序列聚类和ARMA孙承杰刘丰林磊刘秉权( 哈尔滨工业大学 模型的检索量预测* 基于时间序列聚类和 ARMA 孙承杰 刘丰 林磊 刘秉权 ( 哈尔滨工业大学 计算机科学与技术学院,黑龙江 哈尔滨 150001) 摘 要: 为了通过预测分析检索量数据来指导商家调整产品开发及经营策略,将检索量 数据组织为时间序列,对其用自回归滑动平均( ARMA) 模型进行建模预测. 先将时间序列 进行聚类,仅对聚类中心序列进行 ARMA 模型识别,同类序列用该模型进行近似建模预 测; 经过数据预处理、相似性分析、基于相似度的聚类、时间序列预测等过程,得到检索量 数据的预测值,并将其与检索量的实际值做比较. 结果表明,用同一个 ARMA 模型拟合相 似时间序列的方法具有可行性,且有较高的预测准确率. 从聚类结果还可看出,同品牌产 品的检索量数据趋于聚成一类,这为检索词关系的挖掘提供了参考. 关键词: 时间序列; 检索量; ARMA 模型; 动态时间弯曲距离; k-medoid 算法 中图分类号: TP 391 doi: 10. 3969 / j. issn. 1000-565X. 2011. 04. 004 测方法[3]需要估计大量的参数,神经网络的结构过 于复杂且难以选择,所以这些方法都不能很好地应 用于文中的数据. ARMA 模型是一种传统模型,对数 据的平稳性要求较高,检索量序列大多不满足平稳 性,在其上建立 ARMA 模型的过程较为复杂. 鉴于 某些检索量序列具有形态相似性,文中假定形态相 似的时间序列可以用相同的 ARMA 模型建模预测. 首先对检索量序列按曲线相似性聚类,而后仅对聚 类中心进行模型识别,将得到的模型应用于该类中 所有检索量序列的预测. 在互联网高速发展的今天,对网络用户行为的 研究具有很高的商业价值. 搜索引擎是网站建设中 针对用户使用网站的便利性所提供的必要功能,同 时也是研究网站用户行为的一个有效工具. 通过对 搜索引擎中检索词词频的统计分析,可以发现、共享 和挖掘互联网上最有价值的信息和资讯,直接且客 观地反映社会热点、网民的兴趣和需求. 因此,文中 对检索量数据进行数据预测及规律分析,以发掘产 业信息,指导商家决策. 检索量数据是用户输入“检索框”的检索词数 量的统计值,同一检索词的检索量数据按时间顺序 排列形成一个时间序列,检索量的预测抽象为时间 序列的预测问题. 时间序列的预测[1]方法有传统的 基于数理统计的自回归滑动平均( ARMA) 模型及采 用嵌入空间法和神经网络法等的非线性预测技术. 非线性预测方法具有较强的适应性,但应用过程复 杂. 嵌入空间法[2] 中向空间重构的质量非常关键, 将直接影响模型的建立和预测; 基于神经网络的预 1 检索量预测研究方案及算法 本研究的目的是预测检索量数据的未来数值, 预测过程采用 ARMA 统计模型. 为减少建模次数, 提出了用一种模型近似拟合一类时间序列的方法. 对时间序列进行预测前,先将序列聚类,每类时间序 列进行一次 ARMA 模型识别,而后用该模型近似拟 合这类中的其他序列. 研究过程如图 1 所示. 收稿日期: 2011-01-10 * 基金项目: 国家自然科学基金资助项目(61073127) ; 哈尔滨工业大学中央高校基本科研业务费专项资金资助 1. 3动态时间弯曲算法及其改进时间序列的相似性是通过距离度量来确定的,最常用的是欧式距离. 但欧式距离仅适用于两个等长序列的比较,且对时间轴变形很敏感. 动态时间弯图 1 互联网检索量数据预测流程图Fig. 1 Flow chart of prediction of searc 1. 3 动态时间弯曲算法及其改进 时间序列的相似性是通过距离度量来确定的, 最常用的是欧式距离. 但欧式距离仅适用于两个等 长序列的比较,且对时间轴变形很敏感. 动态时间弯 图 1 互联网检索量数据预测流程图 Fig. 1 Flow chart of prediction of search data volume in Internet [8] 曲 ( DTW) 技术 于 1994 年被引入数据挖掘领域, 用于计算两个序列经时间轴变形后的最小距离. 设 ARMA 模型 ARMA[4]模型由 Box 和 Jenkins 创立,其基本思 想是: 某些时间序列是依赖于时间 t 的一组随机变 量,构成该时序的单个序列值虽然具有不确定性,但 整个序列的变化却有一定的规律性,可以用相应的 数学模型近似描 述. 其 3 种 基 本 类 型 是: 自 回 归 ( AR) 模型、滑动平均( MA) 模型以及自回归滑动平 均( ARMA) 模型,前两者是后者的特殊情

文档评论(0)

133****9031 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档