基于小波搜索量聚类及在变量选择中应用.docVIP

下载本文档

4
0
约1.04万字
约 21页
2018-08-29 发布于福建
举报
版权申诉

基于小波搜索量聚类及在变量选择中应用.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于小波搜索量聚类及在变量选择中应用

基于小波搜索量聚类及在变量选择中应用　　摘要针对使用网络购物搜索量数据建立预测模型时的变量选择问题，提出一种基于连续小波变换（CWT及其逆变换的聚类方法。算法充分考虑了搜索量的数据特征，将原始序列分解成为不同时间尺度下的周期成分，并重构为输入向量。在此基础上通过加权模糊C均值（FCM方法进行聚类。变量选择是根据聚类后每个分类中的关键词隶属度函数值确定的，选择效果通过我国居民消费价格指数（CPI的预测模型进行验证。结果表明，搜索量序列具有不同长度的周期成分，聚类后同组关键词具有明显的商品类型一致性。与其他变量选择方法相比，基于小波重构序列聚类的预测模型具有更高的预测精度，单步和三步预测相对误差仅为0.3891%和0.5437%，预测变量也具有清晰的经济含义，因此特别适用于解决大数据背景下高维预测模型的变量选择问题。　　关键词网络购物搜索量；预测模型；变量选择；连续小波变换；模糊聚类　　中图分类号 TP391.4 　　文献标志码 A 　　0引言　　近年来，大数据问题成为学界的研究热点[1-3]。在大数据时代，除数据量极大外，出现了许多新类型数据源，网络购物搜索量就是其中的典型代表。如今，网络购物逐渐成为人们消费的重要方式。虽然实际购买可能在线下进行，但人们也在作出购买决策之前利用淘宝、亚马逊、京东等电商网站搜索相关商品的价格和用户评论，这就产生了关于某关键词的搜索量。有许多研究利用搜索量对公众行为、市场走势和一些宏观经济变量进行预测，并得到了较理想的结果[4-8]。将搜索量数据作为预测变量建立模型通常面临两方面问题：第一，由于商品种类繁多，相应的关键词数量也是庞大的，属于典型的高维数据模型；第二，作为预测对象的经济变量通常是低频的（月度、季度，样本观测点较少，限制了模型中可加入的预测变量数量。因此，在建模时需要对作为预测变量的搜索量进行选择[9]，而时间序列聚类提供了该问题的一种解决方法[10-12]，并且更适合于搜索量数据。一方面，搜索量数据存在大量冗余信息，例如“衬衣女”、“女士衬衣”、“女士衬衫”表示的是同一类型商品，只是由于搜索习惯不同，形成了不同关键词；另一方面，绝大多数互联网用户具有相似的经济生活模式（工作日、节假日、季节，使搜索量数据具有明显的、不同频率的共同周期性。这两点使搜索量之间是高度相关的，预测模型存在严重的共线性。此时，一些传统的基于最小二乘的方法，例如逐步回归、lasso回归[13]、弹性网回归[14]等，选出的变量组合具有很强的随意性，模型的预测精度也较差（过度拟合。　　聚类则可以根据某种相似性度量对序列进行分组，并从每组选出具有代表性的变量加入模型，变量选择结果是稳定的。典型的相似性度量包括基于形态的、基于特征的（傅里叶系数、小波系数和基于模型的（自回归模型、广义自回归条件异方差模型[15]。考虑到搜索数据具有不同频率的周期性，并且存在大量噪声，因此本文通过连续小波变换将原搜索量序列分解成为不同时间尺度对应的周期成分，并测度它们之间的相似性，在此基础上对原序列实现聚类。在频域分析领域，小波分析能提供一种高度灵活的，并且同时描述序列时域频域特征的方式，而傅里叶系数虽然能揭示序列的周期性，却不能描述周期性随时间变化的规律。聚类通过模糊C均值（Fuzzy Cmeans， FCM聚类算法实现，使用该算法的原因是可以根据每个分类中搜索数据的隶属度函数值大小进行变量选择。　　综上所述，本文将在连续小波变换的基础上对网络购物搜索量数据进行聚类，并将聚类结果用于解决针对宏观经济变量建模中的变量选择问题。同时，本文给出的聚类方法还考虑了不同时间尺度在相似性测度时的贡献差异。实验表明，基于小波分解重构聚类选出的变量组合在预测误差方面不仅优于基于原始序列的聚类也优于弹性网估计等普遍使用的变量选择方法。　　1模型与方法　　1.1连续小波变换　　小波是一个具有零均值和有限能量的波形。对于序列{xi}（i=1，2，…，N，基于小波ψ（t的连续小波变换（Continuous Wavelet Transform， CWT如式（1：　　Wn（s=∑Nn′=1（δt/s1/2xn′ψ*[（n′-nδt/s]（1 　　其中：ψ（t是母小波函数，δt是采样间隔，ψ*是ψ（t的共轭复变换，s和n分别表示尺度和时间参数。尺度参数s用来控制母小波的扩张（s1或者压缩（s1；时间参数n用来控制母小波的平移，也即信号分析只在n的邻域内进行。　　对于含有周期性成分的序列，常用的母小波是复值Morlet小波，其定义为：　　ψ（η=π-1/4eiω0ηe-η2/2（2 　　其中　　ω0=2πf0是小波阶数， f0是中心频率。ω0用于控制小波变换的时频分辨率，一般情况下令ω0=6。　　小