- 1、本文档共6页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于SVM的烟草销售量预测.doc
基于SVM的烟草销售量预测
摘 要:烟草销售量预测能为烟草生产、运输、配送提供指导,使烟草行业能更好地适应市场需求。烟草销售量受众多因素的影响,具有季节性和周期性规律,传统的线性模型难以进行准确的预测。基于支持向量机建立烟草销售量的多维时间序列模型,实验结果表明,该模型具有较高的预测精度,能够准确地反映烟草销售量的变化趋势。对比实验也表明,所提出的方法比其它几种方法预测精度高,可以为烟草行业的销售管理提供科学依据,具有实用价值。
关键词:烟草销售量预测;支持向量机;多维时间序列
DOIDOI:10.11907/rjdk.162026
中图分类号:TP319
文献标识码:A 文章编号文章编号2016)011013403
0 引言
中国是世界上最大的烟草生产国和消费国[1]。烟草销售是烟草行业管理中最为关键的部分,准确的烟草销售预测能为烟草生产、运输、配送提供指导,而要进行准确的烟草销售预测必须找到合适的预测方法。因此,如何设计高精度的烟草销售预测方法是烟草行业管理的重要课题。
传统烟草销售量预测方法的研究主要集中在对烟草零售经营者订单的管理分析中,而且采用销售人员意见汇总法、德尔菲法(经理及员工的意见)等为主的人工预测方法[2]。这种人工预测方法业务流程较多,浪费大量的人力、物力,并且还可能引起烟草资源分配的不公平,难以满足市场需求。从机器学习的角度上看,烟草销售量的预测属于回归问题[3],而回归包括线性回归和非线性回归。文献[4]在对烟草销售量数据进行分析的基础上,提出了一种线性预测模型,但由于烟草销售量受季节、人口、市场、节假日等一系列因素的共同影响,并不适合采用线性回归方法进行预测。在非线性回归方法中,较为常用的有神经网络和支持向量机(SVM)。文献[5]基于BP神经网络对烟草销售量进行建模并预测,而神经网络是基于经验风险最小化,不仅泛化能力较差,而且存在局部极小点问题[6],因此神经网络虽然对原始数据的拟合能力较强,但对未来数据的推广能力较差,而对未来数据的推广能力往往更能反映学习机器的实用价值。支持向量机基于结构风险最小化,泛化能力强且预测精度高。因此,本文采用支持向量机方法对烟草销售量进行建模预测。
1 支持向量回归机
2 预测方法
2.1 数据预处理
本文收集到了云烟品牌一个品类2006年1月~2011年10月共6年的销售数据,销售数据信息中包括销售量、销售日期(年月日)、仓库编号、发票信息、审核人信息等,其中对销售量预测影响最大的是销售日期及对应的销售量。由于中国的香烟销售对阴历呈现出更强的规律性,因此将销售统计数据转换为以阴历月为标准。
2.2 数据归一化处理
由表1可以看出,各列数据属性不同,数值范围相差较大。为避免数值范围较大的属性控制数值范围较小的属性,使数据具有统一性和可比性,将属性值都归一化[10]为[0,1]之间。归一化所用公式为:
2.3 模型定阶
由于烟草销售量预测属于经济预测,因此它不仅与当前日期有关,更与之前的销售信息有关。为确定当前销售量与前多少个月的销售信息关系最大,需要通过拓阶[11]的方法来确定。
设烟草销售量数据的一个样本为{yi,yeari,monthi},yi为第i个样本中的烟草销售量,yeari为当前年份,monthi为当前月份。其中,yeari和monthi为样本的自变量,yi为样本的因变量。通过拓阶能够更为准确地得到自变量和因变量的函数依赖关系。当阶数为n时,表示将前n个样本中的信息添加到当前样本中的自变量中。即用前n个月的销售信息和当前年月来预测当前销售量。此时,自变量总数为(3×n+2),其中n为阶数。通过SVM由低阶到高阶逐步进行拓阶,模型每拓一阶,自变量相应地增加 3个。对于每一次的拓阶,以MSE最小为标准决定是否接受拓阶。设SVM(n)为拓阶n次后的模型,SVM(n+1)为拓阶n+1次后的模型,比较两者的MSE大小,如果SVM(n+1)的MSE小于SVM(n)的MSE,表示接受本次拓阶,并进行下一步拓阶;如果SVM(n+1)的MSE大于SVM(n)的MSE,表示不接受本次拓阶,并停止拓阶,最终得到最优阶数n。通过对烟草数据的拓阶,得到拓阶结果如图2所示。
2.4 回归模型的参数选择
当训练模型确定后,通过支持向量回归机进行预测。由于径向基核函数的准确率较高,并且大多数SVM默认的核函数也是径向基核函数[12],本文亦采用径向基核函数。
3 实验结果与分析
以云烟数据集为例,选择2006年1月-2010年12月的销售量数据为训练样本,以2011年1-10月的销售量数据为测试样本。在本文算法实现过程中,实验环境配置
文档评论(0)