- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于网络搜索数据的平遥旅游客流量预测分析.doc
基于网络搜索数据的平遥旅游客流量预测分析
【摘要】本文基于百度指数进行旅游关键词的挖掘,运用决策树、bagging、随机森林和支持向量机四种算法模型对旅游关键词与平遥古城游客流量关系进行分析,并比较了各模型的拟合度、稳定性及预测效果。实证研究发现,随机森林模型稳定性最好,SVM模型拟合和预测效果最好,因此SVM模型可以作为最终的平遥古城客流量预测模型。
【关键词】平遥古城 百度指数 机器学习 预测
一、引言
近年来,我国旅游产业规模不断扩大,平遥古城作为中国境内保存最完整的古代县城与票号文化发源地,游客量快速增长,逐年增加的游客对古城承载力及景区建设提出了更高要求。与此同时,随着互联网技术的发展以及大数据时代的到来,旅游信息传播形式、游客信息搜索方式、旅游消费行为等均发生了巨大改变。许多旅游经营者、旅游企业及政府机构都通过互联网平台发布旅游信息,随之互联网平台也成为广大游客出游的重要信息来源,相应产生的网络搜索数据则逐渐成为高质量的游客旅游搜索行为数据库。2011年百度推出的百度指数可以直接、客观地反映某特定时间段内的社会热点、用户兴趣和需求,并且实证表明利用百度指数这一网络搜索指数进行预测克服了传统预测中存在的数据滞后以及数据量不足的缺陷,结果更为准确、更具时效性。因此,本文依托百度指数的时效性,挖掘旅游网络关注度和实际旅游需求的关系,预测景区客流量,对指导旅游管理部门做出科学、合理的决策安排,促进旅游可持续发展具有重要意义。
二、指标选取与数据
(一)指标选取
根据指标选取理论的分析可知,用户搜索行为反映了用户近期行为,但由于搜索用户的异质性,不同用户对某一事物的关注度有所不同,从而使得搜索关键词也具有多样性,且关键词应包含与目标事物相关的各个方面。因此,本文在已有文献基础上,根据相关旅游经验及人们外出旅行时的主要考虑因素,即衣、食、住、行、游5个方面,通过百度指数“趋势研究”和“需求图谱”两个模块来进行关键词的提取,这5个方面涵盖了平遥天气、平遥牛肉、平遥古城住宿、平遥古城门票、平遥古城旅游攻略等多方面信息。本文将这5个方面的相关词作为初始关键词,运用百度关键词挖掘进行关键词搜索,从而得到最终的关键词指标。
(二)数据说明
本文的关键词数据是利用网络爬虫技术从百度指数网页源代码中提取得到的。在利用初始词进行关键词搜索过程中,剔除没有数据对应和数据量很少的关键词,最终得到57个关键词从2011年12月到2014年12月共162周的数据。平遥古城旅游客流量数据来自山西省旅游局,选取的时间区间为2011年12月至2014年12月,共37个数据。由于我们得到的关键词数据为周度数据,而本文研究的是月度数据,所以要对关键词数据进行处理,将周度数据转化为月度数据,即按照日历中各月周数进行加总,将每月最后几天数据按所在周的天数作为权重,将该周的数据按权重分配到相邻月中,最终得到37个月的搜索指数数据。
三、实证分析
首先对模型拟合和预测有两点说明:一是拟合样本区间为2011年12月到2014年10月,共35个数据,用于预测检验的样本区间为2014年的11月到12月2个月的数据。二是在模型拟合效果的比较上,本文引入MSE和NMSE两个指标,分别代表模型的稳定性和拟合度。
(一)搜索关键词确定
首先,利用简单手动筛选,观察所有关键词数据,将趋势变化不明显或几乎无变化趋势的剔除;然后,利用Pearson相关系数筛选,分别计算各关键词与因变量的Pearson相关系数,将相关系数小于0.6的剔除;最后,利用线性回归筛选,并诊断回归的多重共线性和自相关,利用逐步回归及AIC准则选出最终的4个关键词:平遥古城旅游攻略、平遥古城地图、山西旅游景点大全、平遥住宿。
(二)模型估计
在筛选关键词过程中,我们构建了一个线性回归方程,回归估计如下:
从回归结果看,总体拟合效果较好,变量系数均通过显著性检验,因此该线性模型似乎具有较好预测效果。但为进一步考察模型假设是否成立,我们进行残差的Shapiro-Wilk正态性检验,并且刻画了因变量直方图及对应的线性分布图,检验结果均表明因变量不服从正态分布,因此本文利用线性回归进行模型模拟时并不能满足其对因变量分布的假定,从而会产生较大误差,影响拟合和预测效果。
故本文采用了对数据分布没有任何假定且结果可用交叉验证方法来评判的四种机器学习方法进行模型拟合及预测,并比较了决策树、bgging、随机森林、支持向量机这四种算法模型的拟合度、稳定性与预测效果。
(三)模型结果分析
使用以上四种算法估计模型,计算出各模型的MSE和NMSE,结果见表1。
从模型的拟合度和稳定性来看,回归树和Bagging都存在明
您可能关注的文档
最近下载
- 《现代家政基础》 项目六 现代家庭安全.pptx
- 高考思想政治一轮总复习精品课件 选必3 逻辑与思维 第三单元 运用辩证思维方法-第九课 理解质量互变.ppt VIP
- 临床营养科建设与管理指南(试行).doc VIP
- 2025年中考复习必背外研版初中英语单词词汇(精校打印) .pdf VIP
- 年产55万吨环氧乙烷乙二醇车间环氧乙烷合成工段工艺设计.doc VIP
- 食堂食材配送采购投标方案(技术标).doc
- 临床常用200种常用中药饮片排名.docx VIP
- 德力西850W交流角磨机说明书.pdf VIP
- 2025年四川省内江市中考数学试卷.docx VIP
- 【完整升级版】电力施工组织设计施工方案.doc
文档评论(0)