第6章 游客目的地印象分析.pptxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

游客目的地印象分析;;根据不断发展的经济和不断提升的人民生活物质水平,旅游已经逐渐成为人们生活中一个重要的部分。

但是,我国大部分旅游景点的游玩基础设施薄弱、景区配套设施不够完善,大部分游玩产品还是以传统面貌展示,存在缺乏创新、品种单一等问题。

与此同时,各个旅游景点严重同质化,缺少自身特点,在旅游市场中,各企业、相关部门缺乏差异竞争,公司经营效果不佳。

至此,如何提高旅游企业的经营收益,提升自家景区的资源配置等,已成为了各大旅游企业所需要解决的主要难题。;除此之外,人们在对旅游地点进行选择时,除了查看该目的地拥有的景区、酒店等场所是否满足自己的旅游需求之外,还会查看以往游客对该目的地的评价情况。

旅游目的地的评价信息,一方面可以帮助游客准确了解其交通、景区、酒店等场所的基本信息与服务信息,根据相应的评论内容,做出合理的旅行消费选择;另一方面,可以帮助旅游企业或相关部门基于大量的评论反馈对景点、酒店等进行更有针对性、实效性的质量管理,进而增加客流量,提高经营效益。;对目的地的评价涉及如何吸引客源、取得竞争优势、提升游客到访消费等重要事项。

游客满意度与评价紧密相关,游客满意度越高,对目的地的评价就越高。

因此,旅游企业掌握目的地游客满意度的影响因素,有针对性地提升游客满意度,提升景区/酒店的美誉度,不仅能够保证客源稳定,而且能够对企业开发旅游产品、优化资源配置,以及开展市场开拓起到长远而积极的作用。;某企业收集了自家旅游平台近几年的景区及酒店评论数据和评分数据,该数据共有2张数据表,包括“景区评论”“景区评分”。

“景区评论”和“景区评分”数据说明如下左表和右表。;绘制评论数据的词云图,分析目的地的直观印象。

通过聚类分析各个目的地的特色。;数据读取:分别读取“景区评论”“景区评分”表的数据。

数据预处理与印象分析:对“景区评论”表进行数据预处理,包括垃圾评论的处理、中文分词、去停用词、无效评论的处理等。

目的地印象分析:根据处理后的数据,绘制目的地印象词云图。

目??地特色分析:使用K-Means聚类算法挖掘低、中和高层次景区及酒店的特色。

建议:根据目的地特色分析结果,提出提升景区美誉度的建议。;;平台上的评论信息经常会出现内容不相关、信息重复复制、无有效内容等,即垃圾评论。所谓的垃圾评论主要包含相似评论、无效评论(长度很短、毫无理由的夸赞或诋毁)和无关评论(意义不明、全是符号、同一个单词或词语等)。

数据预处理的目标是找出并清理掉不能提供有效信息的垃圾评论,保留真正的、有价值的评论信息。

本小节主要使用基于规则的垃圾评论排除方法和基于机器学习的无监督学习排除方法进行数据预处理。;垃圾评论排除

针对本章的垃圾评论信息,主要总结得出两种,分别为重复评论和内容性垃圾评论。

在数据分析时,垃圾评论数据可能会导致垃圾结果,即基于这些数据分析得出的结果和决定是不可靠的,为此需要进行去除处理。;重复评论去除

针对评论数据中的重复数据,直接调用drop_duplicates()方法进行去除,同时保留重复数据中的第一条。

注意:在本案例中,由于酒店印象分析与景区印象分析属于平行状态,即两者的数据预处理、目的地印象分析、目的地评分分析的处理方式是相似的,所以9.2~9.4节仅展示有关景区数据处理与分析的代码。

运行重复评论去除代码后,共删除了305条重复景区评论和248条重复酒店评论。;内容性垃圾评论去除

针对内容性垃圾评论数据,本案例主要采用以下3个步骤进行排除。

经观察,在景区评论字符长度低于8的评论和酒店评论字符长度低于5的评论中,出现了较多的无效评论,且分析这些评论的作用性不大,可将其直接剔除。

同时,在评论中存在凑字数、混经验和刷广告的情况,为此,本小节根据“小程序”“凑字”“字数”和“个字”这4个关键词进行无效评论的剔除。

;在评论字符长度为8个字及以上的情况下,同一个句子中某个字出现的频率达了30%,或某两个词(或3个词)加起来出现的频率高于75%,此类数据均由刷字数的行为导致的。为此,针对这些情况下的评论数据,可将其进行剔除处理。

经过内容性垃圾去除后,景区评论数据维度为(58165,3),酒店评论数据维度为(24781,4)。;排除无效评论

通常情况下,如果一条评论中的所有词语重要性都不强,那么这条评语的重要性也不强,极可能是无效评论。基于此假设,本案例选用TF-IDF算法进行基于机器学习无监督学习方法排除无效评论。

注意:在剔除无效评论前,首先需要对评论句子进行分词、去停用词处理,随后才能根据去停用词后的数据计算每个句子的TF_IDF值。;分词与去停用词

在文本分析中,通常会对中文进行分词,对于分完词的数据,还不能进行数据分析,因为此时的数据中还存在一些常见的停用词。停用词是指那些功能极其普遍,与其他词相比没有什

文档评论(0)

长情又很酷 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档