基于网络文本数据的青海省西宁市旅游目的地形象感知研究.pptx

基于网络文本数据的青海省西宁市旅游目的地形象感知研究.pptx

  1. 1、本文档共14页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

《旅游大数据应用实验》

课程考核作业一

题目:基于网络文本数据的青海省西宁市旅游目的地形象感知研究

姓名学号:

年级与班级:

任课教师:

作业一要求湖南省岳阳市

题目:基于网络文本数据的XX(城市)旅游目的地形象感知研究

结构:作业内容需包含完整的数据采集、清洗、分析和结论四个部分。

数据量:有效文本数据总量不得低于50万字。

格式:以PPT呈现,详见P6页模板

作业提交时间:202X年12月31日,提交电子版作业+纸质版;

作业文档命名:学号+姓名+班级

去哪儿网站网页

一、数据采集

发起请求

获取响应内容

解析数据

马蜂窝网站景点数据

获取景区景点名称及排名等信息

一、数据采集

B站视频评论数据:爬取综合最多弹幕的前10个视频的评论区

一、数据采集

获取视频的评论

抓取的结果字段包括评论时间、评论用户名、评论内容和评论点赞数四个字段

一、数据采集

获取景区景点名称及URL

爬取景点的评论内容

分析

二、数据清洗

共爬取到404个景点数据

二、数据清洗

景点名称:景点的名称。

攻略提到数量:该景点在旅游攻略中被提及的次数。

评论数量:该景点的评论数量。

景区排名:该景点在其所属地区的排名。

lng:经度。

lat:纬度。

缺失值处理:检查数据中是否有缺失值,如果有,根据情况填充或删除。

异常值处理:检测并处理异常值,例如不合理的评论数量或攻略提到数量。

数据格式检查:确保所有数据的格式一致,例如检查经纬度的格式是否正确。

数据规范化:对景点名称进行规范化处理,确保名称的一致性。

景区排名处理:景区排名包含文本和数字,可能需要进行提取和转换。。

缺失值处理:检查结果显示,数据中没有缺失值。

异常值处理:

攻略提到数量和评论数量的描述性统计显示,这些字段的数值在合理的范围内,没有发现异常值。

数据格式检查:经纬度数据的范围在正常值内,没有超出正常范围的数据。

景区排名处理:成功提取了“景区排名”中的数值排名,并存储在新的列“numeric_rank”中。

数据清洗操作

数据清洗结论

获取数据:328W字数

二、数据清洗

缺失值处理:检查数据中是否有缺失值,如果有,根据情况填充或删除。

格式统一:确保所有数据的格式一致,例如日期格式。

异常值处理:检测并处理异常值,如不合理的评分或不符合常规的评论。

文本清洗:对评论内容进行清洗,去除无意义的字符、标点、特殊符号等。

数据转换:根据需要,对数据进行适当的转换,例如将文本数据进行分词处理,以便于后续分析。

数据清洗操作

数据清洗结论

时间分布分析:查看评论的时间分布,了解游客访问的高峰期。

地理分布分析:根据IP属地,分析游客来源的地理分布。

评分分析:分析游客的整体满意度,看看大多数游客给出的评分如何。

文本分析:对评论内容进行文本分析,识别常见的正面或负面评论,提取关键词,了解游客的主要关注点。

缺失值处理:数据中没有发现缺失值。

评分异常值处理:评分列的值为1,2,3,4,5,这是正常的评分范围,没有异常值。

文本清洗:已对评论内容进行了清洗,移除了非中文字符和多余空格。

三、数据分析

各个景点评论的数量

各个景点攻略提到数量

青海藏文化博物院

塔尔寺

西宁野生动物园

三、数据分析

分析8个景点的评论生成词云

日月山

西宁盛典

丹噶尔古城

互助土族故土园景区

中心广场

三、数据分析

以塔尔寺为例对评论内容进行分析

缺失值处理:数据中没有发现缺失值。

评分异常值处理:评分范围在3到5之间,平均评分为4.87,这是合理的,没有发现异常值。

文本清洗:对评论内容进行了清洗,移除了非中文字符和多余空格。

日期格式检查和转换:确保了日期列的格式统一为日期时间格式。

评分分布分析:大多数游客给出了较高的评分(主要是5分),这表明游客对塔尔寺的总体满意度很高。

文本内容分析(关键词提取):

最常见的关键词包括“酥油花”、“壁画”、“塔尔寺艺术三绝”等,这些可能是游客评论中提到的景点特色或值得关注的元素。

这些关键词反映了游客对塔尔寺文化和艺术方面的高度关注和欣赏。

时间序列分析:

评论的分布在时间上比较均匀,没有明显的高峰或低谷期。

这可能表明塔尔寺作为一个旅游景点,全年都吸引着游客。

地理分布分析:

评论来自多个地区,包括江苏、四川、内蒙古、青海、新疆等,显示了塔尔寺吸引了来自中国各地的游客。

这种广泛的地理分布表明塔尔寺的吸引力跨越了地域界限

综上所述,塔尔寺是一个受到游客广泛欢迎和高度评价的旅游景点,以其文化和艺术价值吸引了全国各地的游客。游客的评论通常集中在景点的文化艺术特征上,反映出游客对这些方面有深厚的兴趣和高度的赞赏。

四、数据结论

四、分析结论

景点受欢迎程度:通过比较攻略提到数量和评论数量,可以判断哪些景点更受欢迎或更有名气。

文档评论(0)

规划资料百宝箱 + 关注
实名认证
内容提供者

上传一些规划资料,让大家借鉴成长

1亿VIP精品文档

相关文档