自然语言及语音处理项目式教程 实训指导 实训12 游客目的地聚类分析.docx

自然语言及语音处理项目式教程 实训指导 实训12 游客目的地聚类分析.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

《自然语言处理技术》

PAGE2

《自然语言处理技术》

目录

TOC\o1-4\h\z\u项目3 深入文本进阶处理 1

——游客目的地聚类分析 1

1 实训目标 1

2 实训环境 1

3 实训说明 1

4 实训步骤 3

4.1 数据读取 3

4.2 数据预处理 4

1. 基于规则的垃圾评论排除 4

2. 基于机器学习无监督学习排除无效评论 7

3. 数据拆分 10

4.3 目的地评分分析 11

1. 计算情感得分 12

2. 绘制情感分布直方图 13

4.4 目的地特色分析 15

1. 筛选各层次景区和酒店 15

2. 景区和酒店特征聚类 16

3. 聚类结果分析 26

5 实训小结 28

深入文本进阶处理

——游客目的地聚类分析

实训目标

熟练使用SnowNLP类对评论情感进行计算。

掌握TF-IDF算法排除无效评论的原理与实现方法。

熟悉使用K-Means聚类算法对数据进行聚类的过程。

能够使用sklearn库的silhouette_score函数计算轮廓系数。

实训环境

环境

版本

说明

Windows10

64

电脑操作系统

Python

3.8.5

Python语言版本

pandas

1.3.0

主要用于数据读取、清洗等操作

NumPy

1.21.6

主要用于Python中的数值计算

jieba

0.42.1

主要用于文本分词

Gensim

4.2.0

主要用于检索文本、计算文本相似度、训练词向量、建模主题等

Matplotlib

3.3.0

主要用于数据可视化

PaddlePaddle

2.4.2

是一个深度学习框架,提供了高效的计算框架和优化算法

PaddleSpeech

1.2.0

主要用于语音和音频中的各种关键任务的开发

scikit-learn

1.0.2

广泛地用于统计分析和机器学习建模等数据科学领域

Librosa

0.8.1

主要用于分析一般的音频信号,是一个非常强大的Python语音信号处理的第三方库

NLTK

3.5

是一个常用的自然语言处理工具包,可用于文本处理、语义分析、词性标注等

SciPy

1.7.3

是一个科学计算工具包,可用于数学、科学、工程学等领域

pyttsx3

2.9.0

主要用于将文本转换成语音

实训说明

随着经济和人民生活水平的提高,旅游已成为人们生活中不可或缺的部分。在新时代中国特色社会主义的指导下,相关部门应该充分认识到旅游业的重要性,并积极引导旅游企业遵循社会主义核心价值观,注重文明、和谐等价值观的践行。但我国大部分旅游景点基础设施薄弱、配套设施不完善,游玩产品缺乏创新,各个景点严重同质化,缺乏差异化竞争。因此,提高旅游企业的经营收益,提升景区的资源配置,已成为各大旅游企业所需解决的难题。同时,游客在选择旅游目的地时,也需要了解该目的地的评价情况。旅游企业和相关部门可以基于大量的评论反馈,对景点、酒店等进行更有针对性、实效性的质量管理,进而增加客流量,提高经营效益。游客满意度与评价紧密相关,掌握影响游客满意度的因素,有助于提升景区/酒店的美誉度,保证客源稳定,开发旅游产品,优化资源配置,以及开展市场开拓。在全面建设社会主义现代化国家的目标下,旅游企业和相关部门可以。通过资源配置的优化,开发创新的旅游产品,实现旅游业的可持续发展,为人民群众提供更加丰富、多样化的旅游体验。

本任务使用的数据集为某旅游平台近几年的景区及酒店评论数据和评分数据,该数据共有4张数据表,包括“景区评论”“酒店评论”“景区评分”和“酒店评分”,数据说明如REF_Ref131516002\h表31所示。

表STYLEREF1\s3SEQ表\*ARABIC\s11景区/酒店评论和评分数据说明

数据表名

属性名称

示例

景区评论

景区名称

A01

评论日期

2020-06-16

评论内容

是亲子游的绝佳场所

酒店评论

酒店名称

H01

评论日期

2020-01-01

评论内容

酒店很适合家庭出行

入住房型

标准客房

景区评分

景区名称

A01

总得分

4.4

服务得分

3.8

位置得分

4.9

设施得分

4.9

卫生得分

4.5

性价比得分

4.5

酒店评分

序号

1

酒店名称

H01

总得分

4.8

服务得分

4.8

位置得分

4.8

设施得分

4.7

卫生得分

4.8

性价比得分

4.0

游客目的地聚类分析的基本流程如REF_Ref131516813\h图31所示。

图STYLEREF1\s3SEQ图\*ARABIC\s11游客目的地印象分析总体流程

实训步骤

数据读取

读取“景区评论

您可能关注的文档

文档评论(0)

lai + 关注
实名认证
内容提供者

精品资料

版权声明书
用户编号:7040145050000060

1亿VIP精品文档

相关文档