- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
《自然语言处理技术》
PAGE2
《自然语言处理技术》
目录
TOC\o1-4\h\z\u项目3 深入文本进阶处理 1
——游客目的地聚类分析 1
1 实训目标 1
2 实训环境 1
3 实训说明 1
4 实训步骤 3
4.1 数据读取 3
4.2 数据预处理 4
1. 基于规则的垃圾评论排除 4
2. 基于机器学习无监督学习排除无效评论 7
3. 数据拆分 10
4.3 目的地评分分析 11
1. 计算情感得分 12
2. 绘制情感分布直方图 13
4.4 目的地特色分析 15
1. 筛选各层次景区和酒店 15
2. 景区和酒店特征聚类 16
3. 聚类结果分析 26
5 实训小结 28
深入文本进阶处理
——游客目的地聚类分析
实训目标
熟练使用SnowNLP类对评论情感进行计算。
掌握TF-IDF算法排除无效评论的原理与实现方法。
熟悉使用K-Means聚类算法对数据进行聚类的过程。
能够使用sklearn库的silhouette_score函数计算轮廓系数。
实训环境
环境
版本
说明
Windows10
64
电脑操作系统
Python
3.8.5
Python语言版本
pandas
1.3.0
主要用于数据读取、清洗等操作
NumPy
1.21.6
主要用于Python中的数值计算
jieba
0.42.1
主要用于文本分词
Gensim
4.2.0
主要用于检索文本、计算文本相似度、训练词向量、建模主题等
Matplotlib
3.3.0
主要用于数据可视化
PaddlePaddle
2.4.2
是一个深度学习框架,提供了高效的计算框架和优化算法
PaddleSpeech
1.2.0
主要用于语音和音频中的各种关键任务的开发
scikit-learn
1.0.2
广泛地用于统计分析和机器学习建模等数据科学领域
Librosa
0.8.1
主要用于分析一般的音频信号,是一个非常强大的Python语音信号处理的第三方库
NLTK
3.5
是一个常用的自然语言处理工具包,可用于文本处理、语义分析、词性标注等
SciPy
1.7.3
是一个科学计算工具包,可用于数学、科学、工程学等领域
pyttsx3
2.9.0
主要用于将文本转换成语音
实训说明
随着经济和人民生活水平的提高,旅游已成为人们生活中不可或缺的部分。在新时代中国特色社会主义的指导下,相关部门应该充分认识到旅游业的重要性,并积极引导旅游企业遵循社会主义核心价值观,注重文明、和谐等价值观的践行。但我国大部分旅游景点基础设施薄弱、配套设施不完善,游玩产品缺乏创新,各个景点严重同质化,缺乏差异化竞争。因此,提高旅游企业的经营收益,提升景区的资源配置,已成为各大旅游企业所需解决的难题。同时,游客在选择旅游目的地时,也需要了解该目的地的评价情况。旅游企业和相关部门可以基于大量的评论反馈,对景点、酒店等进行更有针对性、实效性的质量管理,进而增加客流量,提高经营效益。游客满意度与评价紧密相关,掌握影响游客满意度的因素,有助于提升景区/酒店的美誉度,保证客源稳定,开发旅游产品,优化资源配置,以及开展市场开拓。在全面建设社会主义现代化国家的目标下,旅游企业和相关部门可以。通过资源配置的优化,开发创新的旅游产品,实现旅游业的可持续发展,为人民群众提供更加丰富、多样化的旅游体验。
本任务使用的数据集为某旅游平台近几年的景区及酒店评论数据和评分数据,该数据共有4张数据表,包括“景区评论”“酒店评论”“景区评分”和“酒店评分”,数据说明如REF_Ref131516002\h表31所示。
表STYLEREF1\s3SEQ表\*ARABIC\s11景区/酒店评论和评分数据说明
数据表名
属性名称
示例
景区评论
景区名称
A01
评论日期
2020-06-16
评论内容
是亲子游的绝佳场所
酒店评论
酒店名称
H01
评论日期
2020-01-01
评论内容
酒店很适合家庭出行
入住房型
标准客房
景区评分
景区名称
A01
总得分
4.4
服务得分
3.8
位置得分
4.9
设施得分
4.9
卫生得分
4.5
性价比得分
4.5
酒店评分
序号
1
酒店名称
H01
总得分
4.8
服务得分
4.8
位置得分
4.8
设施得分
4.7
卫生得分
4.8
性价比得分
4.0
游客目的地聚类分析的基本流程如REF_Ref131516813\h图31所示。
图STYLEREF1\s3SEQ图\*ARABIC\s11游客目的地印象分析总体流程
实训步骤
数据读取
读取“景区评论
您可能关注的文档
- 自然语言及语音处理项目式教程 课件1.3.1-1部署Python开发环境.pptx
- 自然语言及语音处理项目式教程 课件1.3.1-2安装NLP常用的库.pptx
- 自然语言及语音处理项目式教程 课件2.2.2 中文分词.pptx
- 自然语言及语音处理项目式教程 课件2.2.2-3中文文本分词实例.pptx
- 自然语言及语音处理项目式教程 课件2.2.3-1词性标注.pptx
- 自然语言及语音处理项目式教程 课件2.2.3-1词性标注和命名实体识别.pptx
- 自然语言及语音处理项目式教程 课件2.2.4-1初识关键词提取.pptx
- 自然语言及语音处理项目式教程 课件2.2.5-1命名实体识别.pptx
- 自然语言及语音处理项目式教程 课件3.2.2-2文本向量化之Word2Vec.pptx
- 自然语言及语音处理项目式教程 课件3.2.2-4文本相似度计算.pptx
- 自然语言及语音处理项目式教程 实训指导 实训13 基于LSTM实现情感分析.docx
- 自然语言及语音处理项目式教程 实训指导 实训14 基于SVM实现新闻文本分类.docx
- 自然语言及语音处理项目式教程 实训指导 实训15 加载并预处理语音数据.docx
- 自然语言及语音处理项目式教程 实训指导 实训16 提取MFCC特征.docx
- 自然语言及语音处理项目式教程 实训指导 实训17 单句语音内容识别.docx
- 自然语言及语音处理项目式教程 实训指导 实训18 语音合成.docx
- 自然语言及语音处理项目式教程 实训指导 实训19 基于PaddleSpeech实现智能安防系统环境音识别.docx
- 自然语言及语音处理项目式教程 课件6.2.1-1语音识别.pptx
- 自然语言及语音处理项目式教程 实训指导 实训20 基于PaddleSpeech实现新闻自动播报.docx
- 自然语言及语音处理项目式教程 课件6.3.2-1复杂环境音识别实战.pptx
最近下载
- 质量、环境、职业健康安全管理体系内审员培训-试卷.doc VIP
- 5G网络切片计费策略-深度研究.pptx
- 《慢性肾脏病相关心肌病综合管理中国专家共识(2024版)》解读.pptx VIP
- 标准课程HSK4第十三课教案.docx VIP
- GB4789-3-2016大肠菌群计数培养基原理解析.docx VIP
- 心理健康症状自评量表SCL(完整版).pdf VIP
- 22S804 矩形钢筋混凝土蓄水池.pdf
- 木工课程教学课件.ppt VIP
- 一文读懂《公平竞争审查条例》PPT课件.pptx VIP
- 2025年山东省网络安全工程专业职称考试(网络生态建设与治理·中级)历年参考题库含答案详解(5卷).docx VIP
文档评论(0)