基于NLP的航空评论分析创新应.pdfVIP

  1. 1、本文档共12页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

基于NLP的航空评论分析创新应用

张磊劳颀卉刘

博钟韬

杭州派迩信息技术有限公

司杭州310000

摘要:将自然语言处理技术

创新应用到航空评论分析中,构建各类

分析航空评论的模型,自动对评论进行

业务分类和主题词提取,快速精准

定位旅客投诉信息,大幅提高航空公司

对旅客评论的处理效率,并通过旅客

评论进行的满意度分析,为服务质量提

升提供有力的数据支撑。关键词:

自然语言处理,航空评论,服务质

量中图分类号:文献标识

码:A文章

编号:

引言

航空领域的旅客评论对服务质量提升具有重要意义,旅客评论是旅客在体验

服务的时结合实际出行情况给出的直观感受,它可以加深航司与旅客之间的联系。

通过对旅客评论的分析,我们发现提取高质量旅客评论有助于航司预测投诉信息、

发现服务缺陷,从而提高旅客的满意度,增强用户粘性,增加行业优势。

1问题描述

航空评论数据具有无规则性和多信息的特点,在文本输入之前,需要减少无

用信息,以便更容易的分析数据。通过LDA主题模型可以有效地提取信息,面对

无用信息时,模型只采用LDA主题模型提取主题词的部分,通过主题词获取部分

高质量的旅客评论,这些旅客评论可以成为航司提升服务质量工作中的重要参考。

文本预处理

针对航空服务评论信息量较大和不规则句式等问题,同时为了提高提取主题

词的精度,以获取更准确的高价值信息为目的,我们进行文本预处理,降低文本

的复杂度,如图1所示。

图1NLP流程图

Figure.1NLPflowchart

首先需要去除停用词、标点符号和行业特定词等,这一步主要是移除文本中

[1]

的噪声因子,减少干扰,再通过词性分析文本,研究词与词之间的关系,通过

使用文本预料库中的既定规则来识别单词在言语中的作用,即动词,名词,形容

词等,对词性进行约束,以此来去除部分影响模型准确度预测的原始评论。将处

理好的数据转换为数值型数据,将每个单词映射到单独的向量,在映射的过程中,

会考虑每个单词及其周围的单词。由此产生的密集向量可以更好地分析单词和上

下文。然后利用机器学习,用概率方法对输入文本向量进行分类,形成多个复杂

旅客评论分句的依存句法关系有向图。应用基于依存句法关系的主题判断规则,

从旅客评论中抽取主题词,然后根据抽取出来精度较高的关键信息主题词对原始

的旅客评论进行匹配,从而得到相应的分数结果。

抽取主题词

为了提取航空评论中的高质量文本,我们对预处理后的航空评论进行抽取主

题词,主题词抽取方法有主题模型[2][3]、改进主题模型[4][5],在应用主题判断规则

判断主题时,需要区分不同主题的相关节点,可以判断出航空评论文本中的主题

和主题词,再通过对句式执行去停用词等操作识别航空服务评论的高质量信息。

我们采用半监督的方式,把词性和文本长度作为限制条件,对识别出高质量信息

的主题词对进行重新组合,保存到初始的主题词库中,主题词库经过不断的扩展

后,词库中包含了丰富的主题词对,充分利用有限的高质量信息主题词库进行扩

展,查询对比不同月份主题词的变化,动态监控相同主题词涉及相关服务问题在

不同月份的改善情况。

FuzzyWuzzy是一个简单易用的模糊字符串匹配工具包,它依据Levenshtein

Distance算法计算两个序列之间的差异。LevenshteinDistance算法又叫Edit

Distance算法,

文档评论(0)

178****5311 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档