基于文本聚类的用户评论热点挖掘--以笔记本电脑评论为例.pdfVIP

基于文本聚类的用户评论热点挖掘--以笔记本电脑评论为例.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于文本聚类的用户评论热点挖掘--以笔记本电脑评论为例 摘 要 在大数据时代的背景下,文本数据每天呈现爆发式增长趋势,对于构建一套 能够高效地提取文本价值信息的方法体系这一需求突显出来。本文试图将文本挖 掘技术应用于笔记本电脑销售领域,通过对用户关于笔记本电脑评论信息的挖 掘,以便发现用户在选购不同品牌的笔记本电脑时的主要关注热点。本文的研究 主要分为三大部分来进行,第一部分是获取数据与数据预处理,第二部分是基于 核心算法的实证分析,第三部分是对本文研究的总结与展望。 在数据获取与数据预处理部分中,首先探讨与介绍了目前比较常用的网络爬 虫技术,主要包括通用网络爬虫、主题网络爬虫以及增量式网络爬虫等。通过采 用Python 爬虫技术将京东商城中与笔记本电脑相关的评论爬取下来,依次完成文 本数据清洗、文本分词、去停用词、高频词统计、文本空间向量表示等一系列文 本预处理相关工作,这为后续模型实证分析工作做了充足的准备。 在文本数据的实证分析部分中,首先对用户评论进行了描述性统计分析,在 此基础上,通过构建LDA 主题模型对华为与苹果两大笔记本电脑品牌的用户评 论进行了主题提取。LDA 主题提取结果表明,对于华为用户评论,抽取出的五 大主题分别为硬件配置、物流、客服、外观颜值以及笔记本电脑的综合性能。其 中,华为用户关于商城物流与笔记本电脑硬件配置方面的评论数最多,即对这两 大主题的关注度比较高,相关评论占比分别为36.19%、31.82%;对于苹果用户 评论,抽出的五大主题分别为系统、客服、硬件配置、物流以及外观颜值。其中, 涉及到系统这一主题的用户评论数最多,评论占比高达36.88%。 在完成主题提取的基础上,本文通过构建高斯混合模型,分别对华为与苹果 用户关于电脑硬件配置主题下的评论集合进行聚类分析。结果表明,对于华为用 户,在电脑硬件配置方面评论涉及的热点主要包括电脑显示屏、机身外壳、鼠标 键盘、电池等。其中,用户对于华为笔记本显示屏设计方面的关注度是最高的, 相关评论占比达到了43.46%;对于苹果用户,关于电脑硬件配置主题下的评论 主要涉及显示屏、鼠标键盘、电池以及及声卡音质等方面,其中,关于笔记本显 示屏方面的评价最多,该类别下的评论数目占比达到了的39.49%。最后,本文 对研究工作成果进行了总结与展望,并为笔记本电脑生产商、京东商城以及潜在 的消费者提出了一些可参考的建议。 关键词:网络爬虫;用户评论;笔记本电脑;主题模型;聚类分析 1 基于文本聚类的用户评论热点挖掘--以笔记本电脑评论为例 目 录 第一章 绪论1 第一节 研究背景及意义 1 一、研究背景 1 二、研究意义 1 第二节 国内外研究现状 2 一、用户评论挖掘的研究现状 2 二、LDA 主题模型的研究现状4 三、高斯混合模型的研究现状 6 第三节 研究思路与框架 7 一、研究目标与思路 7 二、研究内容与框架8 第四节 研究创新与不足 9 一、研究的创新 9 二、研究的不足 10 第二章 数据获取与预处理技术 11 第一节 数据的获取 11 一、网络爬虫的基础技术 11 二、常见的网络爬虫技术 13 第二节 数据的预处理 17 一、文本预处理概念 17 二、文本预处理步骤 17 第三章 相关聚类算法的介绍 24 第一节 聚类算法介绍24 一、基于划分的聚类算法 24 二、基于层次的聚类算法 25 三、基于密度的聚类算法 26 四、基于模型的聚类算法 26 4 基于文本聚类的用户评论热点挖掘--以笔记本电脑评论为例 第二节 LDA 主题模型介绍27 第三节 聚类模型的评估28 第四章 描述性统计分析 30 第一节

文档评论(0)

136****6583 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:7043055023000005

1亿VIP精品文档

相关文档