泰迪杯全国大学生数据挖掘竞赛优秀作品.PDF

泰迪杯全国大学生数据挖掘竞赛优秀作品.PDF

泰迪杯全国大学生数据挖掘竞赛优秀作品

泰迪杯大学生数据挖掘竞赛论文报告 第三届“泰迪杯” 全国大学生数据挖掘竞赛 优 秀 作 品 作品名称:基于电商平台家电设备的消费者评论数据挖掘分析 荣获奖项:特等奖 作品单位:华南师范大学 作品成员:周 涛 吴家舜 邵悦涵 指导教师:杨 坦 泰迪杯大学生数据挖掘竞赛论文报告 基于情感分析、语义网络和主题模型的评论文本分析 摘 要:随着网上购物在中国越来越流行,人们对于网上购物的需求变得越来越高,这给京东、 淘宝等电商平台得到了很大的发展机遇,但是与此同时,这种需求也推动了更多的店商平台的崛起, 引发了激烈的竞争。而在这种电商平台激烈竞争的大背景下,除了提高商品质量、压低商品价格外, 了解更多消费者的心声对于店商平台来说也变得越来越有必要,其中非常重要的方式就是对消费者 的文本评论数据进行内在信息的数据挖掘分析。而得到的这些信息,也会有利于对应商品的生产厂 家自身竞争力的提升。本文将基于数据挖掘技术对京东三种品牌型号的热水器的评论数据进行内在 信息的挖掘与分析。 在本次数据挖掘过程中,我们首先对获取得到的评论数据利用python 以及ICTCLAS 工具进行 数据预处理、分词以及停用词过滤操作,实现了对评论数据的优化,并提升了其可建模度。 接着,采用多种方法来进行数据挖掘模型的构建,为后面的评论分析构建分析的基础。为此我 们先利用深度学习的方法,通过多种工具构建栈式自编码神经网络;其次,运用武汉大学的ROSTCM6 系统为三种品牌型号热水器的好差评文本构建语义网络;再有,利用 LDA 主题模型的思想,结合统 计学的角度实现评论主题模型的构建。 最后,运用构造出来的多种数据挖掘模型的结果,对这些评论数据进行多方面多角度的评论文 本分析,以提取评论中隐藏的信息。栈式自编码神经网络被用以进行情感倾向性分析;语义网络重 建了有价值高频词之间的关系,在共词矩阵以及评论定向筛选回查的帮助下,一定程度上得到了京 东三种品牌型号热水器包括特有优点、抱怨点等信息;LDA 主题模型则滤取出了从统计学角度上的 给予不同型号热水器好差评的消费者的关注点,以了解热水器消费者一般关注的对象。 关键词:评论数据;文本分析;信息提取;语义网络;LDA;栈式自编码 第1 页 泰迪杯大学生数据挖掘竞赛论文报告 comments analysis based on sentiment analysis, semantic network and Latent Dirichlet Allocation Abstract : With the prevalence of online shopping in China, consumer has paid more and more attention on online shopping, which at the same time, brings opportunities and challenges to E-business such as Jingdong and Taobao. With the background of challenges, studying what people virtually think based on data analyzing and mining plays an important role in

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档