- 14
- 0
- 约4.09千字
- 约 18页
- 2022-12-30 发布于广东
- 举报
3文本分析京东商品评论21学习目标理解分词和词频统计的作用和意义;理解LDA主题模型。能够对文本进行分词处理并实现词频统计和绘制词云;能够建立LDA主题模型进行主题分析。Part 01京东商品评论分析案例分析 京东商品评论分析背 景 在网购过程中,用户会产生海量的行为数据,其中商品评论数据反映了用户对产品和服务的主观感受,非常具有研究价值。某商家通过爬虫获取了京东商城里,格力京东自营旗航店下的“格力KFR-26GW/NhPaB1W”型云锦空调的好评数据。对于商家而言,商家可以根据评论数据了解用户的喜好,从而优化产品,提升服务,提高竞争力。对于消费用户而言,可以根据评论数据了解产品优缺点,性价比,售后服务等情况,从而为购物选择提供参考依据。 京东商品评论分析本案例数据在“京东商品评论-空调.xlsx”文件中,部分数据如下:会员评价内容pxl0206安装师傅态度很挺好,进门穿鞋套,抽真空整整20分钟。技术也是杠杠滴。由于同一个地方需要安装两台空调外机,所以特地注意管子长短和支架高低,空出了地方以便第二台的安装。装好后确认无误后才离开,必须五星好评!还没有正式使用,12平左右的房间就开了5分钟,已经很凉快了,静音效果要等晚上再感受了。目前感觉挺安静。a132*****050到货很快,送货员直接扛过来,很好的物流公司。空调外观很美观大方,流线型很现代,开机很凉快,两块导风板可调角度大,可以不直接吹到人,很多功能,手机小鲸鱼和格力+可以直接控制,设置简单。热风没有试,安装师傅说气温高试不了。安装师傅很专业,手工很好。很好看,大气,声音也不是很大,静音不错。Customer_IDAgeAnnual_IncomeSpending_Score1191539221158132016642316775311740问题1、根据评价数据分析用户的反馈主要集中在哪些具体的事项上。2、进一步归纳用户的反馈主要集中在哪些大的方面。问题分析问题一:根据评价数据分析用户的反馈主要集中在哪些具体的事项上。由于评论数据中,用户对产品特征的优缺点反馈是我们关心的重点。因此我们将通过对评论数据进行词频分析,了解用户对产品具体特征的反馈。问题二:进一步归纳用户的反馈主要集中在哪些大的方面。对评论数据做LDA主题模型,了解用户对产品的反馈主要集中在哪些大的方面。LDA主题模型分析导入数据数据预处理文本处理分词处理思路词频分析Part 02词频分析 概念理解:词频分析词频分析就是对某一或某些给定的词语在文本中出现的次数进行统计分析。我们通过对分词后的评论数据做词频统计,就可以发现评论数据中出现频繁的空调特征词汇,从而了解空调的产品特性。词频统计后,可以绘制词云进行可视化展示,词云会将出现频率较高的词给予视觉上的强调。在对文本数据进行词频分析之前,我们需要将一个个的句子分解成单个的词语,这就需要对文本进行分词处理。 概念理解:文本分词文本分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。分词示例如下: 原始语句分词后静音效果很好,能安稳睡觉。静音/效果/很/好/能/安稳/睡觉文本分词分词常见问题: 一般中文的分词结果往往是不完美的。主要存在两类问题:歧义、未被词典收录词和停用词。歧义未被词典收录词未登录词指没有收录在词典中的词,如某些人名、地名、机构名、专业术语及新词等。如:“张三”、“5G”、“随机森林”等。对于分词中出现的未被词典收录的词,可以使用建立用户词典的方法,将词语增加到词典中。停用词通常文本中会大量存在一些出现频率很高,但实际意义不大的词语。如:“我”、“是”、“的、“在”等,这类词称为停用词。在分词中,可以通过整理出停用词库,并根据停用词库去掉文本中的停用词。原始语句分词一分词二从马上跳下来从/马上/跳下来从/马/上/跳下来使用户满意使/用户/满意使用/户/满意分词的Python实现参数名称说明sentence需要被分割的句子jieba.lcut()函数Python 中 jieba模块下的 lcut()函数可以实现中文分词,调用格式如下:lcut(sentence) jieba安装:Anaconda中没有预安jieba,所以我们需要自行安装jieba,只需在命令行窗口中输入pip install jieba命令即可。词频统计的Python实现参数名称说明text需用统计的词列表collections.Counter()函数Python 中 collections模块下的 Counter()函数可以实现词频统计,调用格式如下:Counter(text)词云绘制的Python实现参数名称说明font_path需要使用的字体的路径width生成图片的宽度height生成图片的高度stopwords需要使用的停词random_state设置的随机数种子bac
您可能关注的文档
- 商业数据分析与可视化教学课件第五章K-means聚类.pptx
- 商业数据分析与可视化教学课件第三章KNN.pptx
- 商业数据分析与可视化教学课件第六章DBSCAN.pptx
- 民航国内客票销售实务教学课件5-5.pptx
- 民航国内客票销售实务教学课件5-4.pptx
- 民航国内客票销售实务教学课件5-3.pptx
- 民航国内客票销售实务教学课件5-1.pptx
- 航空工程材料教学课件u9.ppt
- 航空工程材料教学课件u8.ppt
- 航空工程材料教学课件u7.ppt
- 2025年全国演出经纪人员资格认定考试试卷带答案(研优卷).docx
- 2025年全国演出经纪人员资格认定考试试卷完整版.docx
- 2025年全国演出经纪人员资格认定考试试题库及完整答案.docx
- 2025年全国演出经纪人员资格认定考试试卷完美版.docx
- 2025年全国演出经纪人员资格认定考试试卷含答案(实用).docx
- 2025年全国演出经纪人员资格认定考试试卷及答案(各地真题).docx
- 2025年下半年内江市部分事业单位公开考试招聘工作人员(240人)备考题库附答案.docx
- 2025年全国演出经纪人员资格认定考试试卷及答案1套.docx
- 2025年下半年四川成都市郫都区面向社会引进公共类事业单位人员2人备考题库最新.docx
- 2025年下半年内江市部分事业单位公开考试招聘工作人员(240人)备考题库附答案.docx
原创力文档

文档评论(0)