- 1、本文档共6页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于评论数据的电子商务网站口碑分析方法.doc
基于评论数据的电子商务网站口碑分析方法
随着互联网的发展,网名的信息发表自由度提高,相关信息的传播速度达到几何级数传播,其形成的力量对于公司的品牌形象及产品的口碑发挥着非常大的影响。网络上用户的口碑及意见反馈,是企业窥探竞争对手产品弱点以及发现新的用户需求与喜好的丰富来源。如何合理的收集消费者或潜在消费者的口碑信息,对企业品牌维护、消费者调研、市场选择都有很重要的帮助。因此,本文提出一种电商网站的网络口碑分析方法,为企业分析网站的口碑评论得出依据。
随着Web2.0以及新兴媒体的兴起,互联网自媒体的数量庞大,发表信息极度自由,相关信息传播速度达到几何级数传播,其形成的力量对于公司的品牌形象及产品的口碑正发挥着越来越大的影响。网络上用户的评论中的赞扬、喜好、抱怨等信息蕴含着巨大的商机,它是企业窥探竞争对手产品弱点以及发现新的用户需求与喜好的丰富来源。这些信息对于公关部门、品牌部门、研发部门深入了解用户状态与心理非常有帮助。网络口碑传播具有匿名性、速度快、范围大、持续力强、传播渠道多元化、传播效果容易测量等特点。网络口碑在很大程度上也是现实口碑的一种反映,无论是正面评价还是负面评价都可以被迅速传播,而其中的负面评价更会被迅速放大。好的口碑传播可以推动企业的产品销售,而负面口碑的传播可以迅速导致企业的危机。
如何合理的收集消费者或潜在消费者的口碑信息,对企业品牌维护、消费者调研、市场选择都有很重要的帮助。因此,本文提出一种电商网站的网络口碑分析方法,为企业分析网站的口碑评论得出依据。
实现方式
技术特点。本方法采用了自然语音处理NLP(分词,词法分析,句法分析)、特征数据挖掘、情感分析、观点词提取等数据分析处理技术。
本方法提出的通过产品特征数据挖掘方法(分词与词性标注、Apriori算法提取高频词汇、然后利用KNN算法进行分类聚合和裁剪)可以准确的提取产品数据特征数据。创新性的提出把特征数据挖掘与中文情感分析技术相结合,准确获取产品特征数据,并分析产品特征评价的倾向性,进一步提升产品网络口碑分析的实用性和针对性。
实现说明
本方法的数据处理流程如下图所示,包括分词与词性标注、基于Apriori算法获取频繁特征项集、基于KNN进行聚类和裁剪 、挖掘用户观点及情感倾向性、提取代表性观点词与评价短语、评价短语词频权重计算等主要步骤。
采集大量网络评论数据,用IKAnalyzer分词工具对数据进行分词和词性标注,提取出其中的名词及名词短语。
输入一批小米3手机评论:“用了2天才来评价,感觉不错,性价比高,不足手机发热严重,系统内存控制不行”;“已经收到货,物流很给力啊,目前正在使用,感觉还不错,日后追加评价”;“很好,超出我的想象,另外莲米的服务超赞,只是物流有点慢,转到ems就超慢,八天时间才收到货”;“打电话时通话不顺畅,信号差,设置2G后正常了,不知是运营商的问题,还是手机的问题,想退换货又很纠结,电池也是一天一充”;“性价比比较高,像素貌似没有1300万,手机用用还可以,不卡,通话清晰”……
提取出其中的名词及名词短语如下:通话, 手机, 性价比, 系统内存, 物流, 服务, ……
针对名词及名词短语,基于关联规则的Apriori算法获取频繁特征项集作为候选产品特征集合。
Apriori算法对数据集进行循环处理挖掘频繁项集,其算法过程如下:
a) 统计每个元素出现的频率,并找出那些不小于最小支持度的项目集, 即1项频繁项集;
b) 循环处理,将第(k-1)步生成的(k-1)项频繁项集中的元素两两组合,统计每个组合中两个元素同时出现的频率,找出不小于最小支持度的组合,生成k项频繁项集;
c) 循环处理直至生成的n项频繁项集为空,所有的1,2,…,n项频繁项集构成最终的频繁项集。
在评论挖掘算法中,我们计算每个名词及名词组合在评论中出现的频率,采取最小支持度为0.01,生成产品特征项;由于3项以上的频繁项明显不是产品特征,我们只考虑3项以下的频繁项。针对上述小米3手机评论,对提取出来的名词,计算其出现的频率,两两组合后计算同时出现的频率,提取出大于给定的最小支持度的项目作为特征项,得到下列特征项:
[系统], [速度], [手机] , [用户], [评论], [小米], [手机], [功能], [性价比], [价格], [外观], [物流], [用户, 评论], [小米, 手机] ……
将候选产品特征集合按照K最近邻(k-Nearest Neighbor,KNN)分类算法进行聚类和裁剪,得到最终产品特征项集合。KNN算法思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别
您可能关注的文档
最近下载
- 标准的个人简历表格[空白].doc VIP
- 开放系统11879《小学语文教学研究》期末机考真题及答案(第102套).docx VIP
- 2025年新教科版科学四年级下册全册知识点(超全版).pdf
- 《sm-3酶标仪说明书》.doc VIP
- 3篇《严禁违规操办“升学宴廉政承诺书》谈话记录.docx VIP
- 2025中国工商银行软件开发中心社会招聘笔试备考题库及答案解析.docx VIP
- 老年常见病的预防与照护教学大纲.docx
- 六年级科学上册(教科版)全册同步练习(含答案).pdf VIP
- 2025年新人教版七年级下册历史全册知识点(新教材).pdf VIP
- 基于项目式学习的初中生物综合实践活动案例论文.docx
文档评论(0)