网络舆情信息的挖掘技术.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
网络舆情信息的挖掘技术 0 产品评论挖掘在竞争情报分析中的应用 网络改变了消费者表达自己意见的方式。例如,您可以在网站、论坛、讨论组、自媒体和微博上表达自己对产品的看法。通过这种方式,我们可以在短时间内获得更多有意义的、可测量的信息情报资源。本文内容即是采用产品评论挖掘技术,利用网络资源来帮助我们有效地获得用户使用产品后的反馈信息,以便企业或更多的用户了解竞争产品优势,企业可对用户的需求和产品的改进方向做出有效反应,用户可针对自身需求寻找到适合自己的产品。 在竞争对手或竞争企业的评论挖掘中,有如下研究。黄晓斌、周珍妮分析了观点挖掘在竞争对手分析中的作用,并构建了一个基于观点挖掘的竞争对手分析模型,利用这个模型可以挖掘出哪些产品互为竞争对手。施国良、程楠楠将产品评论挖掘应用于企业竞争中,并从行业监测、用户研究、企业自身、竞争对手四个方面探讨了产品评论挖掘在企业竞争情报中的具体应用。张玉峰、何超将网络评论挖掘融入企业竞争情报分析中,构建了基于网络评论挖掘的动态竞争情报分析模型,并阐述了模型中各个模块的主要功能及其实现策略。 本文利用前人的研究成果,将产品评论挖掘技术应用于手机竞争产品领域。本文以苹果、诺基亚公司的两个竞争产品,即苹果iPhone4手机与诺基亚N8手机作为研究对象。主要工作有三个:一是构建了常用于手机评价的网络用语词典,二是构建了用于手机用户评论挖掘结果分类的正则表达式,三是根据挖掘结果量化的图表,分析了iPhone4和N8的各项产品特征的优势以及需要改进的方向。 1 数据整理、挖掘 本文研究过程大致可分为四大部分,网络评论信息采集、数据预处理(包含四部分,即数据清理、分词、词性标注、删除停用词)、评论挖掘(包含四部分,即产品特征提取、评论观点抽取、评论观点的极性判断、极性强度判断)、挖掘结果汇总。研究路线如图1所示。 2 挖掘过程和关键分析 2.1 数据预处理 数据预处理包含四个部分,即数据清理、分词、词性标注、删除停用词等。 2.1.1 清理网络产品评论信息 网络评论存在许多问题,比如网络语言形式接近于口语,不断出现的网络新鲜词汇等等,所以网络产品评论信息的数据清理尤为重要。数据预处理需要删除大量的无用信息、重复信息和非评论信息等,提取出用户对产品特征有意义的观点。 2.1.2 区分词 词语是最小的能够独立使用的有意义的语言成分,分词的好坏直接决定了计算机对文本语义分析的准确性。 2.1.3 评论语料的特征判断 词性标注是产品评论挖掘的基础,通过词性标注,可以判断评论语料是属于特征词、观点词,还是程度词,从而帮助我们提取出产品特征和用户评论观点,并对用户观点的极性进行判断。 2.1.4 删除停用语 评论语料中经常存在很多出现频率高,但是实际意义并不大的词汇,如 “的”、“在”、“了”、“呢”等等,称之为停用词。删除停用词会提高评论预料的分析效率和效果。 对于中文的数据预处理过程,可以使用武汉大学ROST虚拟学习团队发布的ROST Content Mining内容挖掘系统和中国科学院计算机所研发的ICTCLAS中文分词工具对评论进行初步的预处理。 2.2 评论总结过程 评论挖掘部分共分为四个阶段,即产品特征提取、评论观点抽取、评论观点的极性判断、极性强度的确定。 2.2.1 件、部件属性 产品特征抽取的目的是,将用户评价的产品特征提取出来,其产品特征包括产品的部件、部件的属性或功能等。产品特征可分为显式特征和隐式特征,对隐式特征的提取技术尚不成熟,故目前大部分产品特征提取都只考虑显式特征。对竞争产品的特征抽取,需要考虑特征覆盖了所有竞争产品,这样,最后的分析才能从一点出发,有所比较。 2.2.2 主观词汇的选取 评论观点抽取的目的是,将能够反映用户观点的词汇抽取出来,这些词汇是对产品特征的观点表达,经常是带有情感色彩的主观词汇,如“外观有一定创新”,“创新”即是用户对“外观”的评论观点。 2.2.3 测度的见表2:《参数》的极性强度 评论观点极性及强度判断是指,确定用户观点的极性,如褒义、贬义或中性,以及用户表达的情感程度的强弱。 判断评论观点的极性,有两种方法,即基于词典的方法和基于语料的方法。基于词典的方法需要建立一个情感极性词典,以获得一个词的极性。基于语料的方法是在大量语料基础上,分析词之间的语法形式或共现形式来判断词的极性。 用户在评价产品时,不但表达的情感倾向性不同,而且表达的情感强度也是不同的。例如“电池不耐用”和“电池真的很不经用啊,玩的狠点一天都坚持不到!”,这两句评论同样评价的是手机的电池问题,但是第二句评论明显比第一句表达的情感重。为了说明产品之间、功能之间的差异性,通过量化用户评论极性程度就可以很好的展现它们的差异性。 极性强度的程度我们可以从两种词性进行讨论。首先,形容词本身具有极性程度

文档评论(0)

xcwwwwws + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档