- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于词频和情景语义的产品特征提取方法
摘要:为解决目前产品特征提取方法在种子特征词集构建上存在需要大量人工标注、代表性不足等问题,提出一种基于词频和情景语义的产品特征提取方法。通过少量高频名词和关联规则构建种子特征词集,采用神经网络语言模型进行词向量训练,再通过计算向量间余弦相似度对种子特征词集进行扩充,最后经人工分类后得到完整的产品特征词典。实验结果显示,该方法采用种子特征词集相似度排名前九的单词(top9)来进行产品特征扩充时效果最好,
0 引言在移动互联网时代,大量跨境电商网站和用户交流平台的出现,给企业了解用户行为、把握市场趋势提供了更加快捷的渠道。对在线评论的挖掘与利用已逐渐成为企业明确市场定位,提升产品销量的重要途径在以往的研究中,学者们提出了各种各样的产品特征提取方法。比较有代表性的方法有:基于高频名词或名词短语提取基于高频名词或名词短语提取特征词的方法,由于无需标注大量文本,大大减少了人工成本,因而备受学者们关注。HU等也有学者在基于词频的基础上,提出利用词典进行文本相似度计算,进而对特征词集进行扩展,从而挖掘低频词。董苑等基于词典计算文本相似度的方法,无法结合上下文语义,因此聂卉等这些利用词向量获取产品特征的研究,大多聚焦于词向量模型的改进,少有研究着眼于种子特征词集的构建。然而,在线评论中并非只有表示产品特征的词语,直接对词向量进行聚类来提取产品特征,容易导致噪声类别的出现。而用在种子特征词集基础上计算向量间相似度的方法提取产品特征,虽然能较好地规避噪声类别的出现,但其在种子特征词集的构建上,或是需要大量人工标注为了解决以上问题,笔者提出了一种基于词频和情景语义的半监督产品特征提取方法。首先,通过词频和关联规则构建种子特征词集,只需少量人工标注且引入了一些不频繁名词,该方式能够减少噪声类别的出现,使得提取种子特征词集具有更好的代表性。接着,再采用神经网络语言模型进行训练,把符号形式的词语转化成数值形式的词向量,并通过计算向量间相似度的方法,对种子特征词集进行扩充,这样可以使得对低频特征词的提取更加友好。最后经人工分类后得到完整的产品特征词典,从而实现对产品特征的提取。1 产品特征提取方法本文提出的基于词频和情景语义的产品特征提取方法主要分为三个阶段(图1):第一阶段为在线评论的获取与预处理;第二阶段为基于词频和关联规则的种子特征词集挖掘;第三阶段为基于情景语义的产品特征扩充与产品特征词典构建。1.1 在线评论的获取与预处理在线评论按是否表达了评论者的主观意愿,一般可分为主观语料和客观语料。其中主观语料由于具有褒贬的情感倾向,信息量较为丰富,是评论挖掘的主要研究对象。CNET网站是一家全球领先的科技资讯网站,其上对产品的评论通常包含优点、缺点以及描述三部分。其中优点、缺点部分的评论语句充分表达了用户的主观意愿,且其往往较为简单明了,可视为主观语料。相比其他长评论,优点、缺点部分的评论语句中更容易出现描述产品特征的词语。因此,在进行产品特征挖掘时,笔者直接采用八爪鱼爬虫软件从C网站上抓取苹果、三星、诺基亚等品牌手机优点、缺点部分的评论作为研究数据。对用爬虫软件爬取的在线评论,通常需要先进行数据的预处理。在数据预处理阶段,主要是将散乱的人为书写的数据转换为模型能处理的数据:① 剔除缺失数据。② 断句:根据句号、叹号、问号等句末标点符号对在线评论进行断句。③ 去除停用词:由于在线评论中还存在着大量无实际意义却在句子中起到承接作用的词,亦即停用词。如中文评论中的“了”“的”,英文评论中的“the”“a”等。为了更好的产品特征提取效果,往往需要对这些无实义的词进行剔除。④ 规范文本:由于用户书写评论存在不规范书写的情况,因此需要对评论文本做规范化处理。如特殊字符的处理、删除多余空格,大小写的转换等。⑤ 去除单字词:有些用户由于种种原因,只用了如“good”“nice”“terrible”等单个单词,甚至如“!”“?”等标点符号来进行评论。这种由少于一个单词组成的评论并没有提供有价值的信息,也需要进行剔除。1.2 基于词频和关联规则的种子特征词集挖掘由于在线评论中表示产品特征的单词数量是有限的,被消费者最常提及的单词往往和产品最具有相关性。而产品特征又主要以名词或名词短语的形式存在于评论中。因此,在进行种子特征词集挖掘时,可以根据词频把在线评论中频繁出现的名词或者名词短语当做描述产品特征的候选种子特征词。WordNet综上,种子特征词集挖掘算法主要分为三个步骤:① 使用WordNet进行词性标记,对标记为名词的单词,选取其中词频排名前50的单词进行人工筛选,从而得到候选种子特征词集。② 用Apriori算法③ 筛选合并得
原创力文档


文档评论(0)