- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于信息熵领域术语自动抽取算法在产品评论过滤中具体运用
基于信息熵领域术语自动抽取算法在产品评论过滤中具体运用
摘要:随着电子商务的迅速发展,评论挖掘将成为了是数据挖掘、自然语言处理领域的热点研究领域。要完成产品评论挖掘系统中产品特征自动提取子系统的设计与实现,就必须掌握好过滤用户评论这一环节。为了更好地先过滤产品评论,以提高挖掘结果的准确率。基于信息熵的领域术语抽取算法的应用,显著提高了产品评论分类的精度,获得了较高的召回率与正确率,更好地为产品评论挖掘系统服务。
?关键词:产品评论挖掘,信息熵,领域术语自动抽取
?网上商品评论从本质上讲就是一种文本数据,对于一个关注该商品的潜在消费者而言,全部阅读如此庞大的文本数据以帮助自己做决定是十分困难的,所以,有效的产品评论挖掘系统成为了帮助消费者轻松进行产品评论所必不可少的。要完成产品评论挖掘系统设计与实现,获取用户评论、过滤用户评论、抽取产品特征等内容必不可少,而在过滤用户评论的过程中,由于Web上的用户产品评论存在大量的噪音,有的评论根本和产品无关,还有很多的广告信息,严重影响了产品评论挖掘的质量。因此,要先过滤产品评论,以提高挖掘结果的准确率,同时在从指定网站获取产品评论后,根据需要以词语为单位进行过滤、以字为单位进行过滤、以组块为单位进行过滤,以求过滤掉其中的低质评论。使其更好地为产品评论挖掘系统服务。
?例如在数码相机领域中出现的“某些领域日货有优势,某些领域国产有优势。要尽可能地支持国产品牌,看看咱们国家过去走过来的路,多么坎坷。现在我们发展势头很好,大家多努力,多支持国货。”又比如“北京吉祥数码商城,所有数码产品全部都是市场价的5折”,像以上这种评论对于评论挖掘说毫无用处,让它存留在语料库中只会增加程序的负荷,同时降低挖掘质量,降低挖掘结果的准确率。所以在进行产品评论挖掘以前我们需要对产品评论语料库进行过滤,去掉其中的低质评论,以提高挖掘质量,提高挖掘结果的准确率。
?领域术语自动抽取是指从一定规模的语料中抽取出能反应某一领域文本特征或共性的词语,是自然语言处理中的一项重要任务。术语抽取被广泛应用于本体构建 、自动摘要 、语言模型等领域。单纯靠语言学专家抽取领域术语费时费力,因而很难形成规模,开发一种自动化的方法来辅助术语抽取显得尤为必要,能为许多面向领域的应用提供重要语言学资源。通常被采用的方法可以分为基于规则的和基于统计的方法两大类。基于规则的方法是通过预先设定许多规则模版,然后把待处理语料中与规则模版相匹配的词语作为领域术语候选。规则方法的不足在于很难制定一个完备的规则集来穷尽所有语言现象,并且当已有许多规则时,还需要考虑多个规则之间的冲突及解决。基于统计的方法通常包括机器学习方法和基于统计量度的方法。基于统计量度的方法是从领域分类语料中统计用词规律从而发现领域术语。已有的统计量度包括TFIDF、KFIDF、DR + DC。KFIDF 量度与TFIDF 相比,引入了词语的类别信息。DR 和DC 分别表示词语的领域相关性和领域一致性,领域一致性是指词语在其相关领域的所有文档中分布的一致性,它对获取高质量领域术语起重要作用。该方法被用于英文文本的领域术语抽取并取得了很好的效果,但该方法没有考虑不同领域语料的规模以及不同文档长度对领域术语抽取的影响。
?在前人工作基础上,基于如下两个度量标准又有了一种新的领域术语抽取方法被提出,它能够更加准确、有效地度量领域术语的属性:
?①.领域术语应该在不同领域类别间分布不均匀。
?②.领域术语在其相关领域的文档集中应尽可能分布均匀。
?我们采用信息熵来衡量以上两个分布,并根据不同领域语料的规模及文档长度做正规化。这样也就是从类间分布、类内分布及语料规模三方面来衡量每个词语。本文还用该领域术语抽取方法代替传统特征选择方法应用于文本分类,使文本分类精度有了很大提高。
?一、基于信息熵的领域术语自动抽取算法
?方便起见,我们定义如下数学符号:
?m:领域类别个数
?D?i(1≤i≤m):第i个领域类别
?n?i(1≤i≤m) :类别Di中的文档数目
?P(D?i|W) :词语W出现在类别Di中的概率
?d??ij?(1≤j≤m) :类别D?i中的第j个文档
?l??ij?:文档d??ij?的长度,即在该文档中出现的所有词语的词频之和
?L?i:类别D?i包含的所有文档长度之和
?WS??Di?:类别D?i的领域术语集合
?WS??rel?:领域相关词语集合
?WS??irre?:领域无关词语集合
?WS:文本中所有词语集合
?领域术语抽取的目标是给出集合WS的一个合理划分,满足WS??rel?∪WS??irre?=WS, WS??rel?∩WS??ir
您可能关注的文档
最近下载
- 2025-2030中国实物文件销毁服务提供者服务行业市场发展趋势与前景展望战略研究报告.docx
- Mendeley使用介绍.pdf VIP
- 公考公务员考试省考国考行测常识判断题库完美版.docx VIP
- 常用词汇汉梵对照表.doc VIP
- 2025年中国人寿:国寿健康产业投资有限公司招聘笔试参考题库附带答案详解.pdf
- 小区物业管理服务质量量化考核表.docx VIP
- NB/T47020~47027-2012 压力容器法兰、垫片、紧固件.pdf
- 《能源工业互联网平台 新能源场站设备数据字典规范》.pdf VIP
- 保洁培训常用清洁剂的认识与使用.docx VIP
- 木材的燃烧与阻燃.pptx VIP
文档评论(0)