基于页面分块与信息熵评论发现及抽取.docVIP

  • 6
  • 0
  • 约5.68千字
  • 约 13页
  • 2018-08-31 发布于福建
  • 举报

基于页面分块与信息熵评论发现及抽取.doc

基于页面分块与信息熵评论发现及抽取

基于页面分块与信息熵评论发现及抽取   摘 要:提出了一种新颖的REA(Review Extract Algorithm)算法进行评论信息的发现与抽取。算法采用了页面分块与信息熵的迭代计算技术实现了评论块的自动发现与抽取。其中,页面分块技术的运用有效地去除了噪声信息;基于块的熵值计算精确定位了每一个用户评论。实验结果证明该算法具有较高的查全率与查准率。   关键词:评论抽取;自动;语义块;熵??   中图法分类号:TP311.13文献标识码:A   文章编号:1001―3695(2007)02―0269―03   随着电子商务的迅猛发展,越来越多的商家开始进行网上销售,并且也有越来越多的人选择网上购物。为了能让潜在用户了解已购买过某产品用户的满意程度与购买经验,多数商家都会要求用户对所购买的商品进行评价,以便为潜在用户提供购买参考。结果使得Web上关于某类产品的评论信息迅猛增长,潜在用户难以阅读这些众多的评论信息,从而难以帮助他们进行购买取向的决策。对产品的评论信息进行抽取与分析的工作就显得非常必要。近年来,众多研究者对评论抽取技术作出了深入研究,提出了具有重要价值的有效算法。然而,针对目前复杂多样的Web页面,进行评论抽取工作主要存在以下问题:①网页页面结构复杂,页面中含有大量的与主题无关的信息,这些无关信息称作噪声信息。这些噪声信息的存在将大大影响信息抽取的质量。②

文档评论(0)

1亿VIP精品文档

相关文档