Web观点挖掘系统的关键技术探究.pdfVIP

  • 12
  • 0
  • 约6.74万字
  • 约 66页
  • 2015-10-20 发布于安徽
  • 举报
摘要 随着互联网的迅速发展和普及,互联网己成为人们获取信息的重要渠道; 同时,它也成为人们表达自己观点、看法、情感的平台。因此,在各大电子 商务网站、电子公告板以及门户网站上出现了大量的有关各种商品的评论信 息。商家和厂家的决策者需要了解顾客使用他们商品情况的反馈意见,潜在 的购买者也需要根据别人的使用体验来作出是否购买该商品的决定。对于商 品生产厂家和潜在的商品购买者而言,面对网络上如此大量、复杂的评论信 息,如何迅速有效地获取自己感兴趣的商品评论的总体观点极性倾向(正面 的还是负面的)就成为了一个新的问题。观点挖掘技术的出现,正是为了解 决这个问题。它融合了信息检索、信息抽取、文本分类、机器学习、自然语 言处理、本体论等众多技术,具有一定的文本理解能力,更具有一定的智能 性。 近年来观点挖掘技术的研究十分活跃,由于观点挖掘涉及到大量的理论 技术,本文只对观点挖掘系统中的几个关键方面进行了深入的研究,并尝试 构建了一个观点挖掘系统(OMS)框架,主要的研究工作如下: Web超链分析的方法二者之间的优点,提出一种新的爬行方法,为我们的观 点搜索系统专门设计了分布式的、改进的聚焦网络爬虫算法,并实现了这个 高效的分布式的聚焦爬虫子系统。 2)基于最大熵和支持向量机的方法进行评论的高质量与低质量分类研 究,过滤掉大量低质量的商品评论,从而保证观点搜索系统能够给出高质量 的查询结果。 3)利用《知网》构造具有主观性词的种子列表,然后,根据从《知网》 中获得的主观词种子列表以及《知网》中词与词之间相似或相反的关系提出 了一个观点词的极性倾向判别算法,从而构建一个带有标注词语情感极性倾 向的主观词词典。 4)使用了本论文的成果以及其它研究者的成果设计了一个基于Web的 观点评论挖掘系统框架。 关键词:观点搜索;聚焦爬虫:文本过滤;情感倾向 Abstract a With ofweb Internethasbecome rapiddevelopmenttechnology,the more sourcefromwhichmoreand obtaininformation. veryimportant people Atthesame isalso the for to time,it rapidlybecomingplatformpeople their expressviewpoints. A of reviews in boards forums,bulletin varietyproducts appearmajor and needto customers’feedbackthe grasp through portals,manufacturers needtomakethedecisionwhetherto themornot. web,potentialbuyers buy and a Productmanufacturersconsumersfacesuch network

文档评论(0)

1亿VIP精品文档

相关文档