COMP:一个中文网络评价信息挖掘系统-北京大学机器感知与智能.PDF

COMP:一个中文网络评价信息挖掘系统-北京大学机器感知与智能.PDF

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
COMP:一个中文网络评价信息挖掘系统-北京大学机器感知与智能

第 27卷 第 1期 广西师范大学学报 :自然科学版 Vo1.27 No.1 2009年 3月 JournalofGuangxiNormalUniversity:NaturalScienceEdition Mar.2009 COMP:一个中文网络评价信息挖掘系统 王忠辉 ,邓志鸿 (北京大学机器感知与智能教育部重点实验室,北京 100871) 摘 要:网络中大量的评价信息有着重要的利用价值,评价挖掘技术可以自动地挖掘出这些评价信息中所蕴 含 的评价者对评价对象的态度和意见。为此,设计实现了一个面向中文网络信息的评价挖掘原型系统 COMP,实验表明该系统的挖掘结果具有一定的参考价值和实际意义。 关键词:情感分析;评价挖掘;特征提取;网络信息服务 中图分类号:TP181 文献标识码:A 文章编号:i001—6600(2009)01—0101—04 进入Web2.0时代,人们在从网络上获取信息的同时,也对感兴趣的事物发表评价。这些评价信息对 个人、企业或政府的决策有着重要的参考价值。作为利用评价信息的有效方法,评价挖掘已经成为当前 Web挖掘中的一个重要研究方 向。 Hearst[1]和Sack[2]应用认知语言学中的模型对整篇文档进行基于观点的分类 。Das[。]对一些投资论坛 进行了观点分类以观察评价为正面的帖子是否和股价相关。Huettner[4]基于手工构造的区分词词典和模 糊逻辑理论研究观点分类问题。Tong[5]根据对 电影的在线讨论中的消息发表时间和观点倾向生成 “观点 时间线”。Pang等[6]分析了多种经典的有指导学习算法对文档进行观点分类的效果。Agrawal[]提出一种 基于社会网络的方法来进行观点分类 。文献E8]认为在句子层次上进行观点分类能在更细的粒度上把握文 章所表达的观点。上述研究都是基于文档或者句子层次进行分析与挖掘,挖掘观点的粒度还是比较粗糙。 因此基于特征层次的评价挖掘研究是当前的研究热点。 本文设计与实现一个面向中文网络信息的评价挖掘的原型系统——COMP。COMP系统采用 自然语 言处理技术和数据挖掘技术,提取评价信息中的对象特征,并在特征层次上对评价对象进行评价挖掘。 1 COMP系统 COMP系统结构如图 1所示。 - q特征挖掘模块t- f — — L、、 、 — — ③用户 — — l 评价挖掘模块t- 图 1 COMP系统结构图 Fig.1 System structureofCOMP ①数据采集与整理模块从指定网站中抓取评价数据并进行整理,然后放入评价库。②特征挖掘模块利 用 自然语言处理工具和频繁模式挖掘技术,从评价库中挖掘特征集。⑧评价挖掘模块针对每一个特征,综 合评价库中的评价数据,得到其情感评价值、代表评价模式以及代表评价,结果放入特征库中。④最后,通 收稿 日期:2008—12—20 基金项 目:国家 863计划基金资助项 目(2OO9AAO1Z136) 通讯联系人:邓志鸿 (1973一),男,江西进贤人,北京大学副教授,博士。E-mail:zhdeng@pku.edu.cn 102 广西师范大学学报:自然科学版 第 27卷 过结果展示模块 ,向用户展示挖掘结果。 1.1 特征抽取 系统挖掘频繁特征 ,而不关心不频繁特征。特征挖掘过程如图2。

文档评论(0)

xiaozu + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档