- 1、本文档共4页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
COMP:一个中文网络评价信息挖掘系统-北京大学机器感知与智能
第 27卷 第 1期 广西师范大学学报 :自然科学版 Vo1.27 No.1
2009年 3月 JournalofGuangxiNormalUniversity:NaturalScienceEdition Mar.2009
COMP:一个中文网络评价信息挖掘系统
王忠辉 ,邓志鸿
(北京大学机器感知与智能教育部重点实验室,北京 100871)
摘 要:网络中大量的评价信息有着重要的利用价值,评价挖掘技术可以自动地挖掘出这些评价信息中所蕴
含 的评价者对评价对象的态度和意见。为此,设计实现了一个面向中文网络信息的评价挖掘原型系统
COMP,实验表明该系统的挖掘结果具有一定的参考价值和实际意义。
关键词:情感分析;评价挖掘;特征提取;网络信息服务
中图分类号:TP181 文献标识码:A 文章编号:i001—6600(2009)01—0101—04
进入Web2.0时代,人们在从网络上获取信息的同时,也对感兴趣的事物发表评价。这些评价信息对
个人、企业或政府的决策有着重要的参考价值。作为利用评价信息的有效方法,评价挖掘已经成为当前
Web挖掘中的一个重要研究方 向。
Hearst[1]和Sack[2]应用认知语言学中的模型对整篇文档进行基于观点的分类 。Das[。]对一些投资论坛
进行了观点分类以观察评价为正面的帖子是否和股价相关。Huettner[4]基于手工构造的区分词词典和模
糊逻辑理论研究观点分类问题。Tong[5]根据对 电影的在线讨论中的消息发表时间和观点倾向生成 “观点
时间线”。Pang等[6]分析了多种经典的有指导学习算法对文档进行观点分类的效果。Agrawal[]提出一种
基于社会网络的方法来进行观点分类 。文献E8]认为在句子层次上进行观点分类能在更细的粒度上把握文
章所表达的观点。上述研究都是基于文档或者句子层次进行分析与挖掘,挖掘观点的粒度还是比较粗糙。
因此基于特征层次的评价挖掘研究是当前的研究热点。
本文设计与实现一个面向中文网络信息的评价挖掘的原型系统——COMP。COMP系统采用 自然语
言处理技术和数据挖掘技术,提取评价信息中的对象特征,并在特征层次上对评价对象进行评价挖掘。
1 COMP系统
COMP系统结构如图 1所示。
- q特征挖掘模块t-
f
— — L、、
、 — — ③用户
— —
l
评价挖掘模块t-
图 1 COMP系统结构图
Fig.1 System structureofCOMP
①数据采集与整理模块从指定网站中抓取评价数据并进行整理,然后放入评价库。②特征挖掘模块利
用 自然语言处理工具和频繁模式挖掘技术,从评价库中挖掘特征集。⑧评价挖掘模块针对每一个特征,综
合评价库中的评价数据,得到其情感评价值、代表评价模式以及代表评价,结果放入特征库中。④最后,通
收稿 日期:2008—12—20
基金项 目:国家 863计划基金资助项 目(2OO9AAO1Z136)
通讯联系人:邓志鸿 (1973一),男,江西进贤人,北京大学副教授,博士。E-mail:zhdeng@pku.edu.cn
102 广西师范大学学报:自然科学版 第 27卷
过结果展示模块 ,向用户展示挖掘结果。
1.1 特征抽取
系统挖掘频繁特征 ,而不关心不频繁特征。特征挖掘过程如图2。
文档评论(0)