- 1、本文档共17页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
[PowerPointTemplate].ppt
NLPCC2013 中文微博观点要素抽取研究 指导老师:丁晟春 汇报人:李霄 南京理工大学信息管理系 01 研究背景及意义 02 研究方案 03 中文微博娱乐本体设计 04 评价对象抽取实验 05 总结与展望 研究背景及意义 网络文本数量庞大 情感分析 观点挖掘 观点要素抽取 深层次的挖掘研究 实验方案 微博语料 切分词 特征赋值进行标记转换 ? 实验本体 Hownet情感词表 ? 经特征赋值后的测试语料 ? 经特征赋值后 的训练语料 ? 特征模板 CRFs模型训练 CRFs模型文件标注测试语料 抽取结果 语料预处理 CRFs模型训练及测试 实验语料: 训练语料:测评语料的20% 测试语料包含10个微博话题,共计12382条微博。 语料预处理: LJParser数据挖掘及语义分析智能开发平台中的语料库分词系统。 实验方法: CRFs模型 中文微博娱乐本体设计 微博中的话题涵盖了人物、事件等要素,具体的事件或影视作品又牵扯到方方面面之间的联系。在分析NLPCC2013中文微博观点要素抽取评测语料基础上,构建中文微博娱乐本体。 中文微博娱乐本体: 类:27个 数据属性:69个 类间关系:33个 实力若干 中文微博娱乐本体设计 核心大类之间的关系 指示词 评价对象 评论者 评论 展现对其的感情 描述 提取出 来源于 写 评论 图1 核心大类之间的关系 中文微博娱乐本体设计 所定义的核心类基础上,通过等级关系(subClassOf)扩展“评论对象”类和“指示词”类,形成的等级体系。 在等级关系(subClassOf)的基础上继续扩展本体的等级关系,同时借鉴顶层本体SUMO中关系的定义,实现实验本体中非等级关系的定义。非等级关系包括整体-部分关系、同义关系、反义关系、转指关系、因果关系 中文微博娱乐本体设计 指示词分为属性指示词和情感指示词两种。 属性指示词是指能够表示度量单位的词汇,这些词汇用来指示微博话题中一些属性的参数。 情感指示词是指能够表示评论者对评论对象的褒贬态度的词汇,如“好/坏”指示某电影的水平等。 中文微博娱乐本体设计 “人物”类的层级定义(举例1) 人物 图2 “人物”类的一级体系结构 导演 摄影师 编剧 服装师 Is-a 道具师 演员 歌手 作词者 作曲者 其他名人 中文微博娱乐本体设计 “新闻”类的关系定义(举例2) 新闻 图3 “新闻”类与其他类之间的关系 Is-a 人物 明星公益 明星现场 明星秘闻 Is-a Is-a 作为当事人 评价对象抽取实验 评价对象抽取之特征选择 词特征 词性特征 情感特征 本体特征 本体特征表示的是词汇单元所具有的领域及其语义特性,反映了评价对象的领域共识。本文依据建立的实验本体,判断当前观察单元在该本体中的概念类别:类、属性或是实例,以辅助评价对象的抽取研究。 微博中表达的显性评价特征通常都是单独的词汇单元或是多个词汇单元组成的短语,直接反映了评价对象的构成规则。 由于微博中评价对象在表述过程中都表现出一些语法规则,很大一部分评价对象都通过名词来表达,某些还可能通过动名词,形容词+名词,量词+名词(如部+电视剧)来表达。 情感词不仅表达了评价者对评价对象的态度或是使用心得等评价信息,也在一定程度上能够反映评价对象在整条微博中的位置信息。情感词汇通常作为修饰的成分出现在评价语句中,或放在评价对象前,或放在评价对象后,因此该特性能够反映评价对象的位置信息。 评价对象抽取实验 特征选择预实验(五组实验) 实验 编 号 特征 模板 识别出评价对象数 准确率 召回率 F 1 词,词性, 情感特征 原子,位置复合 512 94.48% 87.01% 90.59% 2 词,词性, 本体特征 原子,位置复合 490 96.69% 85.17% 90.56% 3 词,情感特征,本体特征 原子,位置复合 363 96.76% 82.39% 88.99% 4 四类特征 原子,位置复合 482 96.27% 83.55% 89.46% 5 四类特征 原子,位置, 属性复合 490 97.08% 85.63% 90.99% 评价对象抽取实验 评价对象抽取实验结果分析(宽松评价指标) 参评标识号 微平均 宏平均 正确率 召回率 F值 正确率 召回率 F值 11号(本单位结果) 0.566 0.399 0.468 0.567 0.412 0.475 Best 0.563 0.514 0.538 0.558 0.504 0.526 Last 0.381 0.302 0.337 0.3
文档评论(0)