中文同义词自动抽取研究.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
传递性验证规则测评结果谢谢中文同义词自动抽取研究南京师范大学计算机学院自然语言处理小组曹冉孙玉霞狄颖指导老师曲维光周俊生目录基于语义词典的方法基于同义词词林扩展版基于中文概念词典基于网络资源的方法基于模式匹配的方法基于并列结构的方法同义词传递性扩充的方法目录基于语义词典的方法基于同义词词林扩展版基于中文概念词典基于网络资源的方法基于模式匹配的方法基于并列结构的方法同义词传递性扩充的方法同义词词林扩展版在同义词词林扩展版中编码末尾为的词语集合表示的是同一个语义因此目标词的同义词即为包含目标词的编码

传递性验证规则 测评结果 谢谢! * * * 中文同义词自动抽取研究 南京师范大学计算机学院 自然语言处理小组 曹冉 孙玉霞 狄颖 指导老师: 曲维光 周俊生 目录 基于语义词典的方法 基于《同义词词林(扩展版)》 基于中文概念词典CCD 基于网络资源的方法 基于模式匹配的方法 基于并列结构的方法 同义词传递性扩充的方法 目录 基于语义词典的方法 基于《同义词词林(扩展版)》 基于中文概念词典CCD 基于网络资源的方法 基于模式匹配的方法 基于并列结构的方法 同义词传递性扩充的方法 《同义词词林(扩展版)》 在《同义词词林(扩展版)》中,编码末尾为 = 的词语集合表示的是同一个语义。 因此,目标词的同义词即为包含目标词的编码末尾为 = 的词语集合。 目标词 “规则”对应的同义词集合: Di24A01= 规则 守则 准则 则 规 律 章法 轨道 清规 戒律 规例 规约 目录 基于语义词典的方法 基于《同义词词林(扩展版)》 基于中文概念词典CCD 基于网络资源的方法 基于模式匹配的方法 基于并列结构的方法 同义词传递性扩充的方法 中文概念词典 CCD CCD中使用Synset字段来描述概念。 但是在Synset中的词语并不完全是同义词,而是某种意义上的相关词。 一个词语也可能出现在多个Synset中 。 如目标词“爱好”: 概念编号 定义 Synset吸引普通大众 喜好 流行 爱好 盛行 风行一种附属的活动 嗜好 爱好 业余爱好 基于中文概念词典 本文提出基于典型同义词的过滤方法。 基本思想: 在包含目标词的Synset中统计出典型同义词。 使用典型同义词按照一定规则在Synset中过滤出同义词。 典型同义词统计方法 典型同义词统计方法 基于典型同义词的过滤算法 最终“爱好”的同义词为 {嗜好,喜好,业余爱好, 偏好,偏爱,偏袒, 喜欢} 。 基于语义词典-实验结果 基于同义词词林获取到5277个目标词的同义词,平均每个词语对应13个同义词。 基于CCD获取到5727个目标词的同义词,平均每个对应6个同义词。 基于字典的方法获取到的同义词的目标词大多是普通名词、动词、形容词。 宏平均 准确率 宏平均 召回率 宏平均 F1值 微平均准确率 微平均 召回率 微平均 F1值 TYCL 0.2947 0.3447 0.2764 0.3225 0.4183 0.3642 CCD 0.2236 0.2298 0.1955 0.3117 0.2118 0.2522 Final 0.3588 0.6041 0.3968 0.3025 0.6358 0.4100 目录 基于语义词典的方法 基于《同义词词林(扩展版)》 基于中文概念词典CCD 基于网络资源的方法 基于模式匹配的方法 基于并列结构的方法 同义词传递性扩充的方法 基于模式匹配方法-基本思想 在互联网上抓取目标词的百度百科词条 在百科词条概述中,利用人工提取的“目标词+模式词+候选同义词”模式取得高质量同义词。 利用高质量同义词在百科全文中获取限定语料,自动提取出上下文环境模式。 利用目标词和上下文环境模式提取同义词。 基于模式匹配的方法 人工模式提取 基于770个词条百科,手动进行模式提取,这里的模式是指同义词提示词。 模式类型 模式数量 实例 前置名词模式 39 模式:昵称 例:周笔畅的昵称是笔笔。 前置动词模式 64 模式:又名 例:栀子花又名栀子。 后置模式 8 模式:美称 例:杭州素有人间天堂的美称。 基于模式匹配的方法 自动模式获取 基于百科全文获取包含同义词词对的句子。在获得的句子集合上,提取左右词语列表、左三元组列表,并根据获得的列表进行同义词穷尽自动抽取。如下表所示: 模式类型 左词语列表 右词语列表 左三元组列表 排名前5 、 , 称 和 又 、 , 。 ; 等 、「同义词」、 ,「同义词」, ,又称 称「同义词」、 ”、“ 总计 74 24 131 基于模式匹配的方法-规则过滤 由于网络资源存在不规范性,需要对获取到的同义词进行筛选。 筛选方法: 首先对获取到的同义词进行分词, 然后使用如下规则进行筛选: 规则1 若候选同义词是一个完整的分词结果,同义词有效。 规则2 若候选同义词分词结果中包含{ 共和国,市,州,镇,县,郡,帝国 }中任一后缀,同义词有效。 规则3 若候选同义词分词结果是两个字数词性一致的词语,同义词有效。 规则4 若候选同义词分词结果包含目标词语,同义词无效。 上述四个规则,优先度依次递减。

文档评论(0)

wangsux + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档