基于词典与WEB资源的词汇关系抽取.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
5 实验结果 5.1 同义词结果 郑州大学自然语言处理实验室 宏平均准确率 宏平均召回率 宏平均F1值 微平均准确率 微平均召回率 微平均F1值 ZZU1 0.2975 0.6423 0.3598 0.2530 0.6792 0.3687 ZZU2 0.3256 0.6961 0.3927 0.2541 0.7072 0.3738 MAX 0.3588 0.6961 0.3984 0.3025 0.7072 0.4106 5 实验结果 5.2 下位词结果 郑州大学自然语言处理实验室 宏平均准确率 宏平均召回率 宏平均F1值 微平均准确率 微平均召回率 微平均F1值 ZZU1 0.5603 0.3321 0.3742 0.6492 0.3518 0.4563 ZZU2 0.6119 0.5988 0.5605 0.6233 0.5045 0.5576 MAX 0.6119 0.5988 0.5605 0.7827 0.5045 0.5596 谢谢大家 郑州大学自然语言处理实验室 * * * 郑州大学自然语言处理实验室 郑州大学自然语言处理实验室 郑州大学自然语言处理实验室 郑州大学自然语言处理实验室 郑州大学自然语言处理实验室 郑州大学自然语言处理实验室 郑州大学自然语言处理实验室 基于词典和WEB资源的词汇关系抽取 范庆虎 昝红英 张坤丽 贾玉祥 郑州大学自然语言处理实验室 词汇关系大纲 引言 同义词抽取资源 中文概念词典(CCD) 哈工大同义词词林(扩展版) 百度百科 百度翻译+有道翻译 同义词抽取流程 下位词抽取资源 中文概念词典(CCD) 百度百科 互动百科 维基百科 百度相关搜索 下位词抽取流程 实验结果 郑州大学自然语言处理实验室 引言 同义词和下位词的发现在自然语言处理领域中对信息检索,机器翻译等领域的研究有重要的意义。 传统的同义词和下位词的发现是基于词典知识库,如中文概念词典,同义词词林等知识库。 随着Web的发展,网络上出现了大量的资源知识库。例如“百度百科”、“有道翻译”、“维基百科”等Web资源。 把传统的词典和Web资源各自优势进行结合,将会更加有效的抽取词汇关系。 郑州大学自然语言处理实验室 1 同义词抽取资源 中文概念词典(CCD) 哈工大同义词词林(扩展版) 百度百科 百度翻译+有道翻译 郑州大学自然语言处理实验室 1.1 中文概念词典(CCD) CCD是一个WordNet类型的汉英双语语义词典,从关系语义学的观点出发,以同义词集(Synset)定义概念(concept),在概念之间定义关系(relation)来描述语义 郑州大学自然语言处理实验室 1.2 哈工大同义词词林 《同义词词林(扩展版)》在原有的三层分类体系上增加两层,得到最终过的五层分类体系,唯一的代表词典中出现词语的编码如: Ba01A02= 物质 质 素 Cb02A01= 东南西北 四方 Ba01A03@ 万物 Cb06E09@ 民间 Ba01B08# 固体 液体 气体 流体 半流体 Ba01B10# 导体 半导体 超导体 以上词语编码中第八位编码的标记“=”、“@”、“#”,“=”代表“相等”、“同义”,“@”代表“自我封闭”,“#”代表“不等”、“同类”。 郑州大学自然语言处理实验室 1.3 百度百科(1/4) 根据特征词进行模式识别,其中查询词用W(w),特征词用S(w)表示,其在百科中的同义词用T(w)表示,抽取的模式有: 1 W(w)+S(w)+T(w) 例如:“埃菲尔铁塔”百科中内容: 埃菲尔铁塔(又译“艾菲尔铁塔”)是法国巴黎著名铁塔,坐落在塞纳河南岸马尔斯广场的北端。 以上内容中查询词W(w):“埃菲尔铁塔”,特征词S(w):“又译”,同义词T(w):“艾菲尔铁塔” 郑州大学自然语言处理实验室 1.3 百度百科(2/4) 2 T(w)+S(w)+W(w) 例如:“澳大利亚”的百科内容中: 澳大利亚联邦(The Commonwealth of Australia)简称澳大利亚(Australia)。 以上内容中T(w):澳大利亚联邦,S(w):简称,W(w):澳大利亚 郑州大学自然语言处理实验室 1.3 百度百科(3/4) 3 W(w)+T(w)+S(w) 例如:“牦牛”的百科内容中: 牦牛....有“高原之舟”之称。 以上内容中W(w):牦牛,T(w):高原之舟,S(w):之称。 郑州大学自然语言处理实验室 1.3 百度百科(4/4) 4 W(w)和T(W)是同义词,已合并。 例如:“奥林匹克村”百度百科中内容: 奥林匹克村和奥运村是同义词,已合并。 以上内容中W(w):奥林匹克村

文档评论(0)

kehan123 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档