基于词典和WEB资源的词汇关系抽取范庆虎昝红英张坤丽贾玉祥郑州
5 实验结果 5.1 同义词结果 郑州大学自然语言处理实验室 宏平均准确率 宏平均召回率 宏平均F1值 微平均准确率 微平均召回率 微平均F1值 ZZU1 0.2975 0.6423 0.3598 0.2530 0.6792 0.3687 ZZU2 0.3256 0.6961 0.3927 0.2541 0.7072 0.3738 MAX 0.3588 0.6961 0.3984 0.3025 0.7072 0.4106 5 实验结果 5.2 下位词结果 郑州大学自然语言处理实验室 宏平均准确率 宏平均召回率 宏平均F1值 微平均准确率 微平均召回率 微平均F1值 ZZU1 0.5603 0.3321 0.3742 0.6492 0.3518 0.4563 ZZU2 0.6119 0.5988 0.5605 0.6233 0.5045 0.5576 MAX 0.6119 0.5988 0.5605 0.7827 0.5045 0.5596 谢谢大家 郑州大学自然语言处理实验室 * * * 郑州大学自然语言处理实验室 郑州大学自然语言处理实验室 郑州大学自然语言处理实验室 郑州大学自然语言处理实验室 郑州大学自然语言处理实验室 郑州大学自然语言处理实验室 郑州大学自然语言处理实验室 基于词典和WEB资源的词汇关系抽取 范庆虎 昝红英 张坤丽 贾玉祥 郑州大学自然语言处理实验室 词汇关系大纲 引言 同义词抽取资源 中文概念词典(CCD) 哈工大同义词词林(扩展版) 百度百科 百度翻译+有道翻译 同义词抽取流程 下位词抽取资源 中文概念词典(CCD) 百度百科 互动百科 维基百科 百度相关搜索 下位词抽取流程 实验结果 郑州大学自然语言处理实验室 引言 同义词和下位词的发现在自然语言处理领域中对信息检索,机器翻译等领域的研究有重要的意义。 传统的同义词和下位词的发现是基于词典知识库,如中文概念词典,同义词词林等知识库。 随着Web的发展,网络上出现了大量的资源知识库。例如“百度百科”、“有道翻译”、“维基百科”等Web资源。 把传统的词典和Web资源各自优势进行结合,将会更加有效的抽取词汇关系。 郑州大学自然语言处理实验室 1 同义词抽取资源 中文概念词典(CCD) 哈工大同义词词林(扩展版) 百度百科 百度翻译+有道翻译 郑州大学自然语言处理实验室 1.1 中文概念词典(CCD) CCD是一个WordNet类型的汉英双语语义词典,从关系语义学的观点出发,以同义词集(Synset)定义概念(concept),在概念之间定义关系(relation)来描述语义 郑州大学自然语言处理实验室 1.2 哈工大同义词词林 《同义词词林(扩展版)》在原有的三层分类体系上增加两层,得到最终过的五层分类体系,唯一的代表词典中出现词语的编码如: Ba01A02= 物质 质 素Cb02A01= 东南西北 四方Ba01A03@ 万物Cb06E09@ 民间Ba01B08# 固体 液体 气体 流体 半流体Ba01B10# 导体 半导体 超导体以上词语编码中第八位编码的标记“=”、“@”、“#”,“=”代表“相等”、“同义”,“@”代表“自我封闭”,“#”代表“不等”、“同类”。 郑州大学自然语言处理实验室 1.3 百度百科(1/4) 根据特征词进行模式识别,其中查询词用W(w),特征词用S(w)表示,其在百科中的同义词用T(w)表示,抽取的模式有: 1 W(w)+S(w)+T(w) 例如:“埃菲尔铁塔”百科中内容: 埃菲尔铁塔(又译“艾菲尔铁塔”)是法国巴黎著名铁塔,坐落在塞纳河南岸马尔斯广场的北端。 以上内容中查询词W(w):“埃菲尔铁塔”,特征词S(w):“又译”,同义词T(w):“艾菲尔铁塔” 郑州大学自然语言处理实验室 1.3 百度百科(2/4) 2 T(w)+S(w)+W(w) 例如:“澳大利亚”的百科内容中: 澳大利亚联邦(The Commonwealth of Australia)简称澳大利亚(Australia)。 以上内容中T(w):澳大利亚联邦,S(w):简称,W(w):澳大利亚 郑州大学自然语言处理实验室 1.3 百度百科(3/4) 3 W(w)+T(w)+S(w) 例如:“牦牛”的百科内容中: 牦牛....有“高原之舟”之称。 以上内容中W(w):牦牛,T(w):高原之舟,S(w):之称。 郑州大学自然语言处理实验室 1.3 百度百科(4/4) 4 W(w)和T(W)是同义词,已合并。 例如:“奥林匹克村”百度百科中内容: 奥林匹克村和奥运村是同义词,已合并。 以上内容中W(w):奥林匹克村
您可能关注的文档
- 基于SVR的人脸特征点自动标定报告人刘银2012年05月23日.PPT
- 基于光纤光栅的新传感器.doc
- 基于单总线的测温传感器DSB.ppt
- 基于对象的分布式系统122CORBACORBA的总体结构.PPT
- 基于波形数字化ASIC的高精度时间测量-Indico.PPT
- 基于群智能的复杂联盟机制研究-多agent系统与智能决策研究室.PPT
- 基于课标的概率与统计.PPT
- 基于运动波理论和静电传感器诊断矿用液压系统故障.DOC
- 基于过程创新的vb程序设计.DOC
- 基因重组遗传变异.PPT
- 广东省广州省实验中学教育集团2025-2026学年八年级上学期期中考试物理试题(解析版).docx
- 广东省广州大学附属中学2025-2026学年八年级上学期奥班期中物理试题(解析版).docx
- 广东省广州市第八十六中学2025-2026学年八年级上学期期中物理试题(含答案).docx
- 广东省广州市第八十九中学2025-2026学年八年级上学期期中考试物理试题(解析版).docx
- 广东省广州市第二中学2025-2026学年八年级上学期期中考试物理试题(含答案).docx
- 广东省广州市第八十六中学2025-2026学年八年级上学期期中物理试题(解析版).docx
- 广东省广州市第八十九中学2025-2026学年八年级上学期期中考试物理试题(含答案).docx
- 广东省广州市第二中学2025-2026学年八年级上学期期中考试物理试题(解析版).docx
- 2026《中国人寿上海分公司营销员培训体系优化研究》18000字.docx
- 《生物探究性实验教学》中小学教师资格模拟试题.docx
最近下载
- 2023年浙江省公务员考试行测真题及答案(A卷).doc VIP
- 2025年河北对口医学题库及答案.doc VIP
- 餐饮美学基础 课件 模块四 餐厅民俗美学.pptx
- (山东)建筑与结构工程施工资料表格汇编(鲁JJ001-074).pdf VIP
- 餐饮美学基础 课件 模块三 餐厅环境美学.pptx
- 2025年长沙电力职业技术学院单招笔试职业技能考核试题库含答案解析.docx VIP
- 雷克萨斯-Lexus NX-产品使用说明书-NX200-ZGZ10L-AWXLPC2-NX200NX200t_OM78064C_01-1412-001.pdf VIP
- 小学语文五年级第二学期第二单元整体作业设计.docx
- 外研版小学英语(三年级起点)三年级上册Module2-Unit1同步检测.doc VIP
- 2025年河南省平顶山市中考生物试卷(含答案).pdf
原创力文档

文档评论(0)