的理论与方法中文概念词典(CCD).pptVIP

  • 35
  • 0
  • 约3.47千字
  • 约 19页
  • 2017-08-12 发布于天津
  • 举报
的理论与方法中文概念词典(CCD).ppt

中文概念词典的研究与开发 刘 扬 北京大学计算语言学研究所 Nov 13, 2005 报告提纲 WordNet(WN)的理论与方法 中文概念词典(CCD) vs. WordNet CCD研究与开发的实践 “热”问题的“冷”思考 报告提纲 WordNet(WN)的理论与方法 中文概念词典(CCD) vs. WordNet CCD研究与开发的实践 “热”问题的“冷”思考 WordNet(WN)的理论与方法 从词法分析、句法分析到语义分析 语义分析 vs. 概念 vs. 知识本体(Ontology) 如何表征概念?语义分析、计算的基础在哪里? Princeton大学WordNet的理论与方法 概念:由同义词集(Synset)来表示,概念即同义词集 {教师、教员、老师、先生、师傅、师爷、孩子王、臭老九、阿姨、导师、老板} 知识本体:概念及概念之间多种语义关系,形成概念网络 一个高度形式化的、通用/跨语言的知识表示方法 HowNet 对词义的内涵式定义:意在定义,关注个体,建立在义素分析及格语法上 WordNet对词义的外延式定义:意在区分,关注系统,建立在词义系统结构分析上 比如,添加一个词的新义项/概念,只需…… 一个可以对语义进行分析、计算的基础,一个形-义系统 WordNet(WN)的理论与方法 WordNet(WN)的理论与方法 WordNet(WN)的理论与方法 WordNet(WN)的理论与方法 WordNet家族(WordNets)的发展 George A. Miller等人于1985启动语言工程 描述开放词类:名、动、形、副词概念 描述语义关系:同义, 反义, 上下位, 整体部分, 致使, 蕴涵, 属性 1997年PWN 1.6含99,642 个概念、238,442个语义关系 双语WN(bilingual WN) 、多语WN(multilingual WN) WN国际组织和国际会议(GWA02, GWA04, GWA06, …) Google上1,190,000项研究与应用WordNet的检索内容 目前,NLP领域最重要的公用语义资源 报告提纲 WordNet(WN)的理论与方法 中文概念词典(CCD) vs. WordNet CCD研究与开发的实践 “热”问题的“冷”思考 中文概念词典(CCD) vs. WordNet CCD: Chinese Concept Dictionary CCD作为一个双语WordNet 提供汉英双语的概念对应 可以直接复用现有的WordNet的理论、方法、技术 全球WordNet资源建设的组成部分 CCD不仅仅是双语WordNet 必须反映汉语的实际情况,对中文信息处理有切实帮助 对概念、概念关系的调整和发展 增添汉语特有的语义属性和特征 涉及对PWN的复杂结构的调整和规划 分类原则、概念粒度等 报告提纲 WordNet(WN)的理论与方法 中文概念词典(CCD) vs. WordNet CCD研究与开发的实践 “热”问题的“冷”思考 CCD研究与开发的实践 构造双语WordNet的难点分析 两类不同的知识体系和概念映射 大规模的复杂双子网结构(105概念节点、106语义关系) 双语词典如何演化 实用、高效的双语WordNet的构造模型 强调双语词典的演化 强调双语词典构造中的继承与转换(复用与调整) 模型特点 演化模型 通用的双语WordNet解决方案(与特定语言无关) CCD研究与开发的实践 实现演化模型的辅助构造软件 实现继承:WN语义信息抽取 上下位关系形成的树结构 树结构信息编码(例如“005001002”)的可计算性 优化搜索算法 二路扫描过程( two-way scanning process) 收集过滤编码过程( gathering, sieving encoding process ) 实现转换:可视化的、数据敏感的语义树及其操作 可用的语言资源与计算方法(内容的改变:机器+人工的方式) 词典:汉英、英汉、 现汉、词林、语法词典、语义词典、SUMO、HowNet 等 语料库:动态词汇语义知识获取,如共现与搭配、聚类等 可视化的、数据敏感的语义树及其操作(结构的改变:纯人工的方式) 节点添加、修改、删除 子树迁移 CCD研究与开发的实践 CCD研究与开发的实践 CCD与WordNet概念对应的3条语义原则 成词及词性原则 *the group following and attending to some important person {cortege retinue suite entourage} {随从 随员 左右 跟随 随行人员} 准确性原则 *a very attractive or seductive looking

文档评论(0)

1亿VIP精品文档

相关文档