坚持构建汉语框架语义网%2c开展汉语分析模型与方法的研究论文.pdfVIP

坚持构建汉语框架语义网%2c开展汉语分析模型与方法的研究论文.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
坚持构建汉语框架语义网,开展汉语 分析模型与方法的研究 刘开瑛 李茹 山西大学计算机与信息技术学院 目录 1 继续构建汉语框架语义网(CFN) 2 开展现代汉语句子的语义角色自动标注 3 研究在标注语料库基础之上汉语分析模型 4 1、继续构建汉语框架语义网(CFN) 框架语义学(Frame Semantics)是由Fillmore提出的研 究词语意义和句法结构意义的一种理论方法,即试图用经 验主义方法,寻找语言和人类经验之间的紧密关系,并研 究一种可行的描述方式,表示这种关系。 FrameNet 是由Fillmore亲自主持的一个基于语料库的 计算词典编纂工程,截至2008年3月,共收录10,000词元, 构建了825个框架,其中6,100个词元完成了例句标注,共 标注了13.5万例句的框架语义信息。许多国家的学者尝试 建立与FrameNet并行的词典,包括德语、日语、西班牙语、 希伯莱语等 。 • 山西大学选择了Fillmore的框架语义学作为理论基础,以 FrameNet为参照 ,以汉语语料事实为依据,经过2003年至 2006年几年努力,构建了一个以有限词语集合为描述对象的汉 语框架语义网(CFN),其中,对汉语1760个词元(一个义项下 的一个词)构建了130个框架,标注了8200条句子 。2006年10 月由倪光南院士主持进行了科技成果鉴定。鉴定结论为:该课题 在信息处理用汉语框架语义研究领域中达到了国际领先水平 。 • 近三年来,课题组构建了300个框架,研究汉语多义词和高 频词语框架表示方式,对CFN在旅游领域应用开始探索工作 。 • CFN 由框架库、句子库和词元库三部分组成。框 架库以框架为单位,对词语进行分类描述,明确给 出框架的定义和这些词语共有的语义角色即框架元 素,并描述该框架和其他框架之间的概念关系;句 子库包含带有框架语义标注信息的句子,即按照框 架库所提供的框架和框架元素类型,标注句子的框 架语义信息和句法信息;词元库记录词元的语义搭 配模式和框架元素的句法实现方式。 2、开展现代汉语句子的语义角色自动标注 技术路线是:先语义后句法。 提出了一种用层叠条件随机场模型进行汉 语框架元素自动标注方法。该方法在低层条件 随机场模型中解决了框架元素识别,将识别结 果传递到上层短语类型识别的条件随机场模 型,再将识别结果传递到上层句法功能识别的 条件随机场模型。 从CFN语料库中选取了“包含”“陈述”“拥有”“属于某类”“研 究”“提供”“适宜性”等十多个汉语框架,自动标注结果的准 确率为80.1%,召回率为69.9%与D. Gildea等的英语框架元 素的自动标注结果的准确率是65%,召回率是61%相比较, 取得了明显的提高。基于条件随机场模型参数估计,框架 元素边界识别,框架语义角色分类将是我们下一步研究的 重点。 • 以“陈述”框架的自动标注为例,介绍CFN的框架元素 自动标注的步骤。 • “陈述”框架下的核心框架元素有媒介(medium)、信 息(msg)、说话者(spkr),非核心框架元素有听话者 (add) 、关涉(top) 、致因(cau) 、程度(degr) 、形容 (depic) 、修饰(manr) 、时间(time)。“陈述”框架下 句子库中的句子数为1393句,按5:5的比例分为训练集和 测试集进行自动标注。 • 实验中第一层标注是直接以句子中的词、词性和相对于目标词的位置 作为输入,确定词语相对标记块的边界信息和框架元素;第二层在第 一层标注的基础上进行的短语类型标注;第三层在前两层标注的基础 上进行句法功能标注。 • 即输入: 于友先 nhh tgt=[陈述] 概述 v 了 u 我国 n 著作权 n 保护 v 的 u 新 aq 进展 v 。 w • 输出: spkr-np-subj 于友先 nhh tgt=[陈述] 概述 v null 了 u msg-np-obj 我国 n 著作权 n 保护 v 的 u 新 aq 进展 v 。 w “陈述”框架的框架元素自动标注结果

文档评论(0)

bb213 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档