- 14
- 1
- 约3.63千字
- 约 17页
- 2017-02-14 发布于北京
- 举报
基于规则的蒙古语依存句法分析模型.ppt
基于规则的蒙古语依存句法分析模型 斯·劳格劳 内蒙古大学蒙古学学院 2013.05.11 1.引言 内蒙古大学蒙古语文研究所用8年(1984——1991)的时间构建了100万词级现代蒙古语语料库,并通过两次扩充达到了1000万词的规模。在语料库加工方面,已经完成了100万词级语料库的词性标注和复合词处理,也进行了短语标注、句子切分和谓语段自动识别等浅层句法分析。目前,正在进行完全句法分析和语义角色标注方面的研究,并且通过自动分析和人工校对构建了50万词级的蒙古语依存树库MDTB( Mongolian Dependency Tree Bank) ,本文所介绍的基于规则的依存句法分析器正是建设MDTB时采用的句法分析方法。 2.规则描述体系(1/2) 本文参考英语、德语、汉语等语言的基于规则的句法分析算法,针对蒙古语富含形态变化的特点,提出了基于复杂特征和合一运算的蒙古语依存句法分析规则描述体系(如图所示)。 2.规则描述体系(2/2) 静态特征可以是词类、子类以及形态变化等信息。其中,词类和子类信息可以通过查词典获得。对于兼类词,本文为两千多个词归纳了相关的识别规则。形态特征可以通过一个基于有限状态自动机的识别算法来获得。动态特征是已完成的局部分析结果中的句法结构特征,包括父节点、子孙节点、兄弟节点以及线性结构上的邻接节点的依存关系类型、关系数目以及线性距离、当前节点所处的句法片段的位置等动态信息,这些信息可以用一组函数来获得。 在规则中,节点的约束条件是根据约束需要而加的,不是每条规则均有上下文有关的约束限制。 3.蒙古语依存关系识别规则 3.1 句子切分规则 (1) 以句号、问号和感叹号为标志来切分句子。 (2) 从已切分的句子中分离出插入句。 (3) 复原错误的切分结果。 3.蒙古语依存关系识别规则 3.2 句法片段识别 对蒙古语而言,句子长度对句法分析的准确率同样有着很大的影响,通过下面的分析图我们可以看出这一点。 3 蒙古语依存关系识别规则 3.2句法片段识别 在蒙古语句法片段的切分中,逗号、动词、连接词和语气词是主要标志信息,我们对训练语料进行统计分析后总结了下面的5条切分规则。 (1)如果句中遇到逗号,从逗号后面切分为两个片段; (2)如果句中出现连接形式(包括联系动词),从连接形式前面切分为两个片段; (3)如果遇到“动词+静词”时,则继续判断静词是否为辅助成分,如果是,则从辅助成分后面(包括连续的几个辅助成分)切分为两个片段,如果不是,则从动词后面切分为两个片段; (4)遇到“动词+动词”时,如果后面的动词为助动词,或前面的动词为单纯连接副动词时不能切分,否则从两个动词中间切分为两个片段; (5)语气词后面如果有实义词,则从实义词前面切分为两个片段。 3.蒙古语依存关系识别规则 3.2句法片段识别 规则代码中的序号表示优先次序,对句子进行片段切分时先用标号低的规则,然后在局部切分的结果中再次使用标号较高的规则。按规则切分的结果可能是分句、成分句、短语或单词,因为这种切分方法不是为了识别句子层次结构而引入的,只是在分析过程中采用的一种降低难度的处理手段。 句法片段的识别规则对并列复合句的处理是合理的,而处理中间位置的成分句时可能把主句的一些成分划入成分句。对于此问题,我们采用了针对性的后处理策略,在形成完整的句法树之后,检查每个句法片段中的主语、前置状语等成分,如果这些成分的结构特征满足后调整算法中的某条规则,则进行剪枝处理。 3.蒙古语依存关系识别规则 3.3 蒙古语依存关系识别规则 3.3.1 片段内依存关系识别规则 蒙古语依存关系识别规则集由体术关系、定体关系、直接宾述关系、间接宾述关系、状述关系、辅助关系和联合关系识别规则等七大类两百余条规则构成。 3.蒙古语依存关系识别规则 规则调用举例: 下面是对蒙古文句子“[]CIMED NEBTERETEL_E N0R0GSAN-IYAN MARTAJAI .” (其木德忘了自己已被淋透。)分析过程中某一时刻的分析结果,如图所示。 3.蒙古语依存关系识别规则 规则调用举例: 下一步的分析将在①和②、 ①和③、 ①和④三个词对之间进行。经过分析三个词对的静态特征和动态特征,①和④满足subj-R01的约束条件。其中,①的静态特征为:名词、人名、主格形式;④的静态特征为:普通动词。动态特征为④没有主语,并且没有父节点。 3.蒙古语依存关系识别规则 3.3 蒙古语依存关系识别规则 3.3.2 片段之间依存关系识别规则 通过上面的片段切分和段内依存关系的识别,为每个句子构造了若干个子树。子树之间可能存在体述、定体、宾述、状述或并列等依存关系。一般情况下句法片段都是通过核心词产生依存关系。只是核心词为形动词时,该片段可能修饰后一个片段的第一
您可能关注的文档
- 含英咀华 品味经典.ppt
- 呐喊(第七讲).ppt
- 哥白尼的故事.ppt
- 四 古希腊三大几何问题的解决ppt.ppt
- 团体辅导活动 - 成长博客博客教育博客教师博客学生博客.ppt
- 团队建设管理 - 纳税服务网--财税服务专业顾问网.ppt
- 团队精神 企业真正的核心竞争力.ppt
- 团队训练 - 山东大学(威海)大学生科技创新中心.ppt
- 国家企业薪酬调查与信息发布制度主要指标解释.ppt
- 国家重大基础研究报告 - 中国励磁专业网.ppt
- 浙江省温州市2024-2025学年七年级上学期语文期末考查卷.docx
- 精品解析:北京市建华实验学校2024-2025学年七年级下学期期中英语试题(原卷版).docx
- 精品解析:北京市通州区2024-2025学年七年级下学期期末考试英语试卷(原卷版).docx
- 精品解析:北京市回民学校2024-2025学年九年级上学期期中语文试题(解析版).docx
- 精品解析:北京市海淀区2025-2026学年九年级上学期期末语文试题(解析版).docx
- 精品解析:北京市东城区汇文中学2025-2026学年八年级上学期期中语文试题(原卷版).docx
- 精品解析:北京市回民学校2024-2025学年九年级上学期期中语文试题(原卷版).docx
- 精品解析:2024-2025学年广东省广州市从化区街口镇中心小学人教版五年级上册期中测试数学试卷(解析版).docx
- 精品解析:北京市通州区2024-2025学年七年级下学期期末考试英语试卷(解析版).docx
- 精品解析:北京市建华实验学校2024-2025学年七年级下学期期中英语试题(解析版).docx
最近下载
- 安徽财经大学《思想道德与法治》2021–2022学年期末试卷.pdf VIP
- 宋庆龄的故居课件.pptx VIP
- 小学数学新苏教版三年级下册 年、月、日的秘密 第2课时 年、月、日知识知多少 教学课件(2026春).pptx VIP
- 镜鞘类器械的清洗处理流程及损坏原因分析.pptx VIP
- 安徽财经大学《思想道德与法治》2016-2017学年期末试卷.pdf VIP
- 2026考研政治真题及详解.pdf
- DL_T 802.7-2023 电力电缆导管技术条件 第7部分:非开挖用塑料电缆导管.pdf VIP
- 有色金属矿山排土场设计规范.pdf VIP
- 宋代医书印刷传播.docx VIP
- 2023-2024学年浙江省绍兴市柯桥区统编版四年级上册期末考试语文试卷[含答案] .pdf VIP
原创力文档

文档评论(0)