- 454
- 0
- 约4.06万字
- 约 37页
- 2019-07-16 发布于天津
- 举报
现代汉语句法结构分析器及
语言知识库调试环境
技术文档
詹卫东* 刘群+
* 北京大学中文系 北京大学中国语言学研究中心
+ 中科院计算技术研究所
1
目 录
1 程序文件及界面3
1.1 程序文件3
1.2 程序界面4
2 句法分析模块8
2.1 微引擎流水线分析模式8
2.2 公共数据结构及算法描述9
2.3 节点评分机制11
2.4 参数设置13
3 语言知识库管理模块17
3.1 语言模型17
3.2 词典18
3.3 规则库19
4 句法分析过程跟踪模块20
4.1 记录句法分析的中间过程20
4.2 设置断点监测规则合一失败的原因21
5 语言知识的形式化表达23
5.1 关键字23
5.2 描述语言知识的基本形式24
5.2.1 原子24
5.2.2 特征结构26
5.2.3 树和森林27
5.2.4 约束28
5.2.5 析句规则34
6 语言知识调试举例36
6.1 词库知识调试举例36
6.2 规则库知识调试举例36
2
1 程序文件及界面
1.1 程序文件
现代汉语句法分析器及语言知识库调试环境(An Integrated Development Environment
for Unifcation-based Chinese Grammar ,以下简称 IDE-UCG )运行时需要的文件分为4 类:
(1)主程序及参数配置文件;(2 )语言知识库文件;(3 )程序运行期间文件(为知识库调
试的目的设置);(4 )输入输出文件。详细内容如下表所示:
表 1.1 – 1: ICGDE 程序文件列表
类别 文件名称 功能说明
(1) TestParserDoc.exe 句法分析主程序
主程序及 TestParserDoc.ini 句法分析程序参数配置文件,必须与主程序在同一目录下
参数配置 Slex.dll 分词与词性标注程序模块(参见 2.1 )
文件
(2 ) Kbase\model\*.* 语言模型文件
语言知识 Model.txt 为可编辑的文本文件,Model.dat 为二进制文件(两
库文件 文件在 Kbase\model 目录下)
Kbase\dictn\*.* 词典文件
Dictn.txt 为可编辑的文本文件,Dictn.TAT 为编译后的二进制
文件,Dictn.TDX 为二进制索引文件(三文件在 Kbase\dictn
目录下)
Kbase\dictnref\*.* 扩充词典文件
Dictnref.txt 为可编辑的文本文件,Dictnref.TAT 为编译后的二
进制文件,Dictn
您可能关注的文档
- 海南师范大学课堂教学规范.doc
- 海口华兴学校导学案.doc
- 海南省申请新增学士学位.doc
- 海水淡化技术研究进展及展望.PDF
- 海底管道泄漏快速封堵试验.PDF
- 消费购物,再也不用东奔西跑啦!.doc
- 涉案财物价格鉴证程序.doc
- 液化石油气组成色谱分析技术探讨.PDF
- 消防战士田思嘉在救火时英勇牺牲我校毕业生、.PDF
- 液相色谱-串联质谱检验方法.PDF
- 三年级下册语文1-8单元默写通关训练(含答案)(2).docx
- 2026年及未来5年市场数据中国金属钒市场发展规划及投资战略可行性预测报告.docx
- 2026年及未来5年市场数据中国金属工艺品行业全景调研及投资可行性报告.docx
- 2026年及未来5年市场数据中国金属家具市场分析及投资战略研究预测可行性报告.docx
- 2026年及未来5年市场数据中国金属膜电阻器行业市场需求预测与投资战略规划分析报告.docx
- 2026年及未来5年市场数据中国金银花行业市场发展战略分析及投资前景专项预测报告.docx
- 2026年及未来5年市场数据中国金银花行业市场研究及投资战略预测报告.docx
- 2026年及未来5年市场数据中国抗氧化剂市场专项调查分析及投资前景预测报告.docx
- 2026年及未来5年市场数据中国救护车市场运行格局及投资战略研究报告.docx
- 2026年及未来5年市场数据中国精细化工行业发展前景预测及投资分析报告.docx
原创力文档

文档评论(0)