现代汉语句法结构分析器及.PDFVIP

  • 454
  • 0
  • 约4.06万字
  • 约 37页
  • 2019-07-16 发布于天津
  • 举报
现代汉语句法结构分析器及 语言知识库调试环境 技术文档 詹卫东* 刘群+ * 北京大学中文系 北京大学中国语言学研究中心 + 中科院计算技术研究所 1 目 录 1 程序文件及界面3  1.1 程序文件3  1.2 程序界面4  2 句法分析模块8  2.1 微引擎流水线分析模式8  2.2 公共数据结构及算法描述9  2.3 节点评分机制11  2.4 参数设置13  3 语言知识库管理模块17  3.1 语言模型17  3.2 词典18  3.3 规则库19  4 句法分析过程跟踪模块20  4.1 记录句法分析的中间过程20  4.2 设置断点监测规则合一失败的原因21  5 语言知识的形式化表达23  5.1 关键字23  5.2 描述语言知识的基本形式24  5.2.1 原子24  5.2.2 特征结构26  5.2.3 树和森林27  5.2.4 约束28  5.2.5 析句规则34  6 语言知识调试举例36  6.1 词库知识调试举例36  6.2 规则库知识调试举例36  2 1 程序文件及界面 1.1 程序文件 现代汉语句法分析器及语言知识库调试环境(An Integrated Development Environment for Unifcation-based Chinese Grammar ,以下简称 IDE-UCG )运行时需要的文件分为4 类: (1)主程序及参数配置文件;(2 )语言知识库文件;(3 )程序运行期间文件(为知识库调 试的目的设置);(4 )输入输出文件。详细内容如下表所示: 表 1.1 – 1: ICGDE 程序文件列表 类别 文件名称 功能说明 (1) TestParserDoc.exe 句法分析主程序 主程序及 TestParserDoc.ini 句法分析程序参数配置文件,必须与主程序在同一目录下 参数配置 Slex.dll 分词与词性标注程序模块(参见 2.1 ) 文件 (2 ) Kbase\model\*.* 语言模型文件 语言知识 Model.txt 为可编辑的文本文件,Model.dat 为二进制文件(两 库文件 文件在 Kbase\model 目录下) Kbase\dictn\*.* 词典文件 Dictn.txt 为可编辑的文本文件,Dictn.TAT 为编译后的二进制 文件,Dictn.TDX 为二进制索引文件(三文件在 Kbase\dictn 目录下) Kbase\dictnref\*.* 扩充词典文件 Dictnref.txt 为可编辑的文本文件,Dictnref.TAT 为编译后的二 进制文件,Dictn

文档评论(0)

1亿VIP精品文档

相关文档