汉语语文辞书的数据建模.PPTVIP

  • 0
  • 0
  • 约1.74千字
  • 约 10页
  • 2019-05-03 发布于天津
  • 举报
汉语语文辞书的数据建模 中国社会科学院语言研究所 汉语语文辞书的数据建摸 汉语语文辞书的特点 汉语语文辞书的文体特点 辞书文本和数据结构 辞书数据的XML Schema结构模型 基于XML的辞书数据检索 基于XML的辞书数据输出 汉语语文辞书的特点 传播知识、承传文化的工具:在科学技术和人文社会科学的发展过程中,辞书具有不可或缺的作用。 历史悠久:近两千年的历史,是文字学、音韵学、训诂学、字典学、历史学、考古学等学术领域不可或缺的重要典籍,也是研究中国古代历史文化、考释古文字和规范今文字的重要依据。 种类繁多,读者广泛:海内外使用者数以亿计,担当着传承中华文化的重要使命。 信息丰富:从语言研究的角度看,汉语语文辞书里蕴涵着大量系统的汉语文字、语音、词汇、句法、语义、修辞、语用等信息,为语言研究和语言工程提供了丰富的数据资源。 汉语语文辞书的文体特点  文本风格:语文辞书的印刷体形式是文本格式的,与通常的文本文档不同的是,语文辞书在为读者提供查索、释疑的过程中逐渐形成了一套特定的语言风格和表述方式:释义客观、严谨、简明,按照统一的模式和顺序组织词条,使用统一的缩略语或符号表达词语属性。  应用规则:每一部语文辞书都会在卷首用《凡例》对所用的表述方法给予基本的文字说明。虽然这些说明还不能算作严格意义上的规则,但也基本上能够使辞书具有半结构化数据的文本特征,这就为辞书的语言数据处理提供了基础。 汉语语文辞书结构化处理 数据的描述和组织:   描述语言数据的表现形式和其中蕴涵的语言知识,把语言数据组织成各种形式的数据结构。 数据建摸:   采用XML Schema描述汉语辞书的文本结构和词条结构,根据词条的形式化描述规则对辞书文本作XML标注,使辞书能够转换成词汇数据库,支持各种检索并且生成表层文档。 辞书文本和数据结构 辞书的基本单位-词条:词条含有音、形、义、用法等各种属性。属性可以从词典《凡例》的文字说明当中归纳出来,也可以在词典所含信息的范围内,对词条的信息进行分解,根据词条查考、语言研究和语言工程的需要来定义。 辞书数据结构-词条:我们用树形结构来描述一部词典,树中的第一层节点是词条,辞书文本由众多词条组成。每个词条的下位节点有两个:条目和条目描述。我们主要根据《现代汉语词典》(商务印书馆),同时参考《现代汉语规范词典》(外语教学与研究出版社、语文出版社)和《汉语应用词典》(商务印书馆)来描述词条的结构。 辞书数据的XML Schema结构模型 辞书数据结构-词条:参考不同辞书,根据辞书的查考、语言学研究、语言工程的需求对辞书结构、文体、使用规则等进行分析、解析、归纳、汇集。 辞书数据的XML Schema结构模型 辞书数据结构-词条-条目-字形词形 辞书数据的XML Schema结构模型 辞书结构-词条-条目-字音词音 辞书数据的XML Schema结构模型 辞书结构-词条-条目描述 辞书数据的XML Schema结构模型 辞书结构-词条-条目描述-分义项和外语对应词 辞书数据的XML Schema结构模型-实例 基于XML的辞书数据检索 检索对象:   所有节点和元素都可以成为检索和统计的对象 检索内容:   节点名、元素名、元素的合法取值 操作逻辑:   “等于”、“包含”、“大于”、“小于”等 统配符:前、后忽略、忽略字符个数等 基于XML的辞书数据输出 输出方式:   采用XML的XSLT为辞书数据建立输出格式,根据不同的XML Schema模型可以建立不同的XSLT输出格式。可以按照使用者的不同需要,或者根据不同输出设备的特点来设计辞书数据的输出格式,既可以保持辞书原来的印刷格式,也可以选择新的格式。 XML辞书文本数据检索并以辞书文本风格输出实例   经过一定范围的测试,目前的XML Schema数据模型可以描述《现代汉语词典》,对《现代汉语规范词典》和《汉语应用词典》也基本上能够适用。为了提高数据模型的通用性,还需要处理更多的汉语语文辞书。同时也要在数据模型的框架下,对尽可能多的汉语语文辞书作XML标注,扩大辞书数据库的规模,支持各种辞书数据的检索、统计和输出。 结束语 谢谢!

文档评论(0)

1亿VIP精品文档

相关文档