汉语语文辞书的数据建模.PPTVIP

下载本文档

0
0
约1.74千字
约 10页
2019-05-03 发布于天津
举报

汉语语文辞书的数据建模.PPT

汉语语文辞书的数据建模中国社会科学院语言研究所汉语语文辞书的数据建摸汉语语文辞书的特点汉语语文辞书的文体特点辞书文本和数据结构辞书数据的XML Schema结构模型基于XML的辞书数据检索基于XML的辞书数据输出汉语语文辞书的特点传播知识、承传文化的工具：在科学技术和人文社会科学的发展过程中，辞书具有不可或缺的作用。历史悠久：近两千年的历史，是文字学、音韵学、训诂学、字典学、历史学、考古学等学术领域不可或缺的重要典籍，也是研究中国古代历史文化、考释古文字和规范今文字的重要依据。种类繁多，读者广泛：海内外使用者数以亿计，担当着传承中华文化的重要使命。信息丰富：从语言研究的角度看，汉语语文辞书里蕴涵着大量系统的汉语文字、语音、词汇、句法、语义、修辞、语用等信息，为语言研究和语言工程提供了丰富的数据资源。汉语语文辞书的文体特点　文本风格：语文辞书的印刷体形式是文本格式的，与通常的文本文档不同的是，语文辞书在为读者提供查索、释疑的过程中逐渐形成了一套特定的语言风格和表述方式：释义客观、严谨、简明，按照统一的模式和顺序组织词条，使用统一的缩略语或符号表达词语属性。　应用规则：每一部语文辞书都会在卷首用《凡例》对所用的表述方法给予基本的文字说明。虽然这些说明还不能算作严格意义上的规则，但也基本上能够使辞书具有半结构化数据的文本特征，这就为辞书的语言数据处理提供了基础。汉语语文辞书结构化处理数据的描述和组织：　　描述语言数据的表现形式和其中蕴涵的语言知识，把语言数据组织成各种形式的数据结构。数据建摸：　　采用XML Schema描述汉语辞书的文本结构和词条结构，根据词条的形式化描述规则对辞书文本作XML标注，使辞书能够转换成词汇数据库，支持各种检索并且生成表层文档。辞书文本和数据结构辞书的基本单位－词条：词条含有音、形、义、用法等各种属性。属性可以从词典《凡例》的文字说明当中归纳出来，也可以在词典所含信息的范围内，对词条的信息进行分解，根据词条查考、语言研究和语言工程的需要来定义。辞书数据结构－词条：我们用树形结构来描述一部词典，树中的第一层节点是词条，辞书文本由众多词条组成。每个词条的下位节点有两个：条目和条目描述。我们主要根据《现代汉语词典》（商务印书馆），同时参考《现代汉语规范词典》（外语教学与研究出版社、语文出版社）和《汉语应用词典》（商务印书馆）来描述词条的结构。辞书数据的XML Schema结构模型辞书数据结构－词条：参考不同辞书，根据辞书的查考、语言学研究、语言工程的需求对辞书结构、文体、使用规则等进行分析、解析、归纳、汇集。辞书数据的XML Schema结构模型辞书数据结构－词条－条目－字形词形辞书数据的XML Schema结构模型辞书结构－词条－条目－字音词音辞书数据的XML Schema结构模型辞书结构－词条－条目描述辞书数据的XML Schema结构模型辞书结构－词条－条目描述－分义项和外语对应词辞书数据的XML Schema结构模型－实例基于XML的辞书数据检索检索对象：　　所有节点和元素都可以成为检索和统计的对象检索内容：　　节点名、元素名、元素的合法取值操作逻辑：　　“等于”、“包含”、“大于”、“小于”等统配符：前、后忽略、忽略字符个数等基于XML的辞书数据输出输出方式：　　采用XML的XSLT为辞书数据建立输出格式，根据不同的XML Schema模型可以建立不同的XSLT输出格式。可以按照使用者的不同需要，或者根据不同输出设备的特点来设计辞书数据的输出格式，既可以保持辞书原来的印刷格式，也可以选择新的格式。 XML辞书文本数据检索并以辞书文本风格输出实例　　经过一定范围的测试，目前的XML Schema数据模型可以描述《现代汉语词典》，对《现代汉语规范词典》和《汉语应用词典》也基本上能够适用。为了提高数据模型的通用性，还需要处理更多的汉语语文辞书。同时也要在数据模型的框架下，对尽可能多的汉语语文辞书作XML标注，扩大辞书数据库的规模，支持各种辞书数据的检索、统计和输出。结束语谢谢！

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

汉语语文辞书的数据建模.PPTVIP