- 0
- 0
- 约1.74千字
- 约 10页
- 2019-05-03 发布于天津
- 举报
汉语语文辞书的数据建模
中国社会科学院语言研究所
汉语语文辞书的数据建摸
汉语语文辞书的特点
汉语语文辞书的文体特点
辞书文本和数据结构
辞书数据的XML Schema结构模型
基于XML的辞书数据检索
基于XML的辞书数据输出
汉语语文辞书的特点
传播知识、承传文化的工具:在科学技术和人文社会科学的发展过程中,辞书具有不可或缺的作用。
历史悠久:近两千年的历史,是文字学、音韵学、训诂学、字典学、历史学、考古学等学术领域不可或缺的重要典籍,也是研究中国古代历史文化、考释古文字和规范今文字的重要依据。
种类繁多,读者广泛:海内外使用者数以亿计,担当着传承中华文化的重要使命。
信息丰富:从语言研究的角度看,汉语语文辞书里蕴涵着大量系统的汉语文字、语音、词汇、句法、语义、修辞、语用等信息,为语言研究和语言工程提供了丰富的数据资源。
汉语语文辞书的文体特点
文本风格:语文辞书的印刷体形式是文本格式的,与通常的文本文档不同的是,语文辞书在为读者提供查索、释疑的过程中逐渐形成了一套特定的语言风格和表述方式:释义客观、严谨、简明,按照统一的模式和顺序组织词条,使用统一的缩略语或符号表达词语属性。
应用规则:每一部语文辞书都会在卷首用《凡例》对所用的表述方法给予基本的文字说明。虽然这些说明还不能算作严格意义上的规则,但也基本上能够使辞书具有半结构化数据的文本特征,这就为辞书的语言数据处理提供了基础。
汉语语文辞书结构化处理
数据的描述和组织:
描述语言数据的表现形式和其中蕴涵的语言知识,把语言数据组织成各种形式的数据结构。
数据建摸:
采用XML Schema描述汉语辞书的文本结构和词条结构,根据词条的形式化描述规则对辞书文本作XML标注,使辞书能够转换成词汇数据库,支持各种检索并且生成表层文档。
辞书文本和数据结构
辞书的基本单位-词条:词条含有音、形、义、用法等各种属性。属性可以从词典《凡例》的文字说明当中归纳出来,也可以在词典所含信息的范围内,对词条的信息进行分解,根据词条查考、语言研究和语言工程的需要来定义。
辞书数据结构-词条:我们用树形结构来描述一部词典,树中的第一层节点是词条,辞书文本由众多词条组成。每个词条的下位节点有两个:条目和条目描述。我们主要根据《现代汉语词典》(商务印书馆),同时参考《现代汉语规范词典》(外语教学与研究出版社、语文出版社)和《汉语应用词典》(商务印书馆)来描述词条的结构。
辞书数据的XML Schema结构模型
辞书数据结构-词条:参考不同辞书,根据辞书的查考、语言学研究、语言工程的需求对辞书结构、文体、使用规则等进行分析、解析、归纳、汇集。
辞书数据的XML Schema结构模型
辞书数据结构-词条-条目-字形词形
辞书数据的XML Schema结构模型
辞书结构-词条-条目-字音词音
辞书数据的XML Schema结构模型
辞书结构-词条-条目描述
辞书数据的XML Schema结构模型
辞书结构-词条-条目描述-分义项和外语对应词
辞书数据的XML Schema结构模型-实例
基于XML的辞书数据检索
检索对象:
所有节点和元素都可以成为检索和统计的对象
检索内容:
节点名、元素名、元素的合法取值
操作逻辑:
“等于”、“包含”、“大于”、“小于”等
统配符:前、后忽略、忽略字符个数等
基于XML的辞书数据输出
输出方式:
采用XML的XSLT为辞书数据建立输出格式,根据不同的XML Schema模型可以建立不同的XSLT输出格式。可以按照使用者的不同需要,或者根据不同输出设备的特点来设计辞书数据的输出格式,既可以保持辞书原来的印刷格式,也可以选择新的格式。
XML辞书文本数据检索并以辞书文本风格输出实例
经过一定范围的测试,目前的XML Schema数据模型可以描述《现代汉语词典》,对《现代汉语规范词典》和《汉语应用词典》也基本上能够适用。为了提高数据模型的通用性,还需要处理更多的汉语语文辞书。同时也要在数据模型的框架下,对尽可能多的汉语语文辞书作XML标注,扩大辞书数据库的规模,支持各种辞书数据的检索、统计和输出。
结束语
谢谢!
您可能关注的文档
- 我校举办91届校友创业讲座-上海中医药大学.DOC
- 我爱读书-晋江图书馆.DOC
- 我眼中的一堂高三议论文写作指导课及其评课-南安教师进修学校.DOC
- 我院召开毕业生就业创业工作会议-邯郸学院.DOC
- 户口证明材料补缺单.DOC
- 执信中学2008-2009学第一学期高三期中考试.DOC
- 把握新时代要求做好审核工作全面提高人才培养能力.PDF
- 投保单-明亚保险经纪.PDF
- 报销所需材料请按类别分别准备-中智北京.DOC
- 招标公告-国家级平湖经济技术开发区.DOC
- 从信息到视觉的多层融合:“设计素描”探索.pdf
- 浅析专业灯光技术的发展与趋势——中国照明学会舞台电影电视照明专业委员会2024行业调研分析.pdf
- 基于影视美术视角的非物质文化遗产活化传承研究.pdf
- 《黑神话:悟空》游戏音乐传播中国传统音乐文化的策略及其应用价值研究.pdf
- 传承与创新:新形势下中国艺术理论研究的战略思维——2024中国艺术学理论学会第二十届年会综述.pdf
- 基于运动规律体系的AIGC技术在二维动画电影产业流程中的应用研究.pdf
- 知识图谱视角下非遗数字化发展研究热点与前景探究.pdf
- AI语音克隆技术在电影中的跨语言应用探索与研究——以GPT-SoVITS为例.pdf
- 基于图像拼接技术的蓝印花布边缘纹样快速生成算法.pdf
- 从斯蒂格勒技术替补理论反思阿多诺流行音乐批判.pdf
原创力文档

文档评论(0)