- 17
- 0
- 约4.7千字
- 约 6页
- 2021-01-06 发布于四川
- 举报
精品文档,助力人生,欢迎关注小编!
《说文解字》释义元语言研究技术路线
打开文本图片集
【摘 要】在汉语元语言系统研究的理论和方法的指导下,设计科学的思路、借助科学先进的方法,基于《说文解字》电子文本库语料库,建构古代汉语释义元语言系统,进一步展开现汉元语言系统与古汉元语言系统的对比研究,以探索汉人的元认知特征。
【关键词】说文解字 释义元语言 发凡
语言学的元语言研究,是语义学、词汇学、词典学、句法学的国际性前沿课题。作为与“对象语言”相对的“工具语言”,元语言是人类认知经验中的深层单元。《说文解字》是我国第一部分析字形、考究古音、总汇古义的文字学专著,保存了上古甚至原始的文字釋义,是探寻古代词汇、词源义的的桥梁和钥匙,是研究汉语语义和汉人认知特征的本原性基础。
该课题就是在汉语元语言系统研究理论和方法的指导下,提取词元、进行分词并采取合适的义场予以语义分类、设计合理的方案予以验证优化,进而研制《说文》释义基元词表,建构《说文解字》释义元语言系统,以探索汉人的元认知特征;观照汉民族的文化镜象。
《说文解字》的传本大多是宋刻本(毛晋刻本)。现在最通行的是宋·徐弦的《说文解字》(通称大徐本)和清·段玉裁的《说文解字注》。本研究依据的是“大徐本”(中华书局20XX年影印本)。
《说文》释义基元的研究方法,主要采取宏观理论和微观刻画、人工内省和机器辅助、定性分析与定量分析、归纳分析与演绎分析、比对分析和优选分析相结合的方法。
本课题的技术路线大致如下:
一、建立《说文》语料库及其检索系统(可检索释义词)
(一)建立《说文》语料库所需软件
1.安装大容量繁体字库;经过多方搜寻,最终选定了“国际标准超大字符集字体支持包:Unifonts 5.4”。另外,安装Microsoft Taiwan Corp新细明体PmingLiu,辅助。
2.安装大字库输入法:
首先,安装海峰五笔,以便输入快捷。该输入法,全面支持64位系统,收录了UNICODE超大字集词汇,基本满足了输入需要。
又安装了紫光华宇拼音输入法V6,该输入法是一个面向汉字输入的工具,提供了不完整拼音方式和模糊拼音方式输入汉字和词的功能,输入方便。
(二)建立《说文》语料库的原则
据《说文·序》,《说文》共有注文133440字。古代汉语单音节为主,复音词为数寥寥,《说文》释义元语言研究的基础是建立《说文》语料库。
建立《说文》释义元语言语料库文件文本,仅指许慎《说文解字》正文,电子文本依大徐本《说文解字》,只录《说文解字》“正文”部分,即,只录《说文解字》“正文字头及其释文文本”部分,同时,把明显易辨的复音词另外提取出来,分别建表:
人名、地名、文献名专有名词复音词集;连绵词词集;叠音词、拟声词词集;训诂术语词集;说文复音词。
剔除与该课题研究无关的下列内容:徐弦增加的标目字、反切字、注释文及405新附字;徐锴、李阳冰等人的注释;许慎释文中1163 “重文”及其相应的例释;标点;《说文·序》。
之后,输录《说文解字》正文文本。
二、说文释义元语言复音词的判定标准
我们首先借助贺胜老师的分词工具“CIPP_JS分词检索” 对说文释义元语言电子文本进行分词,然后予以校对。校对中复音词断定的标准如下:
(一)连绵词肯定是复音词,如“徬徨”,系统自动分为俩词“徬” “徨”,我们予以归并;“璆 珌”同理。
(二)复音术语、专名一概是复音词,如“虞 书”“汉 律”“司 命”“牺 牲”“读 若”“春秋 传”“省 声”“雝 州”。
值得注意的是:双音节人名,系统误为3音节;古代单音节词占优势,机器以现代汉语双音节特点析词多有不当,我们应认真校对视情况或分或合。
(三)训诂术语:解释部首的“凡”、“之”、“属”、“皆”,解释意义“从”,解释读音“声”,皆单音节词。“读”“与”“同”不是“读与 同” 。“曰”“云”同样做单音节处理。
(四)前缀“所”并后成复音词。助词“者”、“也”、“之”、“其”“而”单音词。
(五)普通名词与专名构成复音词,像“雝州”“淮水”。
在语言科技中心贺胜老师的支持下,借助贺老师编的中文自动分词全文检索@统计工具(GBK版)软件,把说文复音词的 ·txt文本加挂系统中,扩充系统词典。
《说文》复音词构成举例:
人名:董仲舒、杜林、贾侍中、孔子、宋弘、王子蹻、尹彤、祖甲、王育、伯臩
官称:挏马官、盐官、工官、巫、司命、博士、司农、六卿、太史卜、炎帝
天文:玄枵、天体、白虎宿星、房星、大阴、春分、冬至、仲秋、螮蝀、太白
原创力文档

文档评论(0)