- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
纸质印刷本古代文献转换成汉语史语料库的实践
20世纪90年代以来,中国历史语言材料的数据库已成为中国科学家不可或缺的学术工具。第一个文本收集对应于各种古代文献的电子书,只支持简单文本阅读。随后出现了可以进行字、词、句单项或组合检索的文本数据库,流传较广者如《二十五史全文阅读检索系统》、国学宝典等。也出现了一些基于扫描技术的图像版古籍数据库,由于没有对图像进行OCR识别,用户难以进行全文检索。随着图像处理和超链接技术的迅猛发展,支持分类检索、书名检索、著者检索、全文检索等多种检索方式的图像与文本对照的数据库陆续问世,著名者如文渊阁《四库全书》《四部丛刊》全文检索系统、中国基本古籍库等。近10年来,为了满足汉语研究的需要,学界开始尝试建设深加工的标注型语料库,具体工作包括对古代文献进行词语切分,并添加词性、义项、语法地位标注等多方面信息。以董志翘教授主持的国家社科基金重大招标项目“深加工中古汉语语料库建设研究”为依托的中古汉语语料库(MCC),就是其中的尝试之一。MCC课题组选取“既能从整体上反映中古汉语的真实面貌,又能够展示中古汉语局部的各种比较突出的特点”的中古文献,包括正史作品8种,约420万字;子部作品如汉译佛经、佛道文献、笔记小说、医农杂著、诗歌40种,约490万字;敦煌吐鲁番文献、碑刻文献等出土文献约80万字。上述入库文献共约1000万字。在确定入库文献的版本并进行反复校勘之后就进入了文本处理环节。在此基础上对入库语料进行词语切分并标注其词性、义项、语法地位等语言学信息。在文本处理这一环节,由于历代文献材料中大多包含着一些并无实际意义也不具备任何研究价值的冗余材料,如作者及其身份的重复标记、行文卷数的交叉标记等;也往往搀杂了一些学界公认的后代注释材料;还有一些材料虽然具有一定的研究价值,现有的语料库技术手段却难以准确反映,或者极大地增加语料库操作层面的难度,或者可能对语料库未来的用户体验产生过于负面的影响,等等。因此,需要对入库文献的转录文本进行相应的技术处理,以形成最终的语料文本。本文拟以中古汉语语料库中文本处理的基本思路、具体方法为中心,结合汉语史、文献学相关理论以及语料库建设的实际操作过程,对汉语史语料库的文本处理问题展开探讨,希望得到方家同行的指正。
一、 语料性质完全相同
中古文献往往采用正文与注释材料并列的行文方式。两者的界限最初是泾渭分明的:正文采用单行、大字的形式;子注则紧随其后,双行书写,
从正文与子注的关系看,正文无疑是全文的主体部分,子注则是对正文内容的延展,主要包括与正文内容相关的文献材料,对正文的进一步解释、说明,对正文中疑难字词的音义注释等。在后来的辗转传抄过程中,不少文献的正文与子注逐渐变得相互混淆以至难以分辨,这种现象在《洛阳伽蓝记》《水经注》中尤为突出。
从语料性质看,正文显然出自作者之手,属于典型的中古语料。对正文内容进行补充、解释、说明的子注,大多出自作者之手,同样也属于中古语料;对疑难字词进行音义训释的子注,情况比较复杂,有可能是作者的附注,也可能是当时或者后来的读者添加的,现在已经很难分清了。不过,就音义材料的篇幅而言,与正文以及其他子注相比,几乎可以忽略不计。例如:
凡谷,成熟有早晩,苗秆有高下,收实有多少,质性有强弱,米味有美恶,粒实有息耗。早熟者苗短而收多,晚熟者苗长而收少。强苗者短,黄谷之属是也;弱苗者长,青、白、黑者是也。收少者美而耗,收多者恶而息也。(《齐民要术·种谷》)
案:大字部分是《齐民要术》的正文,夹文小注是贾思勰的自注,进一步解释谷物成熟的早晚、苗杆的长短与作物收成之间的关系,二者显然属于同时代材料,语料性质完全相同。
客有问陈季方:《海内先贤传》曰:“陈谌字季方,寔少子也。才识博达,司空掾公车征,不就。”“足下家君太丘有何功德而荷天下重名?”(《世说新语·德行》)
案:大字部分是南朝宋刘义庆《世说新语》的正文;夹文小注出自南朝梁刘孝标之手,引用《海内先贤传》补充陈季方的基本情况。宋梁两朝相距不远,正文与夹文小注均属南北朝语料。
昆仑墟在西北。三成为昆仑丘。《昆仑说》曰:昆仑之山三級,下曰樊桐,一名板桐;二曰玄圃,一名阆风;上曰层城,一名天庭,是为太帝之居。(《水经注·河水》)
案:大字部分是《水经》原文;夹文小注则是郦道元引用其他文献材料对《水经》的注解,也就是《水经注》正文。其中存在相当严重的经、注相混现象,不少段落甚至完全无法分辨。由于注文篇幅远远超过《水经》原文,可以把二者暂时都视为中古语料。
九功既歌,六代惟时。被徳在乐,宣道以诗。穆矣太和,品物咸熙。庆积自远,告成在兹。右《肆夏》乐歌四章。客入,于四厢振作《于铄曲》。皇帝当阳,四厢振作《将将曲》,皇帝入变服,四厢振作《于铄》《将将》二曲。又黄钟、太蔟二厢作《法章》、《九功》二曲。(《宋书·乐志
您可能关注的文档
最近下载
- 电池及锂电池基础知识培训.pdf VIP
- 拆分合同协议.docx VIP
- 日剧剧本___ハケンの品格.doc VIP
- 劳动教育整理与收纳.pptx VIP
- 部编版2025 初中历史七上 第6课 战国时期的社会变革 课件(共28张PPT)(含音频+视频).pptx VIP
- (刘氏字辈派语寻宗资料第廿七辑.doc VIP
- 先锋sc-lx89-79-fxj-zhtw功放中文说明书.pdf VIP
- XX医生正高职称主任医师评审答辩材料PPT课件(完整框架).pptx VIP
- 教室整理与收纳过程中的创造性劳动实践.docx VIP
- 2024《小学劳动教育课程实施现状调查研究—以X小学为例》12000字.docx VIP
文档评论(0)