- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
先秦文献信息处理的特点与对策?语言信息处理与汉语知识研讨会发言 南京师范大学文学院 陈小荷,2010年5月 发言提纲 现代汉语信息处理的一般模式 先秦文献信息处理的特点 先秦文献信息处理的对策 个案研究:版本异文的自动发现 现代汉语信息处理的一般模式 人工标注?模型训练?机器标注?开放测试 人工标注:标注量取决于具体任务和模型参数的规模。标注量(或校对量)通常很大。 模型训练:从人工标注语料中学习模型参数。小概率事件总是存在,并且无法得到充分的训练。 机器标注:机器学到大量的小颗粒度的知识,标注效果取决于标注语料与训练语料的相似程度。 开放测试:追求F值,追求模型本身的完美。 先秦文献信息处理的特点 语料库基本上是封闭的。传世文献只有数十种,每种文献的篇幅都不很大。《左传》篇幅最大,也只有28万字,多数文献是几万字的篇幅,有的甚至只有几千字。 从语料处理角度看,各种文献之间差异都比较大,语料的同质性很低。文献间的差异主要体现在:时代差异、学派差异、题材差异和体裁差异。 25种先秦文献的篇幅 左传 28.30 管子 16.20 韩非子 13.20 礼记 13.00 吕氏春秋 12.90 墨子 10.50 国语 9.50 荀子 9.30 庄子 8.10 仪礼 7.50 公羊传 6.90 晏子春秋 6.70 谷梁传 6.50 周礼 6.40 诗经 5.40 孟子 4.70 楚辞 4.10 尚书 3.70 周易 3.20 商君书 2.50 论语 2.40 老子 1.00 孙子 0.85 吴子 0.60 孝经 0.24 合计 172.29万字 25种先秦文献的内容 政论11种:论语、孟子、吕氏春秋、晏子春秋、老子、庄子、管子、墨子、荀子、韩非子、商君书 典章制度4种:周礼、仪礼、礼记、孝经 历史3种:尚书、左传、国语 军事2种:孙子、吴子 诗歌2种:诗经、楚辞 语言2种:公羊传、谷梁传 卜筮1种:易经 一般模式不适合先秦文献信息处理 一般模式是以统计模型为中心的,其本意是从较小规模的训练语料中学习模型参数,用学到的模型来自动处理较大规模的、与训练语料相似的其余语料。 根据相似性来划分先秦文献,若用严格标准,则几乎是每种文献为一类。 现有的统计模型参数规模都很大,即使把每类文献全部用作训练语料也不够。 先秦文献信息处理的困难 自动分词:缺乏适用的词表。现代汉语中的常用词,在先秦文献中通常应该切开,如“可以”、“虽然”。多字词大多是专名,专名的结构和语境与现代汉语差异很大,不易抽取。 词性标注:词类活用频繁,如“秋,大雨雹”;句法与现代汉语颇多差异,如“邾子克也”中的“克”容易误标为动词。 先秦文献信息处理的困难 词义标注:古今文化差异、词汇差异、古今字、通假字、文献传抄讹误等因素,给先秦文献词义标注增添了一层困难: 冬,来,反馬也 王使榮叔來含且賵 鲁有名而無情 是生三犧,皆用之矣 目标文献与相关文献 目标文献:待处理的先秦传世文献。 相关文献:对处理目标文献有帮助的文献。 注疏文献,如春秋左传正义、论语集注。 异文材料,目标文献的另一种版本,如三传之春秋;或者叙事与目标文献有重合者,如史记与左传。 词典、字典和韵书,如尔雅与尔雅注疏,书证多来自先秦文献;说文解字段注;广韵。 演义小说,如蔡元放的东周列国志。 白话译本,如杨伯峻的白话左传。 先秦文献信息处理的对策 利用相关文献获取目标文献处理的知识: 利用注疏文献做目标文献的初始标注; 利用词典、字典、韵书获取系统的小学知识; 利用异文材料获取鲜活的小学知识以及汉语历时演变知识。 知识整理:消除冗余、排除矛盾、适当概括。 用整理后的知识对目标文献做进一步标注。 先秦文献信息处理的理念 语言信息处理需要启动知识。 现代汉语信息处理的一般模式是用训练语料作为启动知识(有监督的学习)。 先秦文献信息处理则应将相关文献作为启动知识,因为: 目标文献处理所需的知识已经存在于相关文献之中。 来自相关文献的证据比统计模型可靠和好用。 理念:追求语言信息处理的实际成效。 相关文献的用处(一) 各类相关文献中,注疏文献最为丰富,而且往往有不同时期的叠加: 论语注疏、论语笔解、论语集注、论语全解 经春秋?传公羊传?注疏公羊传注疏(汉何休,唐徐彦) 注疏犹如现在语文教学中的“串讲”,是对目标文献做分词和标注的依据。 据《论语集注》做自动分词 三/家/者/以/雍/徹/。/子/曰/:/“/‘/相/維/辟公/,/天子/穆穆/’/,/奚/取/于/三/家/之/堂/?/” 三家,魯大夫孟孫、叔孫、季孫之家也。 雍,周頌篇名。徹,祭畢而收其俎也。 相,助也。 辟公
文档评论(0)