甲骨文字频特征分析.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
甲骨文字频特征分析 一 抽样材料的确定 汉字频率研究是了解字系统的重要方面。对于汉字来说,这仍然是一个年轻的研究方向,在20世纪70年代开始。但随着中文信息技术的发展,近年来已呈现长足进展态势,材料对象已涉及历史文献,研究的触角也深入到了字频与词性、语义、字音及字形的关系,以及字频与文献内容、时代的关系探究等层面。但总体而言,出土文献,特别是上古出土文献字频研究相对薄弱,而甲骨文的字频研究更乏人问津。 立足在汉字发展史的视角,字频研究理应聚焦断代文字系统的特点。作为迄今所见最早的成系统的汉字文献材料的甲骨文,无疑应该成为这个特定视角研究序列的起点。但就现实情况来说,甲骨文字频研究尚缺乏严格意义上的成果。岛邦男的《殷墟卜辞综类》和姚孝遂、肖丁的《殷墟甲骨刻辞类纂》,以单字为纲类聚辞条的体例,本来可以涉及字频统计,但却因压缩篇幅的需要而将一些高频卜辞语言单位作举例节录处理,如常见的卜辞套语“往来无灾”、“旬无”、“其雨”、“不雨”以及常见的虚词“于”、“惟”、“在”、“其”、“勿”、“弗”、“不”、“弜”等等。这种处理方式正如姚孝遂所说:“对研究古代语言,尤其是研究古代语法的人来说,无疑是会感到遗憾……没有其它好办法,只能做出这样痛苦的选择。”4甲骨文字频统计研究的缺位,意味着一个非常严重的情况的存在:对于任何一种历史文献的字频研究而言,都将失去一种最为接近源头的起点性状况的参照,当然,这将在一定程度上模糊人们历史视线。 毫无疑问,字频研究是需要一定条件的。大致来说,这种条件可以概括为技术的和学术的两个方面。就技术而言,需要数字化的文字处理手段,否则,以人工计数为基础来完成字频研究,仅仅存在理论上的可行性。就学术而言,则是被统计文本的用字正确和统一。客观来说,对于甲骨卜辞而言,这两个方面的条件目前都不自然具备。为此,我们根据统计学的抽样原则,限定了材料范围,确定以《汉英对照甲骨文今译类检》(下文简称《今译》)、《小屯南地甲骨》(下文简称《小屯》)和《花园庄东地甲骨》(下文简称《花东》)卜辞为字频统计的资料。抽样当然首先是为了限制材料的量,以便在目前条件下确保材料学术和技术加工的可行性。然而这种数量限制是被控制在实现字频研究目标可允许的范围内的。根据统计学原理,在一个总体为250的例子中,“只要样本量不是太小——通常为10或20就够了,统计学理论表明这个分布近似于正态分布。”9这也就是说,这三种材料的58544的总字量,可以满足1410000以上字量文本的抽样要求,而迄今所见已经公布的卜辞材料,远远达不到这个字量(1)。此外,上述抽样还有以下几个原因:一是这三种卜辞材料的字频数据已经发表,具有验证的方便性(2)。二是照顾了甲骨卜辞出土地的分布。对于考古发掘材料来说,出土地的属性是极为重要的,甲骨文当然也不例外。我们所抽样的三种卜辞材料,《今译》选自《甲骨文合集》,代表了传统殷墟卜辞出土地小屯村北的材料,而《小屯》和《花东》,则是非传统出土地的主要卜辞材料。三是随机抽样和判断抽样的互补。《小屯》和《花东》对应所有公布的出土地材料,用以为统计对象,属于随机抽样,长处是所得数据相对客观;而《今译》则是在《甲骨文合集》的材料范围内进行筛选,筛选原则“一是着眼内容和字词的覆盖面,即在一定的篇幅内包含尽可能多的内容类型和字词种类的甲骨刻辞;二是注重刻辞拓片的清晰度,即只选择清晰或比较清晰的甲骨文刻辞进行今译”凡例,同时还考虑辞例的完整性和各期卜辞的合理分布,故属于判断抽样(Judgement Sampling),所得数据虽然可能在表面上偏离客观性,但却有可能反映本质的真实。 二 甲基字频两端集中现象 经剔除刻辞残泐字和兆序用字后的统计,《今译》、《小屯》和《花东》的字量(3)和字数(4)等数据如下: 上表的数据(5)表明:使用单字的数量和其平均使用量都是与文献的用字总量成正比增长的,《今译》用字总量最少,故单字量和平均使用量也较少;《小屯》总字量最多,故其单字量和平均使用量也较多。汇合三种材料进行统计,所得字频分级数据(6)如下: 上表数据所呈现的甲骨文字频状况林林总总,但其中最值得关注是两端集中状况,即少数高频字占总字量的高比重(以下简称“高端集中”)和总字量中极低比重的低频字占单字总数的极高比重(以下简称“低端集中”)。高端集中表现为,占单字量的22.87%的379个10次以上字的累计覆盖率为94.60%,仅占单字量的1.87%的31个500次以上字的累积覆盖率为52.46%。低端集中表现为,仅占总字量1.05%的616个一见字却占单字量的37.18%。 为了对甲骨文字频两端集中现象作一个合理的评估,我们首先引进现代汉语的类似数据作为观察的参照物。根据贝贵琴和张学涛的《汉字频度统计——速成识读优选表》一书所提供的数据,现代汉语中前42个高

文档评论(0)

lczslgy + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档