语料库中熟语标注的基本处理思路与方法.pdfVIP

语料库中熟语标注的基本处理思路与方法.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
语料库中熟语标注的基本处理思路和方法 安 娜 中国传媒大学应用语言学系 北京 100024 yunxiner07@CUC.edu.cn 摘要:在语料库标注阶段,熟语标注作为词性标注中的重要组成部分,也属 于语料库中最基本的标注,它可以为下一步的句法分析提供丰富的语法信患。熟 语标注研究不仅对于目前的语料库词性标注具有重要的促进作用,而且对于熟语 性质的研究和语体风格的研究也具有非常重要的现实意义。因此,本文对基于语 料库的熟语标注的处理思路和方法进行了初步的探讨。我们主要从实践的角度探 讨语料库中熟语标注的研究方法和处理思路,这里所说的熟语仅指固定语,包括 成语、惯用语、习用语、歇后语、缩略语。 关键词:语料库,熟语,标注 一,引言 熟语是句法分析的最小单位,在句子结构中的功能相当于一个词,那么就该 给它应得的语法功能标记,即词性标记。为了给熟语一个合适的标记,首先遇到 的就是词性的判定问题。对于词来说,划分词类、判定词性的依据是词的语法功 能,即词在组合中的分布特征。那么,。这一原则同样适用于熟语。熟语的语法功 能体现在具体的使用熟语的句子中,因此我们使用基于语料库的统计分析的方法 就是要通过了解熟语的使用过程来研究熟语的语法功能,对熟语的语法功能进行 全面深入的调查,根据它的分布特征,确定它的语法功能,即词性(尽管这一术语 不太准确,但我们似乎又没有必要造出一个新的术语“语性”,于是姑且用之)。 二.熟语语法功能数据库的建设 在了解了熟语的性质之后,我们就要确定熟语的语法功能,做好确定熟语词 性之前语法功能统计工作。大部分熟语在句子里的语法功能大致相当于“实词”。 凡是实词能够充当的句子成分,它都可以充当。因此,我们根据实词所能充当的 句法成分,设立了“主”、“谓”、“宾”、“定”、“状”、“补”六个属性字段。 l一)熟语语法功能统计的原则 我们考察熟语的语法功能,就是要考察熟语在句子中所能充当的成分,对于 独立充当句子的某个成分的熟语,把该熟语直接记为它所在句子中充当的相应的 成分。但是汉语中有些熟语不是独立地充当句子的某个成分,而是跟别的词组合 成更大的词组来充当句子的成分。为了解决这个矛盾,我们制订的统计原则大致 如下: (1)定中词组做主语和宾语,述补、状中词组做谓语,中心词是熟语的,则把 该熟语记一次主语、宾语或谓语; (2)受介词管辖的熟语按宾语处理; (3)由熟语构成的主谓词组作一个成分时,只统计熟语作为词组内部的成分的 功能,不考虑整个词组的外部功能; (4)由熟语构成的联合词组作一个成分时,熟语的成分按结构的整体功能记人; (5)由熟语构成的兼语词组,兼语足熟语的,则把该熟语记一次主语。 (二)熟语语法功能数据库的语料来源强说明 本文的语料选自中国传媒大学应用语言学系研制开发的传媒语言语料库,语 料近3000万字。按理说我们的语料来源应该更加全面,使所收进的熟语更具有代 表性,能够满足传媒语言语料库建设的需要。但是由于传媒语言语料的局限性、 个人精力和时间的限制,我们只能选取传媒语言语料库中常用的熟语。我们从做 过词性标注(用的是北大2001年的分词标注系统)的熟语料中用CRS检索软件(中 国传媒大学应用语言学系开发的熟语料检索程序)提取出传媒语言语料库中的成 语、缩略语、习用语、惯用语、歇后语,其中成语为1464条,缩略语为1000条, 习用语为1070条,惯用语134条,歇后语27条。对于每个熟语,再使用北京语言 大学开发的CCRL语料检索工具从传媒语言语料库中检索出其出现的所有句子进 行分析。最终根据熟语在具体语境中出现的功能构建了一小规模的熟语功能统计 数据库。 三、成语 由于篇幅有限,我们以成语和惯用语为例,来说明传媒语言语料库中熟语标 注的基本处理思路和方法。通过对成语充当各种句法成分的统计和分析,我们发 现成语在句子里的语法功能相当于“实词”。凡是实词能够充当的句子成分,它都 可以充当。从功能的角度出发看语料库中成语的使用频率,40.31%做谓语, (一)成语的词性判断 根据成语的语法功能,我们将成语分为名词性成语、动词性成语、形容词性 成语、副词性成语和区别词性成语。 1.名词性成语 名词性成语,它具有名词的一些语法特点,在句法结构中的地位也大致相当 于一个名词。比如,名词的语法功能是不受副词修饰,但是受表示物量的数量短 语修饰,名词性成语也是这样。名词在句法结构中经常充当主语、宾语和定语, 一般不能做状语、

文档评论(0)

bb213 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档