中文信息学报语料库中熟语的标记问题①.PDF

中文信息学报语料库中熟语的标记问题①.PDF

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
中文信息学报语料库中熟语的标记问题①

中 文  信  息  学  报 第 18 卷 第 1 期   JOURNAL OF CHINESE INFORMATION PROCESSING Vol 18 No1 文章编号 :1003 - 0077 (2004) 0 1 - 0020 - 06 语料库中熟语的标记问题① 安  娜 ,刘海涛 ,侯  敏 (北京广播学院 应用语言学系 ,北京  100024) 摘要 :熟语是自然语言中普遍存在的语言现象 。本文分析了国内现有语料库对熟语的标注方式 ,发现这 种方式对语料库的进一步加工是有问题的。为了在语料库标注阶段把熟语问题处理好 ,本文从信息处理的角 度将熟语中的成语 、惯用语 、歇后语 、习用语 、专门语以及缩略语归为固定语的范畴 ,进而提出根据固定语的语 法功能给定词性标记 ,再根据它们的词汇特征给定词汇范畴标记的双层标记法 ,这样在一定程度上解决了熟 语的语料库标注问题 。 关键词 :人工智能 ; 自然语言处理 ;熟语 ; 固定语 ;标注 ;语料库 中图分类号 : TP39 1    文献标识码 :A Tagging of the Idiom in the Corpus AN Na , L IU Haitao , HOU Min (Applied Linguistics Depart ment , Beijing Broadcasting Institute ,Beijing 100024 ,China) Abstract : Idiomaticity is a common p henomenon in natural languages. This p ap er analyses some known means of tagging t he idiom in Chinese corpus. These tagging met hods are problematic for t he furt her syntactic tagging and p arsing of corpus. To find a suitable solution for application in natural language processing , t he aut hors introduce a new concept “fixed expression ”, which consist of idioms , customary usages , twop art allegorical sayings , terms and abbreviations. These fixed expressions have t he same grammatical function as common words , t hus we can tag t hem according to t heir function in text and give suitable vocabulary category of fixed expressions. This is called twolevel tagging met hod . The proposed solution is useful to build a p arsed corpus as knowledge source of NL P. Key words : artificial intelligence ; natural language processing ; idiom ; fixed expression ;tagging of corpus ; p arsed corpus 1  引言 在建设传媒语言语料库的过程中,我们根据对语料库加工的通行做法 ,先对原始语料作词 性标注 。词性标注之后 ,当我们开始进行句法层次的加工时 ,发现 目前的熟语标记存在一定的 问题 。我们在对生语料做词性标注时 ,

文档评论(0)

youbika + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档