命名实体类流行语描述性释义识别研究.docVIP

命名实体类流行语描述性释义识别研究.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
命名实体类流行语描述性释义识别研究

命名实体类流行语描述性释义识别研究   摘 要:从命名实体类流行语描述性释义的语言学特征分析入手,制定其特有的语言规则匹配模板,从海量信息中,自动识别出符合条件的候选项,再通过构建语言模型,设定包含时间词的句子权重,来体现命名实体类流行语的时效性,从候选项中识别出命名实体类流行语的描述性释义,该识别研究可为流行语词典的编纂与动态更新提供一定的参考。   关键字:命名实体类流行语 描述性释义 词义演变 词典编纂   一、命名实体类流行语描述性释义识别的必要性   流行语是在某一时期,某一地域或某一人群中迅速传播、盛行的词汇。命名实体指文本中具有特定意义的实体,包括人名、地名、机构名、专有名词等。上述两个方向的已有大量研究成果,而命名实体类流行语的研究还是一项空白。谢学敏(2005)将流行语分为有标记的流行语释义与不带标记的流行语释义两类,不带标记类又分为事件类、人物简历类释义两个分类分别加以处理,计算复杂度相对较高。术语定义提取方面的工作一直受到学界关注。张艳(2003)利用句法分析工具分析短语成分,根据句型结构,并建立数据和概念描述,给出术语发现算法,最终识别出术语定义。荀恩东(2004)采用术语定义的语言学模式,多线程高效下载网页,经后续处理返回给用户术语定义。荀恩东后续又通过考察术语定义构成的语言学模式、定义中词汇和术语周边的统计特征,并根据新术语出现的上下文统计特征,用SVM分类器进行术语定义的识别。词义演变的研究多数从语言学本体或者加入社会学的因素进行考察[6],或就某一个词语的语义演变进行考察。   词义演变是词汇发展的一个基本特征,相关的研究多半从语言学本体的角度探讨词义的扩大、缩小、转移。词义演变考察对象通常不包含命名实体。实际上,很多命名实体的在使用者的心理词汇库中的词义呈现出明显的词义演变趋势。本文阐述了该类词汇的词义历时变化,在此基础上进行描述性释义的识别。该识别研究对于流行语词典与流行语数据库的建立与动态更新都具有现实的参考价值。   由于命名实体类流行语不同于术语,我们将识别对象定义为“描述性释义”。   二、命名实体的语言学特征   (一)流行语的构词成分   本文考察了从2003年至2012年十年间由国家语言资源监测与研究中心、北京语言大学等单位联合发布的各年度中国媒体十大流行语,构建了一个流行语信息库。这些流行语包括综合类、经济类、文化类、科技类等,共1060条(包括重复出现的流行语如“刘翔”,但这些流行语在不同年度入选的原因不同,作为命名实体类流行语的描述性释义是不同的,故本文作为不同词条处理。)。通过对该信息库的考察,我们发现流行语的构词形式于普通词汇相比,具有明显的不确定性与多样性。   1.包含大量缩略语和字母词(或字母词与数字的组合)   例如:“高铁”“驻京办”“T3航站楼”“CMMB”“CPI回落”   2.包含大量命名实体(人名、地名、机构名)或包含命名实体的组合词   例如:“郭明义”“钓鱼岛”“高盛”“北川中学”“珠海航展”。   从流行语信息库中,检索到命名实体184项,占所有流行语总量的17.36%。其中人名124项、地名29项、机构名31项。各项在命名实体中所占比重如下表:   (二)命名实体类流行语的描述性释义   命名实体词义的演变与近现率是紧密相关的。近现率是反映流行语流行程度的一项重要指标。词汇的近现率是动态变化的,在一个时间段里近现率高且使用广泛便构成了流行语。从心理语言学的角度考察,一个词,在使用者心理词汇库中被激活的概率与被激活的速度与近现率成正比关系。从历时角度考察,在受试者心理词汇库中,被测试词汇每个时间节点上的词义都会被激活,构成一个词义组合,如何从这些这些词义组合中筛选出近现率高的词汇释义是我们的研究主题。   通过对人工识别出的命名实体类流行语的描述性释义的考察,我们发现流行语的描述性释义,与普通词汇的义项以及术语的定义不同。由于流行语是动态更新的,具有时效性、流通性、新闻性,这些属性是其他类别的词汇所不具备的。我们以2006年入选文化类流行语“孔子”为例,在搜索引擎中输入该词,检索到的“孔氏,名丘,字仲尼”之类信息无法反映出“孔子”入选流行语的缘由。这些释义与词汇近现率是脱节的。换言之,我们无法从该描述性释义中找出其作为当年流行语的任何理据。最终通过手工检索到的描述性释义为:   2006年1月,中国孔子基金会发起制订孔子标准像,6月向全球发布孔子标准像初稿,此举引起了不少争议。   该描述性释义解释了缘何“孔子”入选该年文化类十大流行语。   上述流行语的描述性释义与普通词语义项或术语定义存在明显的差别,义项与定义通常不包含时间词,或类似“以来”“此举”“争议”这样的词语;而命名实体类流行语的描述

文档评论(0)

bokegood + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档