基于大规模语料的新词识别方法.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于大规模语料的新词语识别方法 吕学强 lv.xueqiang@ 北京拓尔思信息技术有限公司 TRS 2006.7.21 简介 随着社会的飞速发展,尤其是随着互联网的广泛使,新词语不断地涌现出来。如何搜集和整理这些新词语,将是中文信息处理中的一个重要研究课题。 本文根据新词语的不同特征,提出了一种自动检测新词语的方法,通过大规模地分析,分别建立字、词、N元组的词典,从中自动检测出新词语来,然后再根据构词规则对自动检测的结果进行进一步的过滤,最终抽取出采集语料中存在的新词语。 新词语的分类 按照来源,新词语可以分为以下几类: 命名实体:包括人名、地名和机构名等; 新造词:如“海归”; 专业术语:如“非典型肺炎”; 缩略语:如“非典”; 方言词:如“靓”; 字母词:如“SARS”; 音译词:如“克隆”; 旧词新用的词语:词义、用法发生变化的旧有词语,如“下课”、“充电”等。 新语:新出现的短语 词组 。 新词语识别的综述 就目前而言,新词语识别的困难主要在于 新词语往往被分词系统切分成单字串或者单字与基本词汇的组合; 除了命名实体和字母词外,其它具有新词形的词语构成基本上没有一个比较普遍的规律; 对于低频的新词语识别比较困难;对于“旧词新用”,具有词义、用法变化的词语检测比较困难。 已有工作 目前,对非命名实体的新词语的识别方法,主要分为以规则为主的方法和以统计为主的方法两大类。 规则为主的新词自动检测方法有: 有[郑家恒,2003]。 统计为主的新词自动检测方法略多一些,有 [郑家恒,2002] [刘挺,1998] [黄萱菁,1996] [沈丽琴,2002] [Andi Wu,2000] [Hongqiao Li,2004] [Yao Meng,2004] 新词语的识别方法 本文根据新词语的不同特征,提出了一种自动检测新词语的方法,通过大规模地分析,分别建立字、词、N元组的词典,从中自动检测出新词语来,然后再根据构词规则对自动检测的结果进行进一步的过滤,最终抽取出采集语料中存在的新词语。根据此方案实现的系统,可以寻找不限长度不限领域的新词语。 基于频度比的识别方法 “流行”界定为:某一事物(或现象)在某个时点上产生,并在很短的时段内广泛传播或蔓延。这一事物(或现象)在某一时段内的出现率显著高于该事物(或现象)平时出现率的均值[2]。确定了词语使用的时间属性与空间属性,计算出某一词语在某一时段内的出现率显著高于平时出现率的均值,我们就可以判定词语为流行词语。若一度流行的词形是新的,该词语的平时出现率就为零,此时该词语为新词语。 基于频度比的识别方法 续 高频新词语是流行语的一部分。我们可使用频度对比的方法来从大规模语料中抽取新词语(既流行语中的新流行语)。 我们就可以通过计算字符串出现频次与背景语料中相同字符串的频度 背景语料库由多部分组成时,则使用通用度 进行比较,当比较大于一定值时,可以以为当前字符串为候选新词,这种方法的好处是能高效地过滤大量垃圾串 基于互信度的识别方法 互信息MI mutual information 是统计模型中衡量两个随机变量X、Y之间关联程度的常用参数,字间互信息反映了两字符之间结合的紧密程度: 如果两个汉字x和y的互信息MI x,y 0,说明它们存在比较紧密的二元搭配关系, MI x,y 越大,这种搭配关系越紧密。 如果MI x,y ≈ 0,说明x和y之间没有明显的结合关系,两者出现仅属偶然。 如果MI x,y 0,说明x和y之间基本没有结合关系。 直观上可以根据字间互信息的大小来对候选二元串进行过滤:将互信息MI x,y 接近或小于0的二元串过滤掉。 基于概率比的识别方法 许多中国字既能独立组成词,又能成为多字词的组成成分,IWP(Independent word probability, 独立词概率)就是描述一个字串在文中单独成词的可能性: IP c in-word probability, 组词概率,词内部概率 与独立词概率的概念相反,描述字串是词内部成分的概率,是指字串的组词能力: 我们采用计算独立词概率与组词概率之比的方法来识别新词语,此方案比较适合双音节和三音节词的识别。我们可以定义两个阈值T。只有当概率比值大于阈值T时,才会被当作候选新词。 实验结果与分析 我们先对《人民日报》一九九八年一月语料使用基于字的重复串查找算法,得到出现频度大于一定阈值的重复串,然后应用前面所提的不同策略进行新词识别。 基于频度比的实验结果 基于频度比的实验结果 Cont. 基于概率比的实验结果 基于互信度的实验结果 综合实验结果 1 新华社北京1月 2 本报北京1月 3 据新华社北京1月 4 地震灾 5 彭楚政

文档评论(0)

天马行空 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档