基于大规模语料的新词语识别方法讲解.pptVIP

  • 2
  • 0
  • 约2.75千字
  • 约 18页
  • 2016-12-02 发布于山西
  • 举报

基于大规模语料的新词语识别方法讲解.ppt

基于大规模语料的新词语识别方法讲解

基于大规模语料的新词语识别方法 吕学强 lv.xueqiang@ 北京拓尔思信息技术有限公司(TRS) 2006.7.21 简介 随着社会的飞速发展,尤其是随着互联网的广泛使,新词语不断地涌现出来。如何搜集和整理这些新词语,将是中文信息处理中的一个重要研究课题。 本文根据新词语的不同特征,提出了一种自动检测新词语的方法,通过大规模地分析,分别建立字、词、N元组的词典,从中自动检测出新词语来,然后再根据构词规则对自动检测的结果进行进一步的过滤,最终抽取出采集语料中存在的新词语。 新词语的分类 按照来源,新词语可以分为以下几类: 命名实体:包括人名、地名和机构名等; 新造词:如“海归”; 专业术语:如“非典型肺炎”; 缩略语:如“非典”; 方言词:如“靓”; 字母词:如“SARS”; 音译词:如“克隆”; 旧词新用的词语:词义、用法发生变化的旧有词语,如“下课”、“充电”等。 新语:新出现的短语(词组)。 新词语识别的综述 就目前而言,新词语识别的困难主要在于 新词语往往被分词系统切分成单字串或者单字与基本词汇的组合; 除了命名实体和字母词外,其它具有新词形的词语构成基本上没有一个比较普遍的规律; 对于低频的新词语识别比较困难;对于“旧词新用”,具有词义、用法变化的词语检测比较困难。 已有工作 目前,对非命名实体的新词语的识别方法,主要分为以规则为主的方法和以

文档评论(0)

1亿VIP精品文档

相关文档