基于大规模语料的新词语识别方法讲解.pptVIP

下载本文档

2
0
约2.75千字
约 18页
2016-12-02 发布于山西
举报

基于大规模语料的新词语识别方法讲解.ppt

基于大规模语料的新词语识别方法讲解

基于大规模语料的新词语识别方法吕学强 lv.xueqiang@ 北京拓尔思信息技术有限公司(TRS) 2006.7.21 简介随着社会的飞速发展，尤其是随着互联网的广泛使，新词语不断地涌现出来。如何搜集和整理这些新词语，将是中文信息处理中的一个重要研究课题。本文根据新词语的不同特征，提出了一种自动检测新词语的方法，通过大规模地分析，分别建立字、词、N元组的词典，从中自动检测出新词语来，然后再根据构词规则对自动检测的结果进行进一步的过滤，最终抽取出采集语料中存在的新词语。新词语的分类按照来源，新词语可以分为以下几类：命名实体：包括人名、地名和机构名等；新造词：如“海归”；专业术语：如“非典型肺炎”；缩略语：如“非典”；方言词：如“靓”；字母词：如“SARS”；音译词：如“克隆”；旧词新用的词语：词义、用法发生变化的旧有词语，如“下课”、“充电”等。新语：新出现的短语(词组)。新词语识别的综述就目前而言，新词语识别的困难主要在于新词语往往被分词系统切分成单字串或者单字与基本词汇的组合；除了命名实体和字母词外，其它具有新词形的词语构成基本上没有一个比较普遍的规律；对于低频的新词语识别比较困难；对于“旧词新用”，具有词义、用法变化的词语检测比较困难。已有工作目前，对非命名实体的新词语的识别方法，主要分为以规则为主的方法和以

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

基于大规模语料的新词语识别方法讲解.pptVIP