- 2
- 0
- 约2.75千字
- 约 18页
- 2016-12-02 发布于山西
- 举报
基于大规模语料的新词语识别方法讲解
基于大规模语料的新词语识别方法 吕学强 lv.xueqiang@ 北京拓尔思信息技术有限公司(TRS) 2006.7.21 简介 随着社会的飞速发展,尤其是随着互联网的广泛使,新词语不断地涌现出来。如何搜集和整理这些新词语,将是中文信息处理中的一个重要研究课题。 本文根据新词语的不同特征,提出了一种自动检测新词语的方法,通过大规模地分析,分别建立字、词、N元组的词典,从中自动检测出新词语来,然后再根据构词规则对自动检测的结果进行进一步的过滤,最终抽取出采集语料中存在的新词语。 新词语的分类 按照来源,新词语可以分为以下几类: 命名实体:包括人名、地名和机构名等; 新造词:如“海归”; 专业术语:如“非典型肺炎”; 缩略语:如“非典”; 方言词:如“靓”; 字母词:如“SARS”; 音译词:如“克隆”; 旧词新用的词语:词义、用法发生变化的旧有词语,如“下课”、“充电”等。 新语:新出现的短语(词组)。 新词语识别的综述 就目前而言,新词语识别的困难主要在于 新词语往往被分词系统切分成单字串或者单字与基本词汇的组合; 除了命名实体和字母词外,其它具有新词形的词语构成基本上没有一个比较普遍的规律; 对于低频的新词语识别比较困难;对于“旧词新用”,具有词义、用法变化的词语检测比较困难。 已有工作 目前,对非命名实体的新词语的识别方法,主要分为以规则为主的方法和以
您可能关注的文档
- 关联申报与.ppt
- 内部讲师是如何炼成的学员版201403.ppt
- 刑法学二4.ppt
- 刑法学二7.ppt
- 创新:电大外语学科发展的动力课件.ppt
- 加强制度建设节约压缩开支讲解.ppt
- 办公费报销流程最新范例文稿.ppt
- 助听器产品注册技术审查指导原则演示.ppt
- 医学教育教学改革动态演示.ppt
- 医学科研和论文撰写中常用的数据处理和统计分析方法演示.ppt
- 中国国家标准 GB/Z 18975.11-2026工业自动化系统与集成 流程工厂(包括石油和天然气生产设施)生命周期数据集成 第11部分: 基于RDFS方法论的参考数据工业简化用法.pdf
- GB 51251-2017 建筑防烟排烟系统技术标准 正式版加条文.pdf
- 《建筑防烟排烟系统技术标准》GB51251-2017(170822报批稿)规范.pdf
- 2025年人形机器人市场研究报告.docx
- 2025年人形机器人市场研究报告.pdf
- 从对话到执行:OpenClaw企业级智能体应用手册.pdf
- 《商业模式创新》.pdf
- Openclaw龙虾全维度安全实战指南.pdf
- 2025年IT行业项目管理调查报告.pdf
- 2025年宠物洗护市场复盘总结及新品趋势.pdf
原创力文档

文档评论(0)