- 1
- 0
- 约1.37千字
- 约 30页
- 2020-09-15 发布于福建
- 举报
一唤化
张华平刘群
hanghp( software ict ac cn
中科院计算技术研究所
2002-5-28
纲要
问题背景与难点分析
主要研究方法与相关系统
我们的研究思路—基于多层HM的一体化
方法
基于N-最短路径的词语粗分
°基于角色标注的未登录词识别
计算所中文词语一体化分析系统 ICTCLAS
题背景与难点分析
问题背景
今汉语的书面语是按句分开的,词与词之间没有
明确的分隔标记。
今词是最小的能够独立活动的有意义的语言成
分
令中文信息处理只要涉及句法、语义(如检索、
翻译、文摘、校对等应用,就需要以词为基本
单位。句法分析、语句理解、自动文摘、自动
分类和机器翻译等,更是少不了词的详细信
问题背景与难点分析Ⅱ
分词的必要性
evidence
phySIcS
understand school
physics
p
theory
barber
subject
products
science
理
study
credit
物理学
Image
reason
student
physicist
6×5×5=150
问题背景与难点分析II
中文词语分析的主要难点
歧义
交叉歧义(86%)
结合成分子时
组合歧义(14%
这个人手上有痣
我们缺人手
全局歧义与局部歧义
乒乓球拍/卖/完了;
乒乓球拍卖完了
我很难过
问题背景与难点分析IV
未登录词问题
干扰作
原创力文档

文档评论(0)