ICTCLAS2010完美双数组TRIE树词典管理算法Motivation.PPTVIP

下载本文档

6
0
约1.15万字
约 67页
2019-03-12 发布于天津
举报

ICTCLAS2010完美双数组TRIE树词典管理算法Motivation.PPT

面向互联网应用的中文浅层语言分析技术张华平博士副教授研究生导师计算机语言信息处理研究所副所长 2010-3-12@Nokia Beijing 纲要常用汉语分词方法综述浅层语言分析的需求背景 ICTCLAS2010: 中文浅层语言分析集大成者互联网搜索对语言分析的新需求与挑战总结与展望问题背景汉语的书面语是按句分开的,词与词之间没有明确的分隔标记。词是最小的能够独立活动的有意义的语言成分。中文信息处理只要涉及句法、语义(如检索、翻译、文摘、校对等应用),就需要以词为基本单位。句法分析、语句理解、自动文摘、自动分类和机器翻译等，更是少不了词的详细信息。分词的必要性：词语信息熵大，计算速度更快主要困难重叠词、离合词、词缀高高兴兴，高兴高兴，糊里糊涂，白花花，研究研究，个个，回回，工作工作（错误）洗了一个澡，担什么心，发理了没有学术性、花儿，盆儿主要困难2：汉语的切分歧义交集型歧义（交叉型歧义）：如果字串abc既可切分为ab/c，又可切分为a/bc。其中a，ab，c和bc是词；占86%. 有意见：我对他有意见。总统有意见他。组合型歧义（覆盖型歧义）：若ab为词，而a和b在句子中又可分别单独成词，占14%. 马上：我马上就来。他从马上下来。将来：我将来要上

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

ICTCLAS2010完美双数组TRIE树词典管理算法Motivation.PPTVIP