ICTCLAS2010完美双数组TRIE树词典管理算法Motivation.PPTVIP

  • 6
  • 0
  • 约1.15万字
  • 约 67页
  • 2019-03-12 发布于天津
  • 举报

ICTCLAS2010完美双数组TRIE树词典管理算法Motivation.PPT

面向互联网应用的中文浅层语言分析技术 张华平 博士 副教授 研究生导师 计算机语言信息处理研究所 副所长 2010-3-12@Nokia Beijing 纲要 常用汉语分词方法综述 浅层语言分析的需求背景 ICTCLAS2010: 中文浅层语言分析集大成者 互联网搜索对语言分析的新需求与挑战 总结与展望 问题背景 汉语的书面语是按句分开的,词与词之间没有明确的分隔标记。 词是最小的能够独立活动的有意义的语言成分 。 中文信息处理只要涉及句法、语义(如检索、翻译、文摘、校对等应用),就需要以词为基本单位。句法分析、语句理解、自动文摘、自动分类和机器翻译等,更是少不了词的详细信息 。 分词的必要性: 词语信息熵大,计算速度更快 主要困难 重叠词、离合词、词缀 高高兴兴,高兴高兴,糊里糊涂,白花花,研究研究,个个,回回,工作工作(错误) 洗了一个澡,担什么心,发理了没有 学术性、花儿,盆儿 主要困难2:汉语的切分歧义 交集型歧义(交叉型歧义):如果字串abc既可切分为ab/c,又可切分为a/bc。其中a,ab,c和bc是词;占86%. 有意见: 我 对 他 有 意见。 总统 有意 见 他。 组合型歧义(覆盖型歧义):若ab为词,而a和b在句子中又可分别单独成词,占14%. 马上: 我 马上 就 来。 他 从 马 上 下来。 将来: 我 将来 要 上

文档评论(0)

1亿VIP精品文档

相关文档