- 6
- 0
- 约1.15万字
- 约 67页
- 2019-03-12 发布于天津
- 举报
面向互联网应用的中文浅层语言分析技术 张华平 博士 副教授 研究生导师 计算机语言信息处理研究所 副所长 2010-3-12@Nokia Beijing 纲要 常用汉语分词方法综述 浅层语言分析的需求背景 ICTCLAS2010: 中文浅层语言分析集大成者 互联网搜索对语言分析的新需求与挑战 总结与展望 问题背景 汉语的书面语是按句分开的,词与词之间没有明确的分隔标记。 词是最小的能够独立活动的有意义的语言成分 。 中文信息处理只要涉及句法、语义(如检索、翻译、文摘、校对等应用),就需要以词为基本单位。句法分析、语句理解、自动文摘、自动分类和机器翻译等,更是少不了词的详细信息 。 分词的必要性:词语信息熵大,计算速度更快 主要困难 重叠词、离合词、词缀 高高兴兴,高兴高兴,糊里糊涂,白花花,研究研究,个个,回回,工作工作(错误) 洗了一个澡,担什么心,发理了没有 学术性、花儿,盆儿 主要困难2:汉语的切分歧义 交集型歧义(交叉型歧义):如果字串abc既可切分为ab/c,又可切分为a/bc。其中a,ab,c和bc是词;占86%. 有意见: 我 对 他 有 意见。 总统 有意 见 他。 组合型歧义(覆盖型歧义):若ab为词,而a和b在句子中又可分别单独成词,占14%. 马上: 我 马上 就 来。 他 从 马 上 下来。 将来: 我 将来 要 上
您可能关注的文档
最近下载
- 我的叔叔于勒_课本剧.pdf VIP
- 健康主题班会《网络安全保密教育》PPT班会课件.pptx VIP
- 鼎捷erp全套操作参考手册.docx VIP
- 《战略十讲》本土化战略教材的最通俗演绎.pptx VIP
- NB∕T 32036-2017 光伏发电工程达标投产验收规程.pdf VIP
- 中国老年2型糖尿病防治临床指南(2026年版).pdf VIP
- 北师大版小学三年级下册数学期中测试题共5套.docx VIP
- 五下语文基础默写单(1-8单元).pdf VIP
- 智能电桥使用说明书 2011-5-11.doc VIP
- 2025 年小升初云浮市初一新生分班考试英语试卷(带答案解析)-(人教版).doc VIP
原创力文档

文档评论(0)