最新中文信息处理复习提纲.ppt
* 现有分词歧义消解方法的不足 交集型歧义消解 基于记忆的方法简单有效,但这是一种颗粒度极细的语言知识,难以大幅度提高其覆盖度(据报道只能覆盖50%)。 基于词频的方法没有考虑单字词词频,有时会导致错误的选择。 组合型歧义消解 穷尽组合型歧义字串是一个困难的任务。 每种组合型字串的歧义消解知识都是个性化的,无法推广到其他字串。 * N元模型(Ngram) N元模型认为,状态序列中的某个状态是否出现,只与它前面的N-1个状态有关(马尔科夫假设)。 N元模型求序列W的概率时,是在概率乘法定理基础上的简化。大大减少了计算量,缓解了数据稀疏问题。 马尔科夫假设并不完全符合语言实际。这既是模型的一个缺点,但同时也是为了实用而付出的必要代价。 * Ngram举例 从词串“提高 人民 生活 水平”中,可提取: Bigrams:提高 人民,人民 生活,生活 水平 Tigrams:提高 人民 生活,人民 生活 水平 从字串“提高人民生活水平”中,可提取: Bigrams:提高,高人,人民,民生,生活, 活水,水平 Tigrams:提高人,高人民,人民生,民生活, 生活水,活水平 * N元模型可以做什么? N元模型用于解决序列构成问题。例如: 汉字识别后处理,由于每个位置上是什么汉字都可能有多种选择,因此可构成多种汉字序列。问题是,哪种汉字序列是正确的? 中文自动分词,由哪些候选词构成词
您可能关注的文档
- 最新中国金融在线(金融界)公司简介(PPT模板).ppt
- 最新中国银行高山案.ppt
- 最新中国长寿之乡〈上〉.ppt
- 最新中国长寿之乡〈下〉.ppt
- 最新中国非处方药管理相关法规和技术评价发展夏东胜.ppt
- 最新中国风室内设计答辩ppt.ppt
- 最新中国风电讲义...ppt
- 最新中国高血压管理3G新时代.ppt
- 最新中国高血压防治指南的进步与发展.ppt
- 最新中国黄金集团公司集团管控管理诊断及分析报告.ppt
- 安全生产管理员能力培训.pptx
- 咽异感症与心理健康促进.pptx
- 咽异感症与扁桃体炎的鉴别.pptx
- 咽异感症与抑郁症的关系.pptx
- 咽异感症与环境污染的关系.pptx
- 《生动的数据》课件-2025-2026学年沪教版(新教材)小学美术三年级下册.pptx
- 《校园微电影宣传策划》教学课件-2025-2026学年人美版(北京)(2024)初中美术七年级下册.pptx
- 《 春华秋实绘花鸟》教学课件-2025-2026学年人美版(北京)(2024)初中美术七年级下册.pptx
- 管理层安全培训策略.pptx
- 《把“大自然”穿在身上》教学课件-2025-2026学年人美版(北京)(2024)初中美术七年级下册.pptx
原创力文档

文档评论(0)