- 10
- 0
- 约1.19万字
- 约 79页
- 2016-02-06 发布于湖北
- 举报
中文信息处理复习提纲.创新.ppt
* 现有分词歧义消解方法的不足 交集型歧义消解 基于记忆的方法简单有效,但这是一种颗粒度极细的语言知识,难以大幅度提高其覆盖度(据报道只能覆盖50%)。 基于词频的方法没有考虑单字词词频,有时会导致错误的选择。 组合型歧义消解 穷尽组合型歧义字串是一个困难的任务。 每种组合型字串的歧义消解知识都是个性化的,无法推广到其他字串。 * N元模型(Ngram) N元模型认为,状态序列中的某个状态是否出现,只与它前面的N-1个状态有关(马尔科夫假设)。 N元模型求序列W的概率时,是在概率乘法定理基础上的简化。大大减少了计算量,缓解了数据稀疏问题。 马尔科夫假设并不完全符合语言实际。这既是模型的一个缺点,但同时也是为了实用而付出的必要代价。 * Ngram举例 从词串“提高 人民 生活 水平”中,可提取: Bigrams:提高 人民,人民 生活,生活 水平 Tigrams:提高 人民 生活,人民 生活 水平 从字串“提高人民生活水平”中,可提取: Bigrams:提高,高人,人民,民生,生活, 活水,水平 Tigrams:提高人,高人民,人民生,民生活, 生活水,活水平 * N元模型可以做什么? N元模型用于解决序列构成问题。例如: 汉字识别后处理,由于每个位置上是什么汉字都可能有多种选择,因此可构成多种汉字序列。问题是,哪种汉字序列是正确的? 中文自动分词,由哪些候选词构成词
您可能关注的文档
- 中国移动网络与信息安全保障体系.创新.ppt
- 中国移动以太网交换技术基础.创新.ppt
- 中国艺术.创新.ppt
- 中国艺术学.创新.ppt
- 中国饮食文化绪论.创新.ppt
- 中国银行高山案创新.ppt
- 中国银行简介.创新.ppt
- 中国饮食文化与健康创新.ppt
- 中国硬币美学研究.创新.ppt
- 中国银行银行卡策划案.创新.ppt
- 广东省深圳市福田区侨香外国语学校2025届数学八上期末经典模拟试题含解析.doc
- 2025届湖南省浏阳市初三下十月阶段性考试试题语文试题含解析.doc
- 江西省江西师大附中2026届高三第六次质量检查生物试题含解析.doc
- 江苏省连云港市灌南县2025年三上数学期末质量跟踪监视模拟试题含解析.doc
- 银川科技学院《社交礼仪》2023-2024学年第一学期期末试卷.doc
- 江苏省南京雨花台区七校联考2025届初三下学期第一次周考语文试题(重点班)试题含解析.doc
- 山东省滨州市十二校2025届高一语文第二学期期末综合测试试题含解析.doc
- 西昌学院《经济法》2021-2022学年第一学期期末试卷.doc
- 邯郸市邯山区2024-2025学年四下数学期末复习检测模拟试题含解析.doc
- 安徽林业职业技术学院《毒理学基础A》2023-2024学年第二学期期末试卷.doc
最近下载
- 江苏省高考历史知识点详解.pdf VIP
- 冲刺2025年高考语文真题重组卷(新高考专用)05(原卷版) .pdf VIP
- 2025年四川省专升本高等数学考试真题及答案.docx VIP
- 旋挖灌注桩施工技术交底.pdf VIP
- 二代测序技术在肿瘤精准医学诊断中应用专家共识.pptx VIP
- 肠胃健康日常养护全攻略.pptx VIP
- 康明斯QSK19发动机维修手册 英文.pdf VIP
- Schneider Electric施耐德XPSECM... XPSECP... Safety modules for increasing the number of safety contacts安装和用户指南(英语).pdf
- xpsecm xpsecp n 2a09900安全触点扩展块输出.pdf VIP
- 建设项目造价文件管理导则在线自测(每日一练).docx VIP
原创力文档

文档评论(0)