第四章文本处理技术报告.pptVIP

  • 2
  • 0
  • 约4.5千字
  • 约 28页
  • 2016-06-11 发布于湖北
  • 举报
* * * * 中文词法分析—歧义词切分 两种歧义结构 交集型歧义字段 研究生命的起源 研究/ 生命/ 的/ 起源 研究生/ 命/ 的/ 起源/ 组合型歧义字段 他从马上下来 他/ 从/ 马/ 上/ 下来/ 他/ 从/ 马上/ 下来/ 中文词法分析—未登录词识别 未登录词:未在词表中出现的词 人名、地名、机构名、时间、新词…… 歧义问题 “张朝阳”,“王国维” “邓颖超生前珍藏的书画作品” 未登录词的用字同正常用字混淆 “陈忠和率领的中国女排” “你到底是何居心” 中文词法分析—未登录词识别 解决策略 基于规则的方法 内部规律 中国人名:姓+名 地名:名+表示行政区的名称/自然地理实体的名称 外部规律 特定词语:人名+表明身份的称谓词 重复出现规律 基于统计的方法 中文分词系统实例—IRLAS 英文拼写检查——拼写错误 词语错误 Microsoft?- Mircosoft 语法错误 piece-peace 检索系统处理词语级拼写错误 为用户提供查询建议 英文拼写检查——拼写检查流程 形态还原 在词典中? N Y 正确 Word 在词典中? N Y 正确 相似度计算 修改建议 英文拼写检查——形态还原 形态还原 working, works, worked - work 去除词尾形态变化,还原为词的原形 原形≠词干 总结单词的形态变化规律

文档评论(0)

1亿VIP精品文档

相关文档