网站大量收购独家精品文档,联系QQ:2885784924

面向计算机的语言研究.ppt

  1. 1、本文档共41页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
面向计算机的语言研究 黄昌宁 微软亚洲研究院 cnhuang@ 报告提纲 1.自然语言处理(NLP)的目标 2.自然语言的歧义性 3.概率化参数模型(PPM) 4.应用系统举例 5.结论(两种语言研究的对比) 1. 自然语言处理的目标 ▅ 让用户能通过自然语言与计算机对话 The future of computing is the computer that talks, listens, sees, and learns. That is what is being created at Microsoft Research. -- Bill Gates ▅ 通过机器翻译跨越语言壁垒,以便让全世界每个用户都能共享因特网的浩瀚信息和无限商机。 大规模真实文本处理 ▅ NLP 从实验室走向实用化的重要标志 ▅ 1990年被列为第13届国际计算语言学大会 (Coling’90)的主题 ▅ 12年来取得的成果: ? 搜索引擎: ? MyNews: /service ? 信息抽取(IE): ? 语料库标注:http://www.hcu.ox.ac.uk/BNC/ 方法论的分歧 关于经验主义和理性主义方法的论争 ? 自然语言的歧义性和大规模真实文本处理的需求把经验主义方法推向第一线。 ? 十年前第4届机器翻译的理论和方法国际会议(TMI-92) 的主题是:“机器翻译中的经验主义和理性主义方法” 。 ? 面向计算机的语言研究:语言知识表示和知识获取都发生了实质性的转变。 报告提纲 1.自然语言处理(NLP)的目标 2.自然语言的歧义性 3.概率化参数模型(PPM) 4.应用系统举例 5.结论(两种语言研究的对比) 同音字——汉字拼音输入 每个不带调的音节平均对应19个汉字 单音节“yi”对应131个汉字:一,以,已,异,亦,伊,意,易,毅,仪,依,宜,议,衣… ? shishi:实施,事实,实时,实事,适时,时时 ▅ 一个含10个音节的句子,平均生成 1910 条可能的汉字序列 ▅ 用词的三元模型(trigram)实现拼音-汉字转换,出错率比市场上原有产品大约减小50% 多音字——文语转换(TTS) ● 行(xing):步行,一行,行头,人行道, 发行,流行, 进行,… ● 行(hang): 行列,行业,排行,行家, 人行, 工商行,… ● 乐(le): 快乐,欢乐, 娱乐,… ● 乐(yue): 音乐,乐队,乐手,… 自动分词 ? 交集型歧义字段(OAS):AB/C 或 A/BC 不只是,从今后,法学院,曲剧团,热汤面,大队长 ● 建设/有/效率/的精干的机构 (1694) ● 他/只得/到/工厂值班室去睡觉(325) ? 组合型歧义字段(CAS):AB 或 A/B 上将,成人,学会,国有,个人,马上,都会,阵风 ● 怎么样/才/能/抓住机遇 (202:24) ? 未登录词识别(误切) ● 坎/昆/市/市长/拉/腊/和/夫人 ● 瑞/闽/铝/板/带/有限公司 自动分词的评测 对一个句法分析系统的评测 ● 错误的分布: 分词 词性 组块 中心词 40% 24% 12% 24% ● 分词错误的分布: 人名 地名 机构名 新词 OAS 10% 20% 30% 30% 10% 专名识别的评测 人名(%) 地名(%) 机构名(%) P R P R P R 系统A 94.5 78.1 85.4 72.0 71.3 13.1 系统B 90.7 74.4 93.5 44.2 64.2 46.9 系统C 78.0 78.7 76.7 73.6 81.7 21.6 测试集 4,347 5,311 3,850 (1MB) 思考问题 分词的任务定义清楚了吗?知识从哪里来? 词典为什么帮不上忙? 靠现有的句法-语义知识能解决分词歧义吗? ● 一个重要的理念 面向计算机的语言知识有什么特性? ● 语言运用知识的来源:语料库 ● 知识的表示:概率化参数模型 ● 语言知识的获取:统计学习理论 多乂词 ■ 据《同义词词林》统计: 最小类总数: 1,428 词形总数: 42,724 多义词占词形总数的 14.8% ■ 据语料库统计: 多义词占总词次数的 42% (句法)结构歧义 结构

文档评论(0)

kaku + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:8124126005000000

1亿VIP精品文档

相关文档