语言处理中的知识.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
语言处理中的知识

语言信息处理--绪论 绪论 大纲 语言处理中的知识 歧义 模型和算法 语言、思维和理解 学科现状与近期发展 语言处理简史 自然语言 语言处理中的知识 自然语言处理 把处理口语和书面语(统称为“语言”)的计算技术称为语音和语言处理,简称自然语言处理 自然语言处理和其他处理系统的区别 是否使用语言知识 例如:unix系统中的wc应用程序 wc用来计算文本文件中的字节数、词数或行数 语言处理中的知识 语言处理中的知识 语言处理中的知识 语言处理中的知识 语言处理中的知识 语言处理中的知识 语言处理中的知识 语音学与音系学—研究语言的语音 形态学—研究词的有意义的组合 句法学—研究词与词之间的结构关系 语义学—研究意义 语用学—研究如何用语言来达成一定的目的 话语学—研究大于段的语言单位 歧义 语言信息处理的绝大多数或者全部研究都可以看成是在其中某个层面上的消解歧义 I made her duck I cooked waterfowl for her. (我给她烹饪鸭子) I cooked waterfowl belonging to her. (我烹饪属于她的鸭子) I created the (plaster?) duck she owns. (我把她的石膏(?)鸭子作了创新) I caused her to quickly lower her head or body. (我使她很快地把她的头或身体放低一些) I waved my magic wand and turned her into undifferentiated waterfowl. (我挥动魔杖把她变成了一只人们一点儿也看不出破绽的鸭子) 模型和算法 状态机(state machine) 包括状态、状态之间的转移、输入表示等 形式规则系统(formal rule system) 正则语法、正则关系、上下文无关语法 逻辑(logic) 逻辑表达方法是处理语义学、语用学和话语分析等方面知识的选择工具 概率论(probability theory) 其他的各种模型都可以使用概率得到进一步提高 也是一种机器学习(machine learning)的模型 语言、思维和理解 图灵测试 计算机对于语言的使用情况来作为判断计算机是否能进行思维的依据 参加测试者:两个人,一台计算机 ELIZA(1966年) 用户:你看起来有些像我的父亲 ELIZA:你认为我那些特点像你的父亲呢? 学科现状与近期发展 目前的研究领域 信息检索 机器翻译 文语转换 …… 近期发展 数字图书馆 电子学习 残疾人帮助 …… 语言信息处理简史 基础研究:20世纪40年代—50年代 两个阵营:1957年—1970年 四个范型:1970年—1983年 经验主义和有限状态模型的复苏:1983年—1993年 不同领域的合流:1994年— 基础研究:20世纪40年代—50年代 自动机的研究 图灵(Turing)提出了自动机理论—现代计算机科学的基础 McCulloch-Pitts的神经元(neuron)理论 Kleene关于有限自动机和正则表达式的研究 Shannon把离散马尔可夫过程的概率模型应用于描述语言的自动机 Chomsky—把有限状态自动机作为一种工具来刻画语言的语法,把有限状态语言定义为由有限状态语法生成的语言 基础研究:20世纪40年代—50年代 概率或信息论模型的研究 Shannon—用于语音和语言处理的概率算法的研制 把通过诸如通信信道或声学语音这样的媒介传输语言的行为比喻为噪声信道(noisy channel)或解码(decoding)。 利用术语 “熵”(entropy)来作为测量信道的信息能力或者语言的信息量的一种方法。 两个阵营:1957年—1970年 符号派(symbolic) Chomsky等形式语言理论和生成句法研究 人工智能的研究 随机派(stochastic) 贝叶斯方法开始用于解决最优字符识别问题 四个范型:1970年—1983年 随机范型(stochastic paradigm) 隐马尔可夫模型和比喻为噪声信道与解码的模型 基于逻辑的范型(logic-based paradigm) 基于自然语言理解的范型(Natural Language Understanding) 话语模型范型(discourse model paradigm) 经验主义和有限状态模型的复苏:1983年—1993年 过去chomsky对于Skinner的“言语行为”(Verbal Behavior)的很有影响的评论在这时遭到了理论上的反对 受IBM的Thomas J.Watson研究中心的语音识别概率模型的影响,提出了语音和语言处理的概率模型。 不同领域的合流:1994年— 概率和数据驱动的方法几乎成

文档评论(0)

牛X文档 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档