作为人工智能分支的自然语言处理:停滞的技术-精选版.ppt

作为人工智能分支的自然语言处理:停滞的技术-精选版.ppt

  1. 1、本文档共38页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
作为人工智能分支的自然语言处理:停滞的技术-精选版.ppt

作为人工智能分支的自然语言处理: 停滞的技术 赵 海 上海交通大学 计算机科学与工程系 zhaohai@cs.sjtu.edu.cn 沈阳 2010.09.18 * 起源 以人工智能的知识工程的角度来看待分析当前的自然语言处理技术。 当前的自然语言处理被机器学习为代表的自动化数据挖掘技术所严重渗透。 可将其归结为一种知识获得和学习分离的智能系统处理方法。 忽略了基本的机器学习原则而导致低效的知识处理 两个关联但是有区别的困境 单一的数据挖掘方式的自然语言处理未能从根本上改变知识表示和知识获取的人工智能困难。 以监督学习为代表的统计机器学习方法并不能带来真正的实用化的推广性能增长。 我们的建议。 * 内容 自然语言处理中的机器学习技术的兴起 被忽略的准则 没有免费的午餐 丑小鸭 Zipf律 困境的实例 学习性能增长根本来源是语料增长 指数增长的语料带来线形的性能提升 结语 * 机器学习的兴起 现代方法 最大熵用于词性标注 Adwait Ratnaparkhi, Jeffrey C. Reynar, Salim Roukos. A Maximum Entropy Model for Prepositional Phrase Attachment. HLT 1994 机器翻译 Franz Josef Och, Hermann Ney. Discriminative Training and Maximum Entropy Models for Statistical Machine Translation. In ACL 2002: Proc. of the 40th Annual Meeting of the Association for Computational Linguistics (best paper award), pp. 295-302, Philadelphia, PA, July 2002. CoNLL The Conference on Computational Language Learning (CoNLL-97) was held on July 11, 1997 in Madrid, Spain. Named entity recognition, chunking, semantic role labeling, dependency parsing, joint learning of syntactic and semantic dependencies, etc * 机器学习方法的兴起 中文处理 Bakeoff-1: 2003 分词 Bakeoff-2: 2005 分词,统一的机器学习方法 Bakeoff-3: 2006 分词,命名实体识别 Bakeoff-4: 2007,2008 分词,命名实体识别,词性标注 * 为什么要机器学习 样本比规则好定义 规则会忽略低频情形 语言的解释涉及的因素过多 Fernando Pereira Machine Learning in Natural Language Processing University of Pennsylvania NASSLLI, June 2002 * 为什么要机器学习 机器学习降低了知识表示的难度! * 机器学习方法的特征 标注数据:语料 知识表示 学习方法 知识获取 * 机器学习方法的特征 机器学习针对于传统的人工智能。 知识表示和获取的分离 语料构建:专注于知识表示 机器学习:专注于知识获取 对比:专家系统 规则的获取和表示是同步的。 规则的管理是低效率的,困难的。 * 机器学习和知识源 从知识工程看待机器学习 规则1 学习模型本身/特征体系 规则2-n 标注语料 * 学习模型 学习模型的三要素 目标函数:知识源 特征体系:部分的知识源 参数估计算法:与知识源基本无关 * 机器学习:数据 假定已有数据合理近似现实世界? 拥有数据 训练数据集(training set data):训练 测试数据(testing data):评估 验证集[validation set]:避免过拟合[overfitting]。 真实数据(real data):最终的检验 * 学习模型并不重要 定理:没有免费的午餐 结论描述 by David Wolpert and William G. Macready 由于对所有可能函数的相互补偿,最优化算法的性能是等价的。 没有其它任何算法能够比搜索空间的线性列举或者纯随机搜索算法更优。 该定理只是定义在有限的搜索空间,对无限搜索空间结论是否成立尚不清楚。 参考文献 Wolpert, D.H., Macready, W.G. (1

文档评论(0)

liuxiaoyu92 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档