- 1、本文档共30页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
* 全信息理论与中文信息处理 钟义信 智能科学技术研究中心 北京邮电大学 2006-8-24 yxzhong@ieee.org 目 录 一,问题的提出 二,解决的方法 三,研究的重点 一,问题的提出 中文信息(自然语言)处理的重大社会需求 1,人际交往 -- 多种语言的存在 -- 全球交往的进程 -- 学习语言的困难 -- 机器翻译的前景 2,人机合作 -- 人类操作能力的局限 -- 机器工作性能的威力 -- 机器认知能力的潜力 -- 人机能力的天然互补 中文信息(自然语言)处理的核心目标 表面上看,“中文信息处理”研究工作的着眼点和落 脚点应是中文信息的“处理” – 如词语切分,词形标注, 语句分析,专名识别,词语消岐,等等。 实质上看,研究工作的目标是“使机器能够在一定 程度上理解中文信息”,或对中文信息实现一定认知。 无论从 “人际通信” 还是 “人机合作” 的需求来看, 处理都是手段,理解(认知)才是目的。 自然语言 “理解” 与人工智能 1,智能的核心是思维;语言是思维的表达;因此语 言也是智能的表达。 2,理解(认知),是智能的内核;因此自然语言理 解是人工智能的基本研究方向。 3,自然语言理解本质上是人工智能、信息科学、 认 知科学和语言学的交叉科学。 4,自然语言理解系统本质上是一类智能系统。 智能系统的核心机制:信息-知识-智能转换 需求/约束 信息获取 信息执行 信息传递 信息传递 预处理 决策 本体 信息 智能 策略 智能行为 目标 认知 知识 感觉 器官 传导 系统 思维 器官 效应 器官 传导 系统 有序信息 知识库 需求/约束 实得 信息 信息-知识-智能转换:自然语言理解通用方法论 智能行为 信息-知识转换 知识-智能转换 信息知识转换 知识库 信息(问题与约束) 结果(性能与评价) 归纳 归纳 演绎 目的 中文信息处理研究的现状 中文信息处理研究领域取得了许多重要进展和重 要成果;但基本理论、基础资源、基本工具、基本方 法和性能水平离实际应用的要求还有相当差距。 中文信息理解的研究基本上突破了纯粹语法分析 的层次,正在走向语法与语义分析相结合的新阶段。 但是,还少有语用要素的考虑:还没有真正到位。 统计方法(归纳)基于大数定律,方法论上是“从众”, 不要求真正达到理解。是初级认知方法。 缺点:假设难满足;结论平均性;真理常在少数人手中。 优点:容易操作,尤其是有了计算和网络技术的支持。 自然语言“机器认知”的两种基本方法 两种方法性质互补,谁也不能单独包打天下。问题是如 何实现 “统计与规则方法的有效结合:大统计,小规则”。 规则方法(演绎)基于理解和规则推理,是处理新问题 和复杂问题不可避免的高级认知方法。 缺点:规则难建立;规则难完备;规则不灵活。 优点:可信(如果规则和前提均可信) 自然语言理解(机器认知)的困难和意义 自然语言理解是世界级难题,至今没有得到满意 的解决。如果有所进展,将是具有世界意义的贡献。 自然语言理解是人工智能的典型应用,它的困难充 分表现在:一方面是自然语言表达的多样性、灵活性、 复杂性、动态性,一方面是机器“理解”能力的机械性、 被动性与局限性。 即使是人(更不要说机器)对自然语言的理解也需 要经过长时间的训练和学习,需要在大量“记忆+模仿” 实践的基础上才能逐渐生长出“自主理解”的能力。 二,解决的方法 全信息理论与自然语言理解 语言是信息的载体;信息是语言的内核。理解自然 语言的本质是理解它所载荷的信息,因此要用信息论。 但现有信息论不能解决问题。 “全信息理论”是北京邮电大学智能研究中心创建的 信息理论[1, 2, 3],拥有自主知识产权。 [1] 钟义信,全信息理论,北京邮电大学学报,1984 [2] 钟义信,信息科学原理,北京邮电大学出版社, 1988第一版,1996 第二版,2002第三版 [3] 钟义信等,信息科学教程,北京市研究生教育重点 精品教材,北京邮电大学出版社,2004 Shannon信息论只关心“噪声中的信号波形复制” 问题: X = {xn
文档评论(0)