汉语言文字信息处理状况分析.PDF

  1. 1、本文档共12页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
汉语言文字信息处理状况分析

汉语言文字信息处理状况分析 詹卫东 北京大学 摘 要 本文第一节概括说明了汉语言文字信息处理的整体态势,以及本文选择哪些内容作 为重点分析对象的理由;第二节集中分析了核心技术的现状;第三节分析了应用系统的现状; 第四节评述语言资源建设的情况;第五节是结语,指出了本领域值得注意的新动向。 关键词 汉语 信息处理 技术评测 信息检索 机器翻译 语料库 语言资源 一 汉语言文字信息处理现状概述 自然语言(在本文中具体关注的是汉语语言文字)的信息处理,是一个涉及到计算机科 学、语言学、文字学、数学、逻辑、认知科学等多个学科的交叉研究领域。对于这样一个交 叉特点鲜明的领域,可以从不同视角,在不同层次上来认识。为了更好地概括说明这一领域 目前的理论研究以及实际应用状况,本文首先为这一领域勾勒一个相对全面的框架(表一和 图一)。然后再针对这个框架中“相对更值得一说”的部分展开来加以分析和讨论。 表一:汉语言文字信息处理的对象、层次和任务(虚线表示并不总是有严格界限) 对象 书面文本 口语语音 任务 [视觉符号] [听觉符号] 层次 文本理解 ⎡机器翻译 信息检索…⎤ 语音识别 ⎡口语翻译…⎤ 处理符号的意义 ⎢ ⎥ ⎢ ⎥ 文本生成 ⎣文本摘要 问答系统…⎦ 语音合成 ⎣口语问答…⎦ 汉字输入、存储、输出 语音信号采集、 处理符号的形式 篇章版式分解与生成 波形特征抽取、波形生成 图一:汉语言文字信息处理的宏观架构1 …… …… …… 多语信息服务系统, 服务平台层 智能终端 …… 应用系统层 问答系统 …… 机器翻译 信息检索 信息提取 文本校对 核心技术层 词语切分 句法分析 句对齐 索引、检索 …… 基础资源层 …… 语料库 词库 规则库 字库 语音库 1 图一基本上可以看作是对表一中“符号的意义处理”这个层次的展开(“符号的形式处理”已经得到普遍 应用,因此本文描述从简)。图一中提及的大多数概念都是针对“书面文本”信息处理的,但关于“基础资 源”“核心技术”“应

文档评论(0)

ldj215322 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档