中文信息处理概述.pptVIP

  1. 1、本文档共45页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
中文信息处理概述

中文信息处理概述 For 对外汉语方向本科生 本章内容 释名 汉语的特点----中文信息处理的难点 中文信息处理的研究内容 汉语信息处理的主攻方向 中文信息处理的发展阶段 中文信息处理的现状 对当前中文信息处理现状的哲学反思 目前国内中文信息处理的主要力量和代表人物 释名 中文信息处理(Chinese Information Processing) 中文信息处理分为汉字信息处理与汉语信息处理两部分,是用计算机对汉语的音、形、义等语言文字信息进行的加工和操作,包括对字、词、短语、句、篇章的输入、输出、识别、转换、压缩、存储、检索、分析、理解和生成等各方面的处理技术。 中文信息处理是一门与语言学、计算机科学、心理学、数学、控制论、信息论、声学、自动化技术等多种学科相联系的边缘交叉性学科,是自然语言信息处理的一个分支。 汉字信息处理(Chinese Character Information Processing) 用计算机对汉字所表示的信息进行的操作和加工。 释名 Chinese Information Processing(CIP) 中文信息处理 ——Chinese character Information Processing 汉字信息处理 CIP Chinese character (IT) = Chinese ideograph (Sinology) ——Chinese language Information Processing 汉语信息处理 Language Information Processing 语言信息处理 (1) NLP/ CIP (2) Chinese-centered Multi-lingual Information Processing 以汉语为核心的多语言信息处理 汉语的特点----中文信息处理的难点 汉语文字文本的语言单位边界糢糊。 词间无间隔 人名、地名不大写 句子之间界限不清晰 汉字 完全使用由象形文字演化而来的方块汉字; 字是汉语表义的基本单位。一个汉字既可以只能作为构词成分,也可以独立成词,甚至可以独立成句 汉语的特点----中文信息处理的难点 词语 “词”无严格的形式定义,词本身也没有明显的形态标志 词没有形态变化;词性兼类现象严重 虚词常常省略,与实词形式上无区别 词性与句子成分之间无一一对应关系,中心谓语动词难以确定 多动词连用现象突出 汉语的特点----中文信息处理的难点 句子 结构松散 我上街买菜,看见一个人,穿着一件军大衣,打了卖菜的一巴掌,脸都肿了。 语法灵活,即缺乏狭义的形态,汉语句子中各个成分之间的关系一靠词序,二靠“意合”,三靠虚词 句子语序灵活,语句格式丰富 语义灵活 一方面语法的灵活主要来源于语义的灵活;另一方面同一结构可以表达不同的意思,同一意思可以用不同结构表达。 现代汉语研究现状 --之于中文信息处理 现代汉语研究和计算机使用的脱节,现代汉语研究已经大大滞后于中文信息处理的现实需求 一是过去的语言学知识主要是为人与人之间的交际服务的,不能完全适应人与机器的交流。 二是过去对现代汉语的研究,基本上都是在研究印欧语的理论和方法的框架内进行,汉语有很多现象是这些理论和方法解决不了的。 中文信息处理的研究内容 研究对象:文字和语音 语言单位和层面:字-词-句-篇 基础研究 基础理论:语言学 基础方法 人工智能:知识工程,机器学习,模式识别,神经计算 数学: 模型理论,形式化理论,数理统计 基础技术 基础资源 基础系统/平台 应用研究 应用技术 应用资源 应用系统/平台 研究对象 文字 汉字键盘输入技术 汉字输入技术 软件汉化技术 汉字字形识别技术 激光照排技术 文本分类 信息检索 语言单位和层面 字 汉字编码技术 汉字输入技术 汉字字形和字形库管理技术 汉字输出技术 词 汉语分词 句篇 中文信息检索 中文信息抽取 中文文本分类技术 汉语信息处理的主攻方向—两个实例 两个实例 实例一 关于自动升降晾衣架的对话 妻子:“嘿,过了一年才坏。” 丈夫:“什么呀,才一年就坏了。” 丈夫理解了妻子的意思吗? 汉语信息处理的主攻方向—两个实例 实例二 关于“沙漠化”的文章 “几年前由于种植籽瓜有利可图,使大批的种植者就到过渡带来开垦,……。在这样的绿洲和沙漠过渡带开垦,极易造成风蚀。” ——今日民航2001年9月号 就/ 到/ 就到/ 到/ 到过/ 过/ 过渡/ 带/ 来/ 带来/ 汉语信息处理的主攻方向—歧义消解 词的切分 白天鹅 计算机程序可以按某种算法

文档评论(0)

118books + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档