网站大量收购闲置独家精品文档,联系QQ:2885784924

张孝飞自然语言处理.ppt

  1. 1、本文档共70页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第三章 中文信息处理 第一节 中文信息处理概述 第二节 汉字信息处理 第三节 中文自动分词和 词性标注 第四节 中文句处理 第一节 中文信息处理概述 一、中文信息处理及其研究内容 二、国内中文信息处理的发展 三、中文信息处理面临的挑战 一、中文信息处理及研究内容 一、什么是中文信息处理 语言的最重要的社会功能是人与人之间交流的工具,但随着计 算机技术的发展以及计算机在各个领域中运用范围的扩大,语言的使 用范围也逐渐扩展到用于人与计算机之间的信息交流,因此如何让计 算机像人一样理解自然语言的问题日益受到人们的重视,并逐步形成 了一门跨语言学、计算机科学等的综合性学科——自然语言处理( 简 称NLP) 。 所谓自然语言处理就是运用计算机技术来研究和处理自然语言 的交叉性学科。其主要目标是要让计算机懂得和理解人类的自然语言, 也就是要使计算机能模拟人的语言机制。 目前,它已成为一门重要的新兴边缘学科。它的出现“使得语言学在 现代科学体系中的地位有了明显的变化,使语言学由一门基础科学变成了领 先科学,获得了与数学、哲学同等的地位,语言学将成为人文科学发展的突 破点和生长点,它的重要意义已为越来越多的人所认识。 中文特指汉民族的语言文字,也就是汉语的书面形式和口头形式,是众多 自然语言中的一种。作为自然语言处理研究的一个部分,中文信息处理指的是 用计算机对中文(包括汉语的书面语和口语)进行存贮、转换、分析、传输等 加工以形成各种信息处理系统的科学。 二、中文信息处理研究的范围 中文信息处理是一个多层次的结构,主要包括中文“字”处理“、词”处理和 “句”处理几个方面。 其应用领域主要涉及:情报(信息)自动检索、 语音识别 与合成、索引、词表和词典的编纂、语料库建设、方言研究、人机对话、机器 翻译、语言测试以及计算机辅助语言教学等。 国家语委语料库75:8080/cqs/query/search_words?query=%E5%A5%A5%E8%BF%90%E4%BC%9Ayear_start=1900year_end=2000category=subcategory=sort_type=0show_type=1 北京大学语料库 /resource.asp 情报(信息)自动检索的应用: 银行信用卡存取款;学校查成绩; 网络搜索软件:网上通辑逃犯:电子商务 二、国内中文信息处理的发展 第一台电子计算机问世后,学者们将之运用于语言翻译,机器翻 译成为20世纪50-60年代自然语言处理的中心课题。 中文信息处理的研究在我国已有近50年的历史。早在1956年, 我国学者就提出了研制中文电动打字机以及用汉字编码方法把汉字 转换成信息代码进行传输等问题,引起了国内外学者的关注。 1958年,新华社、邮电部、中央机要局合作设计了鼓轮式中文 电传机。 1959年中国科学院计算技术研究所和语言研究所合作,在我国 试制的第一台电子计算机上进行了俄汉机器翻译试验,这是中文信 息和计算机的最早结合。 1969年邮电科学研究院试制成功我国第一台电子式中文电报快 速收报机,揭开了用计算机技术处理汉字信息的序幕。 1978 年在青岛成立了全国汉字编码研究会,这是我国中文信息 处理方面的第一个学术团体。 1981年在天津成立了中国中文信息研究会,后来改称中国中文 信息学会,

文档评论(0)

junjun37473 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档