第一届中文信息处理发展国际研讨会.docVIP

第一届中文信息处理发展国际研讨会.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第一届中文信息处理发展国际研讨会

第一届中文信息处理发展国际研讨会 研讨提纲(讨论稿) 什么是中文信息处理? 什么是中文?   中文是联合国六种工作语言之一,是中国56个民族所使用的主语言,也是世界上五分之一以上人口的主语言。中文汉字是中国30种文字中使用最广的文字,方块汉字是其基本表现形式。   与英文的比较,中文的特点有哪些?   与英文相比较,中文的特点表现在字、词、语块、句子、句模和篇章等七个方面:   中文字的特点:字多(一级汉字有3755个,可覆盖现代所用汉字的99.9%,二级汉字有3008个,一、二级汉字可覆盖现代所用汉字的99.99%以上,最常用的汉字有560个,940个常用字,700个次常用字,扫盲标准有1500个字,占现代常用字的95%,一般用字形20902个(ISO/IEC10646(UCS)),汉字字模已有10万字头,但人们估计现代有15万字头。大学毕业生一般可认识4千汉字,中文系毕业生可认识5千字左右,极少数专家可认识9千字。) ,形美,音少(不同的发音只有410余种,加上四声变化,总共1295种),义众,类难,序隐。   中文词的特点:定义糊(能够独立运用的有特定的音、形、义的最小句法单位(印欧语系中最小的句法单位是语素——morpheme),词类混,切分难,词频集中,词长短,词义众,识别易,构成与复合便,组句活,词库多。   中文语块乃是能够自由造句的基本句法单位。   中文句的特点:切分难(句乃能独立交际的最小语法单位),句型(句法上的句子模式称”句型”)多,简练,重意合。   句模(句法上的句子模式称”句模”)的特点是数量不多(不足200个)。   中文篇章的特点:简练,文体众多。 中文与英文最大的不同在于中文表述较为节省:表现同样意思的中文节省,节省了词的分隔符、性、数、格、时态、形态等的变化,动词可省掉语句的安排,省音节。中文语序多为聚焦型,英语1/2为发散型。魏凌云教授认为中文的特点可用3s表示:简、短、直。但又有三大问题:同音字太多,四声变化与南腔北调。 中文要不要走拉丁化的道路?如何走?估计要走多少年? 关于中文的拉丁化道路,现在还难有定论。有人要试验,可以试,但不可勉强。要完成拉丁化道路估计不会少于100年。 什么是信息?各种信息各占多少比例?   信息是一个基本概念,不可用基底法定义,用同义法定义也讲不清。 下表是其枚举式定义与统计报道的各种信息分布的比例。 显然,计算机处理信息的能力正从上表的底层由左向右地迅速扩大。   当前人们众关心什么信息?   根据IBM公司的调查,当前人们最关心的仍是文本信息。 各种信息的特点如何?各种信息的表现形式如何?各有什么特点?   视频,音频的特点是表现形式直观,表达的信息易于被不同层次的对象接受。   超视声频和其他信息现在还鲜有用于计算机处理的例子。其中的文本信息的特点是:易于传播,所需存储空间小。但是交流的群体受到限制。 什么是处理?   处理是指对信息的接收、存储、转化、传送和发布等等操作。   处理分几级?   处理分级至少分为:字级处理、概念处理和智能处理这几级.   什么是智能处理?   智能处理:能模仿人的智能(归纳,抽象,形式推理、联想和自适应等)的处理.   什么是智能? 智能(Intelligence)一词源于“Legere”。意思是收集、汇集,它通常指人类的脑力劳动,包括感知、学习、推理和判断等;有人把它定义成是随外界变化的一种正确的反应能力。 人的智能现在已能让电脑机器模仿的主要是学习、推理、联想、判断与自适应的智能。 智能的方法有哪些? 智能的研究方法主要有三类: 认知学派,从人的思维活动出发,用计算机进行宏观功能模拟: 逻辑学派,用逻辑来研究人工智能,即用形式化方法描述客观世界; 行为学派,以与环境的交互作用来研究智能。 智能的水平已达到什么程度? 智能的发展主要经历了孕育期、基础技术、发展和实用化、知识工程与专家系统四个阶段,当前的主要研究领域:自然语言理解、计算机视觉、机器人学及知识工程。 在可见的未来会发展到什么程度? 智能的未来发展,将会对知识库、专家系统、推理系统和神经网络等综合应用,达到能够模拟人类比较复杂的思维和行为。 什么是中文信息? 中文信息主要是指用中文表示的信息。 中文信息已有哪些种类?大概占多少存储? 古代的经史子集和现代的文体休闲,社会文化等等到处是中文信息。 中文信息在国际上的地位、作用、所占比例如何? 二战以来国际上以美国英语最为流行。国际文献中80%用英语,15%用法语,4%用西班牙语,1%不到的用俄、阿、中。 国外最重视哪些中文信息? 国外最重视的中文信息是:医药与农业。 国内人们最关心什么样的中文信息? 国内最关心的中文信息是:政治、经济、科技。 中文信息处理的内涵、特点、热点各是什么?   中文信息

文档评论(0)

jgx3536 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:6111134150000003

1亿VIP精品文档

相关文档