中文信息处理- Chinese- Information- Processing课件.pptVIP

中文信息处理- Chinese- Information- Processing课件.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
中文信息处理的发展 语料库统计方法兴起的近期阶段 1979年,武汉大学建设的汉语现代文学作品语料库,共计527万字,是我国最早的机器可读语料库 《人民日报》收集了48年的全部文字和图像内容,公开发行 北京大学计算语言学研究所与富士通公司(Fujitsu)合作,加工2700万字的《人民日报》 语料库 1998年,清华大学建立了1亿汉字的语料库,着重研究歧义切分问题,现在生语料库已达7-8亿字 香港城市理工大学语言资讯科学研究中心建立了LIVAC(Linguistic variety in Chinese communities)语料库,其宗旨在于研究使用中文的各个地区使用语言的异同。总字数为15,234,551字,经过自动切词和人工校对之后总词数约为8,869,900词 用来翻译和研究各种不同语言对比的语料库 北大、哈工大、东北大学建立的英汉双语语料库 北京外国语大学的北京日本学研究中心建立了2000万字的汉语和日语并行语料库 * 中文信息处理的发展 以Internet为主要应用对象,大规模真实文本,智能信息访问的现阶段 Internet迅猛发展,根据中国互联网络信息中心发布的报告,截止到2002年6月30日,中国上网计算机总数1613万,上网用户总数4580万 主要需求有信息分类,信息提取,自动问答,基于内容的快速信息检索,基于个性的信息推送,数字化图书馆和信息网格等 * 中文信息处理技术发展问题的探讨 汉语言学家没有为中文信息处理作好语言分析的准备,长期以来,对汉语的研究方法基本上是例举性的,而非穷尽的;材料和对象基本上是书面的,而非口语的 中文信息处理研究力量分散而且存在着低层次重复,缺乏统一规范和标准的问题 现代汉语研究领域和计算机领域的隔绝状态没有出现根本性的改变 * * 超媒体是使用文本、图形、图像、声音和电视图像等媒体任意组合的一种交互式信息传播媒体 。多媒体是超媒体系统中的一个子集 。 中文信息处理--绪论 中文信息处理--绪论 中文信息处理 Chinese Information Processing 张宇 哈尔滨工业大学计算机科学与技术学院 zhangyu@ir.hit.edu.cn * 主要教材 朱巧明,李培峰,吴娴,朱晓旭等编著。中文信息处理技术教程,清华大学出版社。2005年9月第一版 Christopher D.Manning,Hinrich Schutze。统计自然语言处理基础,电子工业出版社。2005年1月第一次印刷 * * 主要内容 信息处理 中文信息处理 计算机中文信息处理主要研究对象 现代汉语的特点 中文信息处理的发展 中文信息处理技术发展问题的探讨 * 信息 控制论创始人(维纳 Norbert Wiener) 信息既不是物质也不是能量,是人类在适应外部世界时以及在感知外部世界时而作出协调时与外部环境交换内容的总和。 信息论奠基者(香农 Clause Shannon) 信息就是能够用来消除不确定性的东西,是一个事件发生概率的对数的负值 Robert M. Losee 信息可以被定义为一个处理过程的特征,这些特征就是输入和处理过程中产生的信息 * 信息的分类 按照计算机处理的信息形式 文本信息 多媒体信息 超媒体信息 按照信息的结构化程度 结构化信息 半结构化信息 非结构化信息 按照信息的保密程度 公开信息 一般保密信息 绝密信息 * 信息处理 信息处理就是对信息的接收、存储、转化、传送和发布 信息的接收:包括信息的感知、信息的测量、信息的识别、信息的获取以及信息的输入等; 信息的存储:把接收到的信息或转换、传送或发布中间的信息通过存储设备进行缓冲、保存、备份等处理; 信息的转化:把信息根据人们的特定需要进行分类、计算、分析、检索、管理和综合等处理; 信息的传送:把信息通过计算机内部的指令或者计算机之间构成的网络从一地传送到另外一地; 信息的发布:把信息通过各种表示形式展示出来。 * 中文信息处理 中文信息处理是用计算机对汉语的音、形、义等语言文字信息进行的加工和操作,包括对字、词、短语、句、篇章的输入、输出、识别、转换、压缩、存储、检索、分析、理解和生成等各方面的处理技术。 《计算机科学技术百科全书》 清华大学出版社,1998 * 计算机中文信息处理主要研究对象 汉字键盘输入技术 汉字输出技术 软件汉化技术 汉字字形识别技术 汉语语音识别技术 激光照排技术 中文平台 文本分类 信息检索 * 汉字键盘输入技术 汉字键盘输入技术是一种通过键盘使汉字进入计算机的技术 汉字编码 采用四位十进制数把常用的汉字用“0”—”9”十个数字按照次序进行编码 四角码(字形码) 用“0”—”9”十个数字键对汉字的四个角的形状进行编码 机内码 用2字节、3字节、4字节来表示一个汉字的机器内部码 国际标准化组

文档评论(0)

liuxiaoyu99 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档