- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
863计划中文信息处理与智能人机接口
基础数据库内容及其共享模式简介
单位:中国科学院计算技术研究所
联系方式:钱跃良,林守勋。刘群,刘宏.
电子邮件:bli嫂i£±:墼:gn
电话传真
摘要信息:
863计划中文信息处理与智能人机接口资源库,是“十五”期间在863计划计算机软硬
件技术主题专家组的领导下,由中国科学院计算技术研究所、中国科学院自动化研究所、
中国科学技术大学、清华大学、社会科学院语言所等多家单位共同完成。专家组委托中国
科学院计算技术研究所集中管理资源,为相关技术研究和科学评测提供基础数据,避免重
复劳动、促进交流与合作。在国家863计划扶持下.我国在中文信息处理和智能化人机交
互技术等方面都积累了丰富的资源和成果,目前863基础数据库已经有较大的规模和覆盖
面.整个数据库的容量超过500G,包括了以下6个大类:文字类,文本类,音频类,视
频类,人体生物特征类和多模式类,共25个基础库。另外还有2003年到2005年阃国
家863计划技术评测的评测基础数据库。目前这些资源库已进行了数十次转让,大大促
进了国内外相关研究的发展。
一、基础数据库研究与建设的重要性
开展中文信息处理和智能人机接口技术的研究.对于我国信息化建设和信息产业的
发展具有重要的战略意义。中文信息处理与智能人机接口技术的研究范围十分宽广,目
前主要的研究内容有:自然语言处理技术(包括机器翻译、检索和自动文摘等)、文字识
别技术(包括印刷体和手写体文字识别等)、语音处理技术(包括语音识别与语音合成
等)、计算机视觉与图像处理技术、生物特征信息处理技术(包括指纹识别、虹膜识别、
脸像识别、笔迹鉴别和声纹识别等)、多媒体技术、虚拟现实技术和多模式人机交互技
术等等。
在开展上述关键技术研究过程中,其核心算法不管采用的是统计方法、规则方法,
还是目前流行的基于语料库的方法,总体上讲,都需要一定规模的语料或样本对核心算
法进行训练。在这里我们把这些语料和样本数据称之为基础数据。显然,基础数据库是
开展中文信息处理和智能化人机交互技术研究与开发的基础。此外,基于基础数据库的
关键技术评测已成为一种客观评价的重要手段,使得评测结果具有可比行性。
针对这一现状,“十五”期问.国家863计划计算机软硬件技术主题专家组对中文
信息处理和智能人机接口领域关键技术的研究发展进行了全面的部署,并设立了“中文
平台总体技术研究和基础数据库建设”的重点课题,集中支持了中文信息处理与智能人
机接口领域的基础数据库(以下简称863基础数据库)的建设.其目的在于为相关关键
··132·-
技术研究和科学评测提供基础数据.避免重复劳动、促进交流与合作。基础数据库的共
享应用,对充分发挥大规模基础数据库的共享优势,避免小规模数据封闭性重复建设,推
进本领域关键技术的研究开发,加速我国信息化的进程和相关产业的发展具有极其重要的
意义。
二、 基础数据库内容简介
目前,863基础数据库的特点是门类比较齐全,数据规模太,内容丰富:这些资源既
是关键技术研究开发所需的数据,同时又是可比评测的基础。按照“需求驱动、总体规划、
分段实施”的设计原则,根据关键技术研究的需要和技术发展趋势,进行基础数据库的
总体规划,并按照关键技术对技术数据库需要的紧缓程度,分阶段地开展基础数据库的
建设。经过多年的努力。截至到2006年底,853基础数据库已经有较大的规模和覆盖面,
整个数据库的容量超过500G,包括了以下6个大类:文字类.文本类,音频类,视频类,
人体生物特征类和多模式类,共25个基础库,以及评测基础数据库。具体的数据内容
如下:
2.i文字类
文字类的数据主要用于文字识别的关键技术研究和产品开发,目前主要建立了大字
符集联机手写汉字识别样本库,约400万字的样本,具体内容如下:
字符集 人数 每人书写样本数 合计样本数
100人 20721 2072100
GB/T18030(不含GB/T2312)
GB/T18030全部
原创力文档


文档评论(0)