1.2SCUT-COUCH数据库简介-华南理工大学人机智能交互实验室(HCII.docVIP

1.2SCUT-COUCH数据库简介-华南理工大学人机智能交互实验室(HCII.doc

  1. 1、本文档共20页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
1.2SCUT-COUCH数据库简介-华南理工大学人机智能交互实验室(HCII

SCUT-COUCH Textline_NU 联机手写数据库使用手册 Version 1.1 HCII Laboratory SCUT 华南理工大学 人机通信智能接口实验室 / 1.简介 近年来,对联机手写汉字识别(OHCCR)的研究近年来受到越来越多的学者、科研机构和公司的关注,而手写体识别也逐渐成为许多便携式设备如个人数码助理(PDA)、掌上电脑(Pocket PC)、智能手机(Smart Phone)等解决识别用户输入的关键技术。SCUT-COUCH Textline_NU(“SCUT” 是华南理工大学“South China University of Technology”的缩写,“COUCH”是“Comprehensive Online Unconstrained Chinese Handwriting”的缩写, “NU”是法国南特大学“Nantes University”的缩写,这样命名是因为一部分(17%)数据库是从法国南特大学采集的)是为了促进联机手写汉字文本行识别、联机手写汉字文本行切分等研究及其应用,由华南理工大学人机通信智能接口实验室(HCII-LAB)制作的一款无约束联机中文手写文本行数据库,它为联机手写识别等研究领域提供了基础的数据。1990年开始,手写体数据库的建立进入繁荣时期:1992,Concordia University发布的脱机手写数据库CENPARMI[1],从真实信封中扫描得到美国的邮政编码。1994年发布的CEDER[2]与CENPARMI类似,但内容和数量上都有所扩展,包含了5000个城市名、5000个州名、10000个邮政编码以及50000个文字数字字符。与CEDER同年公开的另一款手写数据库CAMBRIDGE[3],是第一款包含大词汇量的篇幅级别的英文手写数据库。先后发布于1998年和2002年两个版本的IAM[4],延续了CAMBRIDGE的主要思想,从文集中挑选出一整页面的文字,通过大量不同书写人员进行手抄采集。 在一批英文手写体数据库涌现的同时,其他语言的手写体数据库也不断的被公开,以韩文为采集样本的脱机手写数据库PE92[5]和 KU-1[6];以法语作为采集单元的IRONOFF[7]包括单独的字符、数字以及词组样本,它是一款包括联机样本和脱机样本的手写数据库;另外还有希腊语的数据库GRUHD[8,9], 印度语的数据库ISI[10],日语的数据库ETL-8[11]ETL-9[12]、Kuchibue和Nakayosi[13]。 关于中文手写体数据库,到目前为止,也已经有数款特色数据库相继发表:IAAS-4M[14,15]、ITRI[16,17]、AMITY[18]、HCL2000[19]、HK2002[20]以及 HIT-MW[21]。他们对于中文汉字识别领域的快速发展都起到不可低估的作用。 从上述关于手写体数据库的发展简述中,我们可以观察出手写体数据库的发展大致遵循如下规律: 采集的范围从小类别数发展到了多类别数。 采集的规模从单字符向篇幅级别发展。 采集的方式从采集脱机图像发展到采集联机数据。 基于以上原因我们在SCUT-COUCH的基础上规划并采集了一款全新的联机文本行数据库:SCUT-COUCH Textline_NU(South China University of Technology-Comprehensive Online Unconstrained Chinese Handwriting Text lines Dataset)。 1.2 SCUT-COUCH数据库简介 SCUT-COUCH Textline_NU作为SCUT-COUCH的最新子集,这里对SCUT-COUCH做简要介绍。当前版本SCUT-COUCH数据库包括个子集的完整数据,它们分别是:、阿拉伯数字、国标GB2312-80)一级汉字、国标二级汉字、英文字母、、常用符号、国标一级汉字对应的繁体字、、。SCUT-COUCHPDA、触屏液晶显示器或数字记录笔上独立完成采集Digit 10 195 1,950 GB1 3755 188 705,940 GB2 3008 195 586,560 Letter 52 195 10,140 Pinyin 2010 130 261,300 Symbol 122 130 15,860 TradGB1 1384 130 179,920 WORD2006 (见素材) 30 173,690 WORD2009 5000 47 235,000 WORD8888 8888 130 1,155,440 Textlines_NU 2632 1 156,168 1.3 版权 华南理工大学电子与信息学院人机通信与智能接口已

文档评论(0)

busuanzi + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档