汉语言文字信息处理状况分析.docVIP

下载本文档

4
0
约1.91万字
约 24页
2019-12-23 发布于湖北
举报
版权申诉

汉语言文字信息处理状况分析.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

汉语言文字信息处理状况分析詹卫东北京大学摘要本文第一节概括说明了汉语言文字信息处理的整体态势,以及本文选择哪些内容作为重点分析对象的理由;第二节集中分析了核心技术的现状;第三节分析了应用系统的现状;第四节评述语言资源建设的情况;第五节是结语,指出了本领域值得注意的新动向。关键词汉语信息处理技术评测信息检索机器翻译语料库语言资源一汉语言文字信息处理现状概述自然语言(在本文中具体关注的是汉语语言文字的信息处理,是一个涉及到计算机科学、语言学、文字学、数学、逻辑、认知科学等多个学科的交叉研究领域。对于这样一个交叉特点鲜明的领域,可以从不同视角,在不同层次上来认识。为了更好地概括说明这一领域目前的理论研究以及实际应用状况,本文首先为这一领域勾勒一个相对全面的框架(表一和图一。然后再针对这个框架中“相对更值得一说”的部分展开来加以分析和讨论。表一:汉语言文字信息处理的对象、层次和任务(虚线表示并不总是有严格界限图一:汉语言文字信息处理的宏观架构1 服务平台 ……多语信息服务系统,智能终端 …… 应用系统…… 核心技术…… 基础资源层 …… 1 图一基本上可以看作是对表一中“符号的意义处理”这个层次的展开(“符号的形式处理”已经得到普遍应用,因此本文描述从简。图一中提及的大多数概念都是针对“书面文本”信息处理的,但关于“基础资源”“核心技术”“应用系统”“服务平台”的层级划分,同样适用于“口语语音”信息处理的情况。从上面一表一图出发,可以将当前汉语言文字信息处理的总体发展状况概括为: (1对于符号形式层的处理,已经取得很大成功,并且在社会生活中得到广泛应用。 (2对于符号意义层的处理,一些相对浅层的分析技术已经有很大发展并进入实用,比如中文词语切分技术已经应用于互联网信息检索系统,语音识别技术已经应用于语音电信增值服务(参见第三节,等等;而一些需要对自然语言进行深层分析的技术,比如句法分析、机器翻译等,仍然没有取得突破性进展,离真正走向大规模实际应用还有较大距离。对于上述概括,需要说明的是,尽管符号形式层的处理已经得到普遍应用,但并不是说在这个层次上就没有可研究的问题,不需要进一步发展了。实际上,汉语言文字符号的数字化仍有许多工作要做,也还有不少难关需要攻克。其中比较突出的问题来自两个方面:第一,在人们一般日常的文字信息处理已经完全数字化之外,目前还有相当多的“特殊”的文字内容有待数字化(李宇明,2003。比如中国浩如烟海的古籍内容在信息时代需要全面实现数字化,就涉及到大规模中文字库的研制2,涉及到汉字OCR (光学字符识别技术的改进;再如对大量手写内容和历史上的科技文献内容的数字化,以及视频图像中所包含文字信息的数字化,就会涉及到对复杂版面内容(包括图文、公式、表格等以及图像信号的分析处理。这些都是在符号的形式层进行信息处理需要解决的问题。第二,随着信息产品的日益丰富和普及,越来越多的嵌入式设备和便携移动式信息设备(比如手机,固定电话的显示模块等走进人们的生活,如何在这些微型设备中实现文字内容的数字化(即汉字的存储、传输等,也是科研人员面临的新挑战。显然,上述这两个方面的问题,要求人们从一“大”一“小”两个方向来寻求如何更好地进行汉字符号形式层的处理。尽管如此,鉴于汉字符号形式层的信息处理在相当大的范围内已经达到实用程度,下文将重点分析符号意义层的信息处理状况,这一方面是受篇幅的限制;另一方面也是因为,随着研究的深入,许多符号形式层的处理问题,需要在符号意义层取得进展后反作用于形式层的处理,比如汉字OCR 汉字识别或者音字转换,要达到非常高的质量,就要求在后处理阶段,对识别出来的文字序列进行内容理解,从各种可能性中筛选出有意义的正确序列,排除无意义的错误序列,才可能得到更好的效果。此外,从这一领域学术刊物和学术会议上发表的论文的分布情况看,也显示当前的汉语言文字信息处理研究,是以符号意义层的信息处理研究为重点和热点,而对符号形式层的信息处理研究,关注度相对较少一些。下面图二、图三基本显示了这一现状。图二:中文信息学报2005年论文分布情况表0 5101520253035词句篇图像音字 5101520253035综合资源建设机器翻译字智能检索《中文信息学报》(双月刊是中国中文信息学会会刊,该刊刊登的论文应该说能够基本反映中国语言信息处理目前的整体发展水平和研究态势。2005年《中文信息学报》6期共 2 对此不难从汉字字符集的发展看出。比如作为国家标准的汉字字符集,从最早的GB2312只对常用(一、二级的6764个汉字进行了编码,到后来的GBK ,GB18030,先后增加到20902,27533字。而一些IT 企业研制的字库数量更是庞大,比如微软Offi