论中文信息处理中若干关键技术.docVIP

下载本文档

5
0
约2.68千字
约 5页
2017-03-20 发布于北京
举报
版权申诉

论中文信息处理中若干关键技术.doc

1、本文档共5页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

论中文信息处理中若干关键技术.doc

论中文信息处理中若干关键技术摘要：随着科学技术不断发展，各种信息资源数量不断增多，人们往往需要进行一些必要信息处理，因此信息处理已经成为一项重要内容。信息处理设计多方面内容，主要包括词性选择、信息筛选、自然语言理解、摘要筛选、自动标引筛选、信息结构分析、信息检索等。针对当前信息处理需求，本文就中文信息处理若干关键技术进行研究。关键词：中文信息处理关键技术检索中图分类号：TP391.1 文献标识码：A 文章编号：1007-9416（2015）07-0000-00 随着人们各项需求不断提升，信息处理技术得到长足发展，产生多种有效信息处理关键技术，这些关键技术改进了基于概率统计的属性选择算法，改进了词语间依存关系的定量识别，提出具有增量学习能力以及信息分类法以及基于子空间的信息聚类算法等，这下关键技术给信息处理带来极大便利。 1 中文信息处理的难点从全世界范围来看，汉语是一种相对独立的语言，无论语言结构上还是文字上都与其他语言存在天壤之别。汉字是一种综合性文字，集合了匈奴、鲜卑、突厥、契丹、满、蒙古、梵语灯多种文字，由此造就中文以下特点：（1）中文完全由象形文字演变而来，是当今方块字的主流。（2）汉字以单个汉字为基本单元，词语之间并不存在明显分隔符，也不存在明显的形态标记。因此中文信息处理中一大难题就是中文分词，即在进行中文信息处理过程中会出现一定错误率，降低了信息处理效果。（3）中文处理结构较为松散，在对同一句子处理过程中可能得出不同结论。（4）汉语语法具有较强灵活性，句子本意处了语序关系外还与需靠意合和虚词。当前大多自然语言处理均通过英文为研究对象发展而来，因此英语在世界范围内更具通用性。中文无论在发音、文字、语法、语义等多个方面均与英文存在较大差异，因此中文信息处理无法将英文信息处理方式照搬过来，甚至在形式上都难以模仿。从计算机模型角度来说，汉语是其中不够发达的语言，因此对中文信息处理带来巨大挑战和压力。 2 中文信息处理需求随着信息大爆炸时代的到来，信息量呈现数量级增加趋势，各种信息不断丰富，这也信息获取过程更加高效便捷，必须对信息处理方式进行研究，尤其是研究高效准确的信息处理算法。通过科学有效的信息处理办法促使人们在信息海洋中能够及时获取自己需要的信息。信息处理方式设计多方面内容，主要有信息分类、信息摘要、信息聚类、信息索引、主题标注等等。当前中文信息处理已经开始深入探究并取得一定成效，并出现一些具有代表性关键技术，为中文信息处理提供有效平台。 3中文信息处理基础中文信息处理主要指通过计算机程序语言对汉语进行存储、转换、加工、分析等，从某种意义上来说中文信息处理主要指一门利用计算机心理学、数学、科学、信息论、声学、控制论、智能化等多种计算机相关功能进行综合处理的边缘学科。 4 中文信息处理若干关键技术 4.1 汉字编码汉字编码是汉字信息处理中最重要部分之一，也是中文信息处理过程的重要技术，当前中文信息处理中汉字编码是一个难题，从整个信息处理过程来看是薄弱环节，当前国内汉字编码方式不下于四百种，而实际能够运用于计算机的不超过五十中，这些汉字编码均通过键盘输入，主要有小键盘、中键盘、大键盘三种，就编码方式来看主要有拼音码、笔形码、字元码、影响结构的混合编码几种。（如图1）拼音码在汉字编码研究初期便实现，但由于汉字存在大量多音字现象导致汉字检索重复率较高，给中文信息处理带来较大难度。笔形码指将汉字通过笔画进行分类，将汉字与对应数码或英文字母，并按照一定组合原则生成汉字代码。如当前常用的五笔码就是笔形码之一。字元码主要产生于字典查询汉字中的部首而来。当前人们常用键盘由于键盘数量有限，无法将所有字元都一一对应于键盘上，因此字元码采用分组方式，将若干字元分为一组，该组对应与某一按键上，因此便形成人们常说的二十六键、三十六键、六十键、九十键等几种原理相同的编码方案。汉字所包含的字元数各不相同，从一个到七八个不等。因此为节省存储空间提高输入速度需进行汉字字元码码长限制。音形结合码主要是将汉字读音部分信息与汉字自行部分编码结合在一起，该种方式集合了汉字音码以及形码的有点，同时兼具音码以及形码的缺点。目前仍旧处于探究阶段。汉字编码问题相当复杂，入门简单，深究却存在较大难度。 4.2 汉字信息的压缩存储技术当前较为先进的汉字信息的压缩存储技术主要包括高密度点阵字模的压缩存储与再生技术，初除此之外还有汉字信息压缩迭加还原技术。我国中科院某学者研究成功的汉字信息的压缩存储技术?E能够成功将汉字压缩至16K。 4.3 中文图书情报检索系统相比于西方图书情报检索系统，我国在该方面起步较晚，目前虽然已经建立一些实验性图书情报检索系统，但针对中文这一特殊字体而言系统性不足。随着人们需求不断增加，中文信息处理技术处于不