中文信息处理复习提纲概要.pptVIP

下载本文档

9
0
约1.39千字
约 79页
2020-09-15 发布于福建
举报

中文信息处理复习提纲概要.ppt

复习提纲《中文信息处理概论》徐润华,2014年秋季语言信息处理 °语言信息处理就是用计算机对自然语言在各个层次(语素、词、短语、句子、段落篇章)上的各种表现形式(图像、声音文本)的信息进行处理:输入、输出转换、存储、压缩、检索、抽取和提炼 ●涉及智能处理时往往是“用计算模型”而非仅仅是“用计算机语言信息的抽取和提炼 ■数据是具体的,知识是概括的。 ■目前是数据太多而知识太少,信息爆炸但又面临知识获取的瓶颈问题。数据处数据倉库中按掘知言信中文信息处理的特殊性 ■汉字的特殊性:字数多,简体、繁体和异体,与外文字符的协调处理书面汉语的特殊性:需要进行词语切分。汉语语音的特殊性:语音系统简单。汉语语法的特殊性:形态贫乏。中文信息处理的研究内容基础研究:包括汉字字符集的编码体系中文信息处理的发展战略和基本方法,汉语计算模型,汉语语料库和语言知识库的建设,系统自动评测,等等。应用研究:面向最终用户的系统软件和应用软件的设计和研制。中文信息处理的些基础性技术研究课题自动分词:将口语或书面语中的词切开(词是基本的语言单位,很多应用研究需要先自动分词) 词性标注:标出词在具体上下文中的词类(词性序列目前是大多数句法分析器的输入) ■词义标注:标出词在具体上下文中的义项或义类 (服务于信息检索、机器翻译等应用研究) 句法分析:分析出句子中每个语法形式的结构关系和所处层次(服务于机器翻译等应用研究)。中文信息处理的一些应用研究课题汉字识别(印刷体识别,手写识别,图片、视频中的汉字识别) 汉语语音识别(自动听写,口语查询,口语命令) 汉语语音合成(朗读机,自动查询中的口语反馈) ■汉语信息检索(搜索引擎,自动文摘,文本分类) 汉外机器翻译(例如 Google的在线翻译) ■其他:汉字输入法,自动校对,机器辅助词典编撰机器辅助汉语、汉字教学,少数民族语言信息处理,古代汉语信息处理,等等。基于规则的方法用确定性的规则来做问题求解。理性主义方法。优势:便于利用专家知识,无须先做人工标注。困难:专家知识可能不全面、不充分或不适用。自动分词的最大匹配法是一种基于规则的方法用待切分汉字串中的子串去查词表,查到了就算是词(优先查找较长子串)。例如: 这首诗太平淡了 “太平淡”应该切成“太/平淡”还是“太平/淡 ”?汉语词汇学没有提供这种知识。基于统计的方法把从语料库中得到的统计数据作为模型参数,用模型来做问题求解。经验主义方法优势:系统容易构造,效果通常不错。困难:数据稀疏,领域转移困难。自动分词的概率方法是一种基于统计的方法,根据词频表将待切分字串中所有可能的词都找出来 ,然后求出一种概率乘积最大的切分。例如“太平淡”的各种可能切分中第一种概率乘积最大太平淡太平淡太平淡训练集、开发集、测试集通常把经过人工标注或人工校对的实验用语料库划分为训练集、开发集、测试集三个集合,训练集用于提供模型参数,开发集用于实验过程中检验和改进模型性能,测试集用于实验结束后最终评判模型性能计算机只能从训练集里学习模型参数。开发集和测试集则都是作为评测的标准答案。 ■例如,将实验用语料划分为10份,其中开发集和测试集各1份,其余8份作为训练集。

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

中文信息处理复习提纲概要.pptVIP