中文信息处理复习提纲概要.pptVIP

  • 9
  • 0
  • 约1.39千字
  • 约 79页
  • 2020-09-15 发布于福建
  • 举报
复习提纲 《中文信息处理概论》 徐润华,2014年秋季 语言信息处理 °语言信息处理就是用计算机对自然语言在 各个层次(语素、词、短语、句子、段落 篇章)上的各种表现形式(图像、声音 文本)的信息进行处理:输入、输出 转换、存储、压缩、检索、抽取和提炼 ●涉及智能处理时往往是“用计算模型”而 非仅仅是“用计算机 语言信息的抽取和提炼 ■数据是具体的,知识是概括的。 ■目前是数据太多而知识太少,信息爆炸但 又面临知识获取的瓶颈问题。 数据处数据倉库中按掘知言信 中文信息处理的特殊性 ■汉字的特殊性:字数多,简体、繁体和异 体,与外文字符的协调处理 书面汉语的特殊性:需要进行词语切分。 汉语语音的特殊性:语音系统简单。 汉语语法的特殊性:形态贫乏。 中文信息处理的研究内容 基础研究:包括汉字字符集的编码体系 中文信息处理的发展战略和基本方法,汉 语计算模型,汉语语料库和语言知识库的 建设,系统自动评测,等等。 应用研究:面向最终用户的系统软件和应 用软件的设计和研制。 中文信息处理的 些基础性技术研究课题 自动分词:将口语或书面语中的词切开(词是基 本的语言单位,很多应用研究需要先自动分词) 词性标注:标出词在具体上下文中的词类(词性 序列目前是大多数句法分析器的输入) ■词义标注:标出词在具体上下文中的义项或义类 (服务于信息检索、机器翻译等应用研究) 句法分析:分析出句子中每个语法形式的结构关 系和所处层次(服务于机器翻译等应用研究)。 中文信息处理的一些应用研究课题 汉字识别(印刷体识别,手写识别,图片、视频中 的汉字识别) 汉语语音识别(自动听写,口语查询,口语命令) 汉语语音合成(朗读机,自动查询中的口语反馈) ■汉语信息检索(搜索引擎,自动文摘,文本分类) 汉外机器翻译(例如 Google的在线翻译) ■其他:汉字输入法,自动校对,机器辅助词典编撰 机器辅助汉语、汉字教学,少数民族语言信息处 理,古代汉语信息处理,等等。 基于规则的方法 用确定性的规则来做问题求解。理性主义方法。 优势:便于利用专家知识,无须先做人工标注。 困难:专家知识可能不全面、不充分或不适用。 自动分词的最大匹配法是一种基于规则的方法 用待切分汉字串中的子串去查词表,查到了就算 是词(优先查找较长子串)。例如: 这首诗太平淡了 “太平淡”应该切成“太/平淡”还是“太平/淡 ”?汉语词汇学没有提供这种知识。 基于统计的方法 把从语料库中得到的统计数据作为模型参数,用 模型来做问题求解。经验主义方法 优势:系统容易构造,效果通常不错。 困难:数据稀疏,领域转移困难。 自动分词的概率方法是一种基于统计的方法,根 据词频表将待切分字串中所有可能的词都找出来 ,然后求出一种概率乘积最大的切分。例如“太 平淡”的各种可能切分中第一种概率乘积最大 太平淡 太平淡太平淡 训练集、开发集、测试集 通常把经过人工标注或人工校对的实验用语料库 划分为训练集、开发集、测试集三个集合,训练 集用于提供模型参数,开发集用于实验过程中检 验和改进模型性能,测试集用于实验结束后最终 评判模型性能 计算机只能从训练集里学习模型参数。开发集和 测试集则都是作为评测的标准答案。 ■例如,将实验用语料划分为10份,其中开发集和 测试集各1份,其余8份作为训练集。

文档评论(0)

1亿VIP精品文档

相关文档