- 9
- 0
- 约1.39千字
- 约 79页
- 2020-09-15 发布于福建
- 举报
复习提纲
《中文信息处理概论》
徐润华,2014年秋季
语言信息处理
°语言信息处理就是用计算机对自然语言在
各个层次(语素、词、短语、句子、段落
篇章)上的各种表现形式(图像、声音
文本)的信息进行处理:输入、输出
转换、存储、压缩、检索、抽取和提炼
●涉及智能处理时往往是“用计算模型”而
非仅仅是“用计算机
语言信息的抽取和提炼
■数据是具体的,知识是概括的。
■目前是数据太多而知识太少,信息爆炸但
又面临知识获取的瓶颈问题。
数据处数据倉库中按掘知言信
中文信息处理的特殊性
■汉字的特殊性:字数多,简体、繁体和异
体,与外文字符的协调处理
书面汉语的特殊性:需要进行词语切分。
汉语语音的特殊性:语音系统简单。
汉语语法的特殊性:形态贫乏。
中文信息处理的研究内容
基础研究:包括汉字字符集的编码体系
中文信息处理的发展战略和基本方法,汉
语计算模型,汉语语料库和语言知识库的
建设,系统自动评测,等等。
应用研究:面向最终用户的系统软件和应
用软件的设计和研制。
中文信息处理的
些基础性技术研究课题
自动分词:将口语或书面语中的词切开(词是基
本的语言单位,很多应用研究需要先自动分词)
词性标注:标出词在具体上下文中的词类(词性
序列目前是大多数句法分析器的输入)
■词义标注:标出词在具体上下文中的义项或义类
(服务于信息检索、机器翻译等应用研究)
句法分析:分析出句子中每个语法形式的结构关
系和所处层次(服务于机器翻译等应用研究)。
中文信息处理的一些应用研究课题
汉字识别(印刷体识别,手写识别,图片、视频中
的汉字识别)
汉语语音识别(自动听写,口语查询,口语命令)
汉语语音合成(朗读机,自动查询中的口语反馈)
■汉语信息检索(搜索引擎,自动文摘,文本分类)
汉外机器翻译(例如 Google的在线翻译)
■其他:汉字输入法,自动校对,机器辅助词典编撰
机器辅助汉语、汉字教学,少数民族语言信息处
理,古代汉语信息处理,等等。
基于规则的方法
用确定性的规则来做问题求解。理性主义方法。
优势:便于利用专家知识,无须先做人工标注。
困难:专家知识可能不全面、不充分或不适用。
自动分词的最大匹配法是一种基于规则的方法
用待切分汉字串中的子串去查词表,查到了就算
是词(优先查找较长子串)。例如:
这首诗太平淡了
“太平淡”应该切成“太/平淡”还是“太平/淡
”?汉语词汇学没有提供这种知识。
基于统计的方法
把从语料库中得到的统计数据作为模型参数,用
模型来做问题求解。经验主义方法
优势:系统容易构造,效果通常不错。
困难:数据稀疏,领域转移困难。
自动分词的概率方法是一种基于统计的方法,根
据词频表将待切分字串中所有可能的词都找出来
,然后求出一种概率乘积最大的切分。例如“太
平淡”的各种可能切分中第一种概率乘积最大
太平淡
太平淡太平淡
训练集、开发集、测试集
通常把经过人工标注或人工校对的实验用语料库
划分为训练集、开发集、测试集三个集合,训练
集用于提供模型参数,开发集用于实验过程中检
验和改进模型性能,测试集用于实验结束后最终
评判模型性能
计算机只能从训练集里学习模型参数。开发集和
测试集则都是作为评测的标准答案。
■例如,将实验用语料划分为10份,其中开发集和
测试集各1份,其余8份作为训练集。
您可能关注的文档
- 中成药用药指导治风类中成药.ppt
- 中成药配方详解复方鱼腥草片.ppt
- 中成药临床的应用的原则及其概述.ppt
- 中控智能锁的资料.ppt
- 中招历史材料解析题答题的技巧.ppt
- 中文CorelDRAW X5的案例教程.ppt
- 中文乱码解决的方法.ppt
- 中房信2019年3月棕榈泉绥中的项目定位的报告市场的环境分析.ppt
- 中文信息处理技术简介汇总.ppt
- 中文信息记忆法.ppt
- 2026年办公电器行业智能化技术发展分析.docx
- 2026年新能源能源培训行业投融资趋势报告.docx
- 2026年工业设备压力传感器技术升级与市场规模报告[001].docx
- 2026年汽车照明行业政策环境与市场前景分析报告.docx
- 2026年新能源分布式能源行业政策支持报告.docx
- 2026年全球服务器芯片市场竞争格局及市场发展趋势报告.docx
- 2026年直播行业监管政策及内容合规发展法律合规报告[001].docx
- 2026年新能源电动汽车电池回收行业重点企业竞争力分析报告.docx
- 2026年室内照明行业市场调研及品牌竞争力分析.docx
- 2026年新能源产业链金融发展报告.docx
原创力文档

文档评论(0)