生物医学信息学PPT课件-第五章-生物医学自然语言处理与文本挖掘.pptx

生物医学信息学PPT课件-第五章-生物医学自然语言处理与文本挖掘.pptx

国家卫生和计划生育委员会“十三五”规划教材第五章生物医学自然语言处理与文本挖掘徐 华 汤步洲第五章 生物医学自然语言处理与文本挖掘目录第一节:自然语言处理与文本挖掘简介1第二节:生物医学自然语言处理基础技术2第三节:自然语言处理技术在生物医学领域的应用3第四节:生物医学领域常用自然语言处理资源4第五章 生物医学自然语言处理与文本挖掘生物医学自然语言处理与文本挖掘的基础任务及相关算法掌握生物医学自然语言处理的公开语料库和开源工具熟悉重点难点自然语言处理的层次,生物医学自然语言处理与文本挖掘的作用和意义了解第五章 生物医学自然语言处理与文本挖掘第一节简介第一节 简介一、自然语言处理与文本挖掘自然语言处理计算语言学计算机科学的一个分支研究处理自然语言的方法语言学的一个分支研究语言本身研究如何有效地处理自然语言,供计算机直接使用的一门交叉性学科以计算的方式表示语言学理论、框架、模型,探索语言理解和生成方法,发现语言内在规律的一门交叉性学科自然语言处理经常会用到语言学知识,导致计算语言学和自然语言处理的界线越来越模糊,本书对两者也不作区分第一节 简介文本挖掘对非结构化文本数据进行分析从而获得用户关心或感兴趣、有潜在使用价值的信息和知识的过程。对文本进行更高层次的理解,也被称为文本知识发现。文本数据的无结构性使得在知识挖掘的过程中,需要使用自然语言处理技术来抽取文本数据的特征。另外,文本挖掘也有一些自己独特的挖掘任务,如实体关系抽取等。一般认为,自然语言处理是文本挖掘的基础。很多自然语言处理任务直接面向应用,同属于文本挖掘范畴。第一节 简介二、自然语言的语言学结构层次(1)词汇形态:词的内部结构和构成方式。 (2)词法:又称字法,指运用词语必须遵守的语法规则。 (3)句法:句法主要研究句子的内部结构,包括各个组成部分之间的关系及排列顺序。(4)语义:语义一般指词、短语(词组)和句子所表达的含义。(5)语用:语用主要研究在特定语境中特定话语的使用。(6)语篇:语篇是实际使用的语言单元,是交流过程中的一系列连续的语段或句子所构成的语言整体。 第一节 简介三级语言单位与六个理解层次之间的对应关系词(包括中文的字):词汇形态、词法、语义自然语言句子:语法、语义段落与篇章:语用、语篇第一节 简介三、自然语言处理任务词汇形态分析词 词法分析句法分析语义分析语用分析语篇分析信息抽取文本生成文本分类与聚类信息检索问答与对话文本摘要机器翻译语音识别与合成第五章 生物医学自然语言处理与文本挖掘第二节生物医学自然语言处理基础技术第二节 生物医学自然语言处理基础技术一、词汇形态分析 词干提取  词形还原 第二节 生物医学自然语言处理基础技术(一)词干提取词干提取的方法,按实现原理可分为四类 1. 基于规则匹配的方法 2. 基于词典查找的方法 3. 基于统计机器学习的方法4. 混合的方法第二节 生物医学自然语言处理基础技术(一)词干提取基于规则的方法利用语言形态学中特有构词规则,进行词干提取或词缀消减。核心构造完备的、适应性强的语言推导规则库。经典算法Porter算法、Lancaster算法和Lovin算法。局限对于一些非规则的形态变化难以处理。第二节 生物医学自然语言处理基础技术(一)词干提取Porter算法:对元音(V)和辅音(C)重新定义;任意一个单词表示为: 对于每一条规则,若条件(condition)满足,则将词缀S1替换为词缀S2提取步骤1.处理复数。2.当m0时,将双后缀的单词映射为单后缀。3.当m0时,处理“ic”“full”“ness”等后缀。4.当m1时,处理“ant”“ence”“ment”等后缀。5.删除结尾‘e’,将结尾“ll”和“dd”分别转换为‘l’和‘d’。第二节 生物医学自然语言处理基础技术(一)词干提取基于词典的方法 通过查找已知词典进行词形变换,词典中包含着词干形式和其对应的多种词形。局限 过于依赖词典。无法处理未收录的词。词典过大会影响查找速度。第二节 生物医学自然语言处理基础技术(二) 词形还原词形还原的方法,按实现原理可分为四类1.基于规则匹配的方法:可以采用链波下降规则(RDR)。2.基于词典查找的方法:首先进行词性分析,然后利用词和词性等信息来查找该词的原型是否在词典中,如若存在,则返回其原型。3.基于统计机器学习的方法:将词形还原问题作为一个分类问题处理,训练模型。4.混合的方法:结合以上两种或两种以上的方法。第二节 生物医学自然语言处理基础技术二、词法分析 词语切分  词性标注 第二节 生物医学自然语言处理基础技术(一)词语切分难点歧义消除和未登录词识别方法:1.基于字符串匹配的方法:时间复杂度低,速度快,简单易行;歧义消除和未登录词识别效果不佳。常用方法:正向最大匹配算法、逆

文档评论(0)

1亿VIP精品文档

相关文档