- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
20141217计算语言学_学习总结
内容来自中科院刘群研究员计算语言学PPT的整理笔记
一、概述
1. 应用
机器翻译(MT)
信息检索(IR)
自动问答(QA)
自动文摘(AU,automatic summary)
信息抽取(IE)
信息过滤(IF)
特点
2.1 定义:计算语言学是一门以计算为手段对自然语言进行研究和处理的科学。
区别:自然语言和形式语言的本质区别在于前者具有歧义性。
语言的层次划分:从底层到上层,词法-句法-语义-语用
2.2 歧义现象
词法层歧义:i)词性兼类歧义。例子:工作-ng、vg,高-adj、ng;ii)词语切分歧义。 例子:乒乓球/拍卖/完/了/、乒乓/球拍/卖/完/了/,南京/市长/江大桥/、南 京市/长江大桥/
句法层歧义:结构歧义。例子:张三/和/李四的朋友/、张三和李四/的/朋友/;
语义层歧义:i)一词多义。例子:“杜鹃”,可以是一种鸟,也可以是一种花;ii)一义多词。例子:“可能、大概、也许”。
语用层歧义:例子:“你很好。”正义,“你很好!”反义。
2.3 未登陆词:现有知识库,比如WordNet、HowNet、FrameNet等,均无法解决未登录词的问题。
2.4 中文特点:中文是以字为基本单位,但中文意义是以词语为基本单位;中文词语未被分割,做中文处理的第一步就是分词;中文无词形变化的特点,词语的词性难以区分;中文是词语序列的意义组合,无固定的结构
2.5 一些语言学特点:Zipf定律:汉字出现的频率与汉字按词频排列的名次大体等于一个定值;常见的汉字定量,大概在四五千个左右;汉字的使用频率符合高斯定律;
二、基础知识
1. 基于规则的基础知识
1.1 词典。词典结构
1.2 形式语言自动机。
背景。描述一种语言,通常联想到三种方法。i)穷举。缺点:语言变化的多样性导致不能完全穷举,且穷举时间、空间复杂度大;ii)语法总结。缺点:语法不可能总结所有的语言现象,且语法之间会出现冲突。鉴于以上两者的缺陷,采用iii)形式语言自动机。即给出能识别该语言句子的机械方法。
形式语法。四元组G=初始符,非终结符,终结符,规则表示。
基于统计的基础知识
2.1 概率论:样本空间、事件随机变量、概率、联合概率、条件概率、贝叶斯分布、概率分 布、协方差、相关系数、参数估计、极大似然比、马尔科夫过程。
2.2 统计学:各种常见分布、三大分布函数、Dirichlet分布、卡方检验、T检验。
2.3 信息论:熵、联合熵、条件熵、互信息、困惑度。
熵:描述事件的不确定性。熵越大,表示事件的不确定性越高。熵等于0,事 件确定。熵等于1,表示随机事件为均匀分布。
最大熵理论:在无外力作用下,事物总是朝着最混乱的方向发展。即在已知条 件下,熵最大的事物,最可能接近它的真实状态。
2.4 自然语言处理:统计模型,如HMM、CRF、ME、SVM等。
文本处理相关知识
文本表示:布尔模型、VSM、BM25、倒排索引
文本存储:Hash映射、Trie树,B树、红黑树
文本特征:词、词性、上下文信息、位置信息、词间信息、词内信息
文本相似度计算:cosine、SAO、PCA、LDA
三、词法分析
1. 分词
1.1 基于词典的分词方法
正向最大匹配
逆向最大匹配
双向最大匹配:当正向匹配和逆向匹配出现不一致的情况时,利用一些特征(比如:分词后的个数最少、分词后的单字非连续等)来选择最优的分词结果。
1.2 基于统计模型的分词方法
N元语法模型。
理论:任何字的集合都可以构成句子,只是构成句子的概率大小不一样。当字集合达到一定 概率,就认为是句子。
缺陷:没有考虑语言内部的结构信息。
方法:利用训练语料,统计测试语料中N元字之间的概率,将满足最大概率的句子当做正 确的结果。N等于1,为1元模型,即假定当前字仅和前一个字有关,N等于2,为 2元模型,即假定当前自仅和前两个字有关,N等于3,即假定当前字仅和前三个字 有关。
数据平滑:在利用训练语料进行统计的时候,会出现训练语料数据稀疏导致概率为0的情况, 这时需要做平滑处理。方法:加1法,Good Turing,绝对减值法,线性减值法, 回退法。
2. 词性标注(POS Tagging)
2.1 基于转换的错误驱动方法:基于转换规则,先给出初始标记,然后不断修正。通过语料库学习转换规则,是一种有监督的学习方法。
2.2 基于HMM的词性标注(成果:ICTCLAS 利用层叠HMM实现的分词、词性标注、命名实体识别的工具。)
3. 命名实体识别
3.1 i)专有名词:人、地、机构、……;ii)专业名词
3.2技术路线:基于HMM、ME、CRF等模型,基于角色标注的命名实体识别
新词发现
基于字标注的句法分析
5.1 基于字的分词方法
基于HMM的分词方法:将词进行切分标记,切
您可能关注的文档
最近下载
- 深度学习基础及应用(人工智能、大数据技术、计算机等相关专业)全套教学课件.pptx
- 《深度学习基础及应用》教案 第9课 利用循环神经网络进行文本预测和分类(二).docx VIP
- 《深度学习基础及应用》教案 第8课 利用循环神经网络进行文本预测和分类(一).docx VIP
- 《深度学习基础及应用》教案 第6课 利用卷积神经网络进行图像处理(一).docx VIP
- 《深度学习基础及应用》教案 第10课 利用生成对抗神经网络进行图像生成.docx VIP
- 《深度学习基础及应用》教案 第8课 利用循环神经网络进行文本预测和分类(一).pdf VIP
- 《深度学习基础及应用》教案 第5课 构建神经网络(三).docx VIP
- 《深度学习基础及应用》教案 第2课 夯实深度学习开发基础.docx VIP
- 人教版五年级上册数学精品教学课件 第3单元 3.3 商的近似数.ppt VIP
- 《深度学习基础及应用》教案 第10课 利用生成对抗神经网络进行图像生成.pdf VIP
文档评论(0)