20141217计算语言学_学习总结.docVIP

下载本文档

3
0
约4.1千字
约 7页
2016-09-30 发布于贵州
举报
版权申诉

20141217计算语言学_学习总结.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

20141217计算语言学_学习总结

内容来自中科院刘群研究员计算语言学PPT的整理笔记一、概述 1. 应用机器翻译（MT）信息检索（IR）自动问答（QA）自动文摘（AU，automatic summary）信息抽取（IE）信息过滤（IF）特点 2.1 定义：计算语言学是一门以计算为手段对自然语言进行研究和处理的科学。区别：自然语言和形式语言的本质区别在于前者具有歧义性。语言的层次划分：从底层到上层，词法-句法-语义-语用 2.2 歧义现象词法层歧义：i）词性兼类歧义。例子：工作-ng、vg，高-adj、ng；ii）词语切分歧义。例子：乒乓球/拍卖/完/了/、乒乓/球拍/卖/完/了/，南京/市长/江大桥/、南京市/长江大桥/ 句法层歧义：结构歧义。例子：张三/和/李四的朋友/、张三和李四/的/朋友/；语义层歧义：i）一词多义。例子：“杜鹃”，可以是一种鸟，也可以是一种花；ii）一义多词。例子：“可能、大概、也许”。语用层歧义：例子：“你很好。”正义，“你很好！”反义。 2.3 未登陆词：现有知识库，比如WordNet、HowNet、FrameNet等，均无法解决未登录词的问题。 2.4 中文特点：中文是以字为基本单位，但中文意义是以词语为基本单位；中文词语未被分割，做中文处理的第一步就是分词；中文无词形变化的特点，词语的词性难以区分；中文是词语序列的意义组合，无固定的结构 2.5 一些语言学特点：Zipf定律：汉字出现的频率与汉字按词频排列的名次大体等于一个定值；常见的汉字定量，大概在四五千个左右；汉字的使用频率符合高斯定律；二、基础知识 1. 基于规则的基础知识 1.1 词典。词典结构 1.2 形式语言自动机。背景。描述一种语言，通常联想到三种方法。i）穷举。缺点：语言变化的多样性导致不能完全穷举，且穷举时间、空间复杂度大；ii）语法总结。缺点：语法不可能总结所有的语言现象，且语法之间会出现冲突。鉴于以上两者的缺陷，采用iii）形式语言自动机。即给出能识别该语言句子的机械方法。形式语法。四元组G=初始符，非终结符，终结符，规则表示。基于统计的基础知识 2.1 概率论：样本空间、事件随机变量、概率、联合概率、条件概率、贝叶斯分布、概率分布、协方差、相关系数、参数估计、极大似然比、马尔科夫过程。 2.2 统计学：各种常见分布、三大分布函数、Dirichlet分布、卡方检验、T检验。 2.3 信息论：熵、联合熵、条件熵、互信息、困惑度。熵：描述事件的不确定性。熵越大，表示事件的不确定性越高。熵等于0，事件确定。熵等于1，表示随机事件为均匀分布。最大熵理论：在无外力作用下，事物总是朝着最混乱的方向发展。即在已知条件下，熵最大的事物，最可能接近它的真实状态。 2.4 自然语言处理：统计模型，如HMM、CRF、ME、SVM等。文本处理相关知识文本表示：布尔模型、VSM、BM25、倒排索引文本存储：Hash映射、Trie树，B树、红黑树文本特征：词、词性、上下文信息、位置信息、词间信息、词内信息文本相似度计算：cosine、SAO、PCA、LDA 三、词法分析 1. 分词 1.1 基于词典的分词方法正向最大匹配逆向最大匹配双向最大匹配：当正向匹配和逆向匹配出现不一致的情况时，利用一些特征（比如：分词后的个数最少、分词后的单字非连续等）来选择最优的分词结果。 1.2 基于统计模型的分词方法 N元语法模型。理论：任何字的集合都可以构成句子，只是构成句子的概率大小不一样。当字集合达到一定概率，就认为是句子。缺陷：没有考虑语言内部的结构信息。方法：利用训练语料，统计测试语料中N元字之间的概率，将满足最大概率的句子当做正确的结果。N等于1，为1元模型，即假定当前字仅和前一个字有关，N等于2，为 2元模型，即假定当前自仅和前两个字有关，N等于3，即假定当前字仅和前三个字有关。数据平滑：在利用训练语料进行统计的时候，会出现训练语料数据稀疏导致概率为0的情况，这时需要做平滑处理。方法：加1法，Good Turing，绝对减值法，线性减值法，回退法。 2. 词性标注（POS Tagging） 2.1 基于转换的错误驱动方法：基于转换规则，先给出初始标记，然后不断修正。通过语料库学习转换规则，是一种有监督的学习方法。 2.2 基于HMM的词性标注（成果：ICTCLAS 利用层叠HMM实现的分词、词性标注、命名实体识别的工具。） 3. 命名实体识别 3.1 i）专有名词：人、地、机构、……；ii）专业名词 3.2技术路线：基于HMM、ME、CRF等模型，基于角色标注的命名实体识别新词发现基于字标注的句法分析 5.1 基于字的分词方法基于HMM的分词方法：将词进行切分标记，切