自然语言处理期末复习A4纸.docxVIP

下载本文档

265
0
约1.14万字
约 3页
2020-09-19 发布于境外
举报
版权申诉

自然语言处理期末复习A4纸.docx

1、本文档共3页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

NLP基础技术：词法分析（词性标注和词义标注）；句法分析（判断成分和句法结构，有完全/浅层句法分析）；语义分析；语用分析（具体运用）；篇章分析（整体理解分析） NLP应用技术：机器翻译，信息检索，情感分析，自动问答，自动文摘，社会计算，信息抽取，正则表达式：[A-Z]（从A到Z），[123]（匹配1或2或3），[^a]（不是a），[a^]（a和^，因为只在[后有效），a|bc（替代产生式），?（上一个字符是可选的），+（出现一次或者更多次），*（出现0次或者更多次），.（点，匹配任意单个字符），$（在结尾匹配，加在RE的最后），^（在开头匹配，加载RE的最前）错误的类别：假阳性（不该匹配却匹配，精确度），假阴性（该匹配却没有匹配，覆盖率）词元（Lemma）：同一个词干（stem）和词性（part of speech），大致相同的词义词形（Wordform）：词的表面形式（把单复数啥的变化都加上）词型（Type）：一个单词词例（Token）：词型在文章中的一个实例中文分词：Baseline方法是贪心(最长匹配)法形态学（Morphology）：研究单词是如何从语素构造语素（Morpheme）：词干（Stem）和词缀（Affix）两种广义的构造形式： = 1 \* GB3 ①屈折（Inflectional）：不改变词类的词缀（walk, walking） = 2 \* GB3 ②派生（Derivational）：改变意思和词类（clue, clueless）词干还原（Stemming）：只关心词干，不关心结构，常用于信息检索应用；比如Porter Stemmer，基于规则去词缀，不保证产生真实词干，但不影响IR。断句（Segmenting Sentences）：用二分类器（EOS/NotEOS），基于规则或ML来判断句号是否为一句话的结束最小编辑距离：在插入，删除和替代意义下的最少编辑距离；应用：评估机器翻译和语音识别的效果；命名实体（Named Entity）识别和指代（Entity Coreference）识别；解法：设Di,j为A[1…i]和B[1…j]的最短编辑距离，目标是让A靠近B。Levenshtein 插入和删除代价为1，替换代价为2。初始化D 如果Xi=Yj，则认为在这里是对齐的；为了跟踪对齐情况，仿照LCS维护一个箭头数组跟踪insert（LEFT），delete（DOWN），subst（DIAG）；时间复杂度O(nm)，输出O(n+m) 带权最小编辑距离：维护单个字母del和ins权重，两字母之间sub权重；用于修正一些拼写错误语言模型：P(wn|w1,…,wn-1)，但是由于数据不足，假设Markov性质成立；Bigram为Markov链，预测用MLE Shannon可视化方法：根据概率选s，然后根据给定词为条件，出现下一个词的概率选，直到选择/s Unigram(不用条件概率); Bigram(用上个为条件); Trigram; Quadrigram 封闭词汇任务和开放词汇任务（没见过的替换为UNK）评价N-gram模型： = 1 \* GB3 ①外在评测，Word Error Rate； = 2 \* GB3 ②内在评测，用困惑度（Perplexity，多用于先期自测）： PP 最小化PP就是最大化整个句子在模型中的出现概率；开N次根号用来做某种关于模型状态空间的归一化补偿；可以使用条件概率展开问题： = 1 \* GB3 ①过拟合，测试集和训练集相差很大则效果不好； = 2 \* GB3 ②很多概率是0：进行平滑： = 1 \* GB2 ⑴Laplace平滑，每个Ci都加一，则PLaplacewi=(ci+1)/(N+V)； Bigram 如上。加k法缺点是对于0太多的数据集，非0的概率会极大稀释 = 2 \* GB2 ⑵Good-Turing平滑法，用p0 = N1/N c*=cx+1Nx+1 回退（Backoff）：如果更高阶的Markov没有出现，就回退到用低阶的Markov过程对概率进行估计内插（Interpolation）：将不同阶输出结果线性插值，权重可以和前面的词相关；采用搜索算法找到最优权重（比如EM算法）应用上我们一般用exp?{logpi N-gram优点：容易构建，可以使用平滑来适应新数据；缺陷：只有在测试集与训练集比较相似的情况下表现较好，只能捕捉到较短的结果；神经网络：适应能力强，但训练消耗相对较大词类标注（POS Tagging）： = 1 \* GB3 ①基于规则的方法 = 2 \* GB3 ②概率方法(HMM) 基准方法：无脑选最大类，查表+无脑选，RE方法 HMM：一些状态S，一些观测值O，关于状态S的转移概率矩阵，输出概率矩阵