自然语言处理期末复习A4纸.docxVIP

  1. 1、本文档共3页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
NLP基础技术:词法分析(词性标注和词义标注);句法分析(判断成分和句法结构,有完全/浅层句法分析);语义分析;语用分析(具体运用);篇章分析(整体理解分析) NLP应用技术:机器翻译,信息检索,情感分析,自动问答,自动文摘,社会计算,信息抽取, 正则表达式:[A-Z](从A到Z),[123](匹配1或2或3),[^a](不是a),[a^](a和^,因为只在[后有效),a|bc(替代产生式),?(上一个字符是可选的),+(出现一次或者更多次),*(出现0次或者更多次),.(点,匹配任意单个字符),$(在结尾匹配,加在RE的最后),^(在开头匹配,加载RE的最前) 错误的类别:假阳性(不该匹配却匹配,精确度),假阴性(该匹配却没有匹配,覆盖率) 词元(Lemma):同一个词干(stem)和词性(part of speech),大致相同的词义 词形(Wordform):词的表面形式(把单复数啥的变化都加上) 词型(Type):一个单词 词例(Token):词型在文章中的一个实例 中文分词:Baseline方法是贪心(最长匹配)法 形态学(Morphology):研究单词是如何从语素构造 语素(Morpheme):词干(Stem)和词缀(Affix) 两种广义的构造形式: = 1 \* GB3 ①屈折(Inflectional):不改变词类的词缀(walk, walking) = 2 \* GB3 ②派生(Derivational):改变意思和词类(clue, clueless) 词干还原(Stemming):只关心词干,不关心结构,常用于信息检索应用;比如Porter Stemmer,基于规则去词缀,不保证产生真实词干,但不影响IR。 断句(Segmenting Sentences):用二分类器(EOS/NotEOS),基于规则或ML来判断句号是否为一句话的结束 最小编辑距离:在插入,删除和替代意义下的最少编辑距离;应用:评估机器翻译和语音识别的效果;命名实体(Named Entity)识别和指代(Entity Coreference)识别;解法:设Di,j为A[1…i]和B[1…j]的最短编辑距离,目标是让A靠近B。Levenshtein 插入和删除代价为1,替换代价为2。 初始化D 如果Xi=Yj,则认为在这里是对齐的;为了跟踪对齐情况,仿照LCS维护一个箭头数组跟踪insert(LEFT),delete(DOWN),subst(DIAG);时间复杂度O(nm),输出O(n+m) 带权最小编辑距离:维护单个字母del和ins权重,两字母之间sub权重;用于修正一些拼写错误 语言模型:P(wn|w1,…,wn-1),但是由于数据不足,假设Markov性质成立;Bigram为Markov链,预测用MLE Shannon可视化方法:根据概率选s,然后根据给定词为条件,出现下一个词的概率选,直到选择/s Unigram(不用条件概率); Bigram(用上个为条件); Trigram; Quadrigram 封闭词汇任务和开放词汇任务(没见过的替换为UNK) 评价N-gram模型: = 1 \* GB3 ①外在评测,Word Error Rate; = 2 \* GB3 ②内在评测,用困惑度(Perplexity,多用于先期自测): PP 最小化PP就是最大化整个句子在模型中的出现概率;开N次根号用来做某种关于模型状态空间的归一化补偿;可以使用条件概率展开 问题: = 1 \* GB3 ①过拟合,测试集和训练集相差很大则效果不好; = 2 \* GB3 ②很多概率是0:进行平滑: = 1 \* GB2 ⑴Laplace平滑,每个Ci都加一,则PLaplacewi=(ci+1)/(N+V); Bigram 如上。 加k法缺点是对于0太多的数据集,非0的概率会极大稀释 = 2 \* GB2 ⑵Good-Turing平滑法,用p0 = N1/N c*=cx+1Nx+1 回退(Backoff):如果更高阶的Markov没有出现,就回退到用低阶的Markov过程对概率进行估计 内插(Interpolation):将不同阶输出结果线性插值,权重可以和前面的词相关;采用搜索算法找到最优权重(比如EM算法) 应用上我们一般用exp?{logpi N-gram优点:容易构建,可以使用平滑来适应新数据;缺陷:只有在测试集与训练集比较相似的情况下表现较好,只能捕捉到较短的结果;神经网络:适应能力强,但训练消耗相对较大 词类标注(POS Tagging): = 1 \* GB3 ①基于规则的方法 = 2 \* GB3 ②概率方法(HMM) 基准方法:无脑选最大类,查表+无脑选,RE方法 HMM:一些状态S,一些观测值O,关于状态S的转移概率矩阵,输出概率矩阵

文档评论(0)

朋友你好 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档