- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
语音识别与语义识别;;语音识别;定义;基本原理;1.预处理模块;2.特征提取;2.特征提取;2.特征提取;3.模式识别;模式识别;模式识别-动态时间规整(DTW)技术;模式识别-隐马尔可夫模型(Hidden Markov Model,HMM)技术;模式识别-矢量量化(VQ)技术;模式识别-人工神经网络(ANN)技术;模式识别-人工神经网络(ANN)技术;语义识别;定义;最大匹配法:从句子左端开始,不断匹配最长的词(组不了词的单字则单独划开),直到把句子划分完。按人的习惯从左到右地扫描文字。在大多数情况下,这种算法也的确能侥幸成功。不过,这种??法并不可靠,所以加入了一个特殊的规则表,我们要维护一个一般不单独成词的字表,比如“民”、“尘”、“伟”、“习”等等;这些字通常不会单独划出来,都要跟旁边的字一块儿组成一个词。在分词过程中时,一旦发现这些字被孤立出来,都重新考虑它与前面的字组词的可能。;例如:在用最大匹配法切分“为人民服务”时,算法会先划出“为人”一词,而后发现“民”字只能单独成词了。查表却发现,“民”并不能单独划出,于是考虑进行修正——把“为人”的“人”字分配给“民”字。巧在这下“为”和“人民”正好都能成词,据此便可得出正确的划分“为/人民/服务”。;最少词数法,把句子作为一个整体来考虑,从全局的角度评价一个句子划分方案的好坏。最初所用的办法就是,寻找词数最少的划分。不成词字表”装备到最少词数法上
??对于一种分词方案,里面有多少词,就罚多少分;每出现一个不成词的单字,就加罚一分。最好的分词方案,也就是罚分最少的方案。
全切分路径选择法:把所有可能的切分组合全部列出来,从中选择最佳的一条切分路径。路径的选择可以转化为图论中的最短路径问题,利用动态规划效率则会更高。;“他说的确实在理”是一个很困难的测试用例,“的确”和“实在”碰巧也成词,这给自动分词带来了很大的障碍。但是“确”、“实”、“理”通常都不单独成词的,因此很多切分方案都会被扣掉不少分:
??????他/说/的/确实/在理 (罚分:1+1+1+1+1 = 5 )
??????他/说/的确/实/在理 (罚分:1+1+1+2+1 = 6 )
??????他/说/的确/实在/理 (罚分:1+1+1+1+2 = 6 );用每个词出现的概率,来衡量分词的优劣。先统计大量真实语料中各个词出现的频率,然后把每种分词方案中各词的出现概率乘起来作为这种方案的得分。利用动态规划,不难求出得分最高的方案。
在大量真实语料中,“有”、“有意”、“意见”、“见”、“分歧”的出现概率分别是 0.0181 、 0.0005 、 0.0010 、 0.0002 、 0.0001 ,因此“有/意见/分歧”的得分为 1.8×10-9?,但“有意/见/分歧”的得分只有 1.0×10-11?,正确方案完胜。;交集型歧义:中外科学名著”里,“中外”、“外科”、“科学”、“学名”、“名著”全是词,光从词库的角度来看,随便切几刀下去,得出的切分都是合理的。
组合型歧义:组合型歧义,就是指同一个字串既可合又可分。“这扇门的把手”中的“把手”就是一个词,“把手抬起来”的“把手”就必须拆开;于是,我们不得不跳出一元假设。此时,提出了统计语言模型算法。
对于任意两个词语 w1?、 w2?,统计在语料库中词语 w1?后面恰好是 w2?的概率 P(w1, w2) 。这样便会生成一个很大的二维表。再定义一个句子的划分方案的得分为 P(?, w1) · P(w1, w2) · … · P(wn-1, wn) ,其中 w1, w2, …, wn?依次表示分出的词。我们同样可以利用动态规划求出得分最高的分词方案。
这个模型一并解决了词类标注、语音识别等各类自然语言处理问题。;理解为字的分类问题,也就是自然语言处理中的sequence labeling问题,通常做法里利用HMM,MAXENT,MEMM,CRF等预测文本串每个字的tag[62],譬如B,E,I,S,这四个tag分别表示:beginning, inside, ending, single,也就是一个词的开始,中间,结束,以及单个字的词。
例如“南京市长江大桥”的标注结果可能为:“南(B)京(I)市(E)长(B)江(E)大(B)桥(E)”。;基于深度学习的分词;词性标注;句法分析;句法分析;句法分析;;语义结构;语义角色标注;THANKS
您可能关注的文档
最近下载
- 4郭永康光的干涉-14.ppt VIP
- 中职教育一年级上学期英语《We Are Friends》课件.pptx
- 4郭永康光的干涉-11.ppt VIP
- 《危险化学品目录(2015版)》(2022年调整)-标注为爆炸物的化学品.pdf VIP
- 湘南学院2021-2022学年第2学期《高等数学(下)》期末试卷(B卷)附标准答案.pdf
- 人美版小学四年级上册美术教案.pdf VIP
- 人教PEP版五年级上册英语Unit 2 My week单元整体教学设计(教案).docx VIP
- 4郭永康 光干涉-7 .ppt VIP
- 小学语文新部编版一年级上册全册教案(2025秋新版).doc
- 湘南学院2022-2023学年第2学期《高等数学(下)》期末试卷(B卷)附标准答案.pdf
文档评论(0)