3-词性标注.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
3-词性标注.ppt

方法的核心: 根据错误对比得到转换规则。 需要预先确定转换规则的形式。即获取什么样的上下文信息。 规则的评价。 Brill的评价方式:利用该规则转换后,语料中的错误数最少。 学习示例 基于转换的方法(小结) Brill用这种方法获得的词性标注准确率95.6%,很多年内无人超越。 优势: 捕捉了词语和上下文标记之间的复杂的依存关系。 比HMM利用的信息形式更加丰富,且比概率形式的知识更为简单。 需要的决策量比HMM中的参数估计要少一个数量级。 而且几乎不会发生过拟合(overfitting)。 Brill指出,该方法比决策树学习更强大。 代价: 需要搜索一个很大的转换空间。因此需要好的方法来搜索空间。 与传统规则方法的不同: 规则的获取是自动的。 规则的覆盖率强。 规则的选择有量化标准。 提纲 一、什么是词性标注? 二、词性标注的难点 三、词性标记集 四、基于HMM的词性标注 五、基于转换的词性标注 六、基于分类思想的词性标注 词性标注本质上是一个分类问题:对于句子中的每一个单词w,找到一个合适的词类类别t。 对于分类问题,有很多现成的数学模型和框架可以套用,如:决策树、最大熵模型、条件随机场、SVM等等。 分类问题将在后续内容“文本分类”中讲。 * 可见英语中的大多数单词都是没有歧义的,也就是这些单词只有一个单独的标记。但是,英语中的最常用单词很多都是有歧义的,因此,任何一个词性标注算法 的关键归根结底还是如何解决词性标注中的歧义消解问题。 * 我们之所以用“隐含”这个词,是因为状态 s1,s2,s3,...是无法直接观测到的。 * 三个参数,五元组描述 * 其中 s1,s2,s3...表示信息源发出的信号。o1, o2, o3 ... 是接受器接收到的信号。通信中的解码就是根据接收到的信号 o1, o2, o3 ...还原出发送的信号 s1,s2,s3...。 根据声学信号来推测说话者的意思,就是语音识别。 同样,在计算机中,如果我们要根据接收到的英语信息,推测说话者的汉语意思,就是机器翻译; 如果我们要根据带有拼写错误的语句推测说话者想表达的正确意思,那就是自动纠错。 * * 它们的最大区别是,在递归过程中,前向算法累计所有路径的概率,而Viterbi只计算最优路径的概率 计算复杂度都是一样的,只不过viterbi需要概率最大的那条路经,而不需要累计所有路径的概率。 简单的前向后向算法是已知模型,求对某一观测序列的概率;而viterbi算法是已知模型和观测序列,求最可能的状态序列。 解决多阶段决策最优化问题的方法为动态规划方法 bc(和)=1.72 an c=3.58 n n nh c p v n v n a a d n v 9.89 20.02 60.02 25.32 bn(生活)=5.75 anh n=20 n n nh c p v n v n a a d n v 9.89 20.02 60.02 25.32 27.66 31.26 85.77 bn(生活)=5.75 ac n=1.84 n n nh c p v n v n a a d n v 9.89 20.02 60.02 25.32 27.66 31.26 85.77 32.91 bn(生活)=5.75 ap n=1.28 n n nh c p v n v n a a d n v 9.89 20.02 60.02 25.32 27.66 31.26 85.77 32.91 34.69 bn(生活)=5.75 av n=1.92 n n nh c p v n v n a a d n v 9.89 20.02 60.02 25.32 27.66 31.26 85.77 32.91 34.69 38.93 n n nh c p v n v n a a d n v 9.89 20.02 60.02 25.32 27.66 31.26 85.77 32.91 34.69 38.93 n n nh c p v n v n a a d n v 9.89 20.02 60.02 25.32 27.66 31.26 32.91 n n nh c p v n v n a a d n v 9.89 20.02 60.02 25.32 27.66 31.26 32.91 34.6 n n nh c p v n v n a a d n v 9.89 20.02 60.02 25.32 27.66 31.26 32.91 34.6 43.16 56.74 52.67 55.71 60.76 68.15 n n nh c p v n v n a a d n v 9.89 20.02 60.02 25.32 27.66 31.26 32.91 34.6 43.1

文档评论(0)

此项为空 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档