第2讲词性标注与序列标注.PPT

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
内容索引 2.1 三个序列标注问题 2.2 隐马尔科夫序列标注 2.3 条件随机域模型 2.4 条件随机域中文词性标注 2.5 组合分类器的序列标注方法 2.6 实验结果与分析 2.7 本章小结 练习与思考 姜维.《文本分析与文本挖掘》.科学出版社.2018 特征表示 触发对特征: 姜维.《文本分析与文本挖掘》.科学出版社.2018 触发对特征示意图: 姜维.《文本分析与文本挖掘》.科学出版社.2018 词性标注的难度 许多词只有一个词性 简单兼类词的准确性非常高 复杂兼类词消歧(重要工作) 思考?如何进行复杂兼类词消歧 姜维.《文本分析与文本挖掘》.科学出版社.2018 组块特征(Chunking)作用 姜维.《文本分析与文本挖掘》.科学出版社.2018 内容索引 2.1 三个序列标注问题 2.2 隐马尔科夫序列标注 2.3 条件随机域模型 2.4 条件随机域中文词性标注 2.5 组合分类器的序列标注方法 2.6 实验结果与分析 2.7 本章小结 练习与思考 姜维.《文本分析与文本挖掘》.科学出版社.2018 SVM的最优超平面 支持向量的选择 姜维.《文本分析与文本挖掘》.科学出版社.2018 分类的过程 线性不可分情况 惩罚系数 一个非线性的函数 映射到一个线性可分的更高维的空间中。 姜维.《文本分析与文本挖掘》.科学出版社.2018 SVM二值完成多值分类过程 {A, B, C, D, E}五类的分类问题 逐一二分类法:可以是划分{A, ~A},对于~A的情况再划分{B, ~B},… 集合分解二分类法:将{A, B, C, D, E}划分为{A, B}和{C, D, E} 姜维.《文本分析与文本挖掘》.科学出版社.2018 SVM用于音字转换 拼音切分---Trigram,96%以上精度 姜维.《文本分析与文本挖掘》.科学出版社.2018 在拼音切分的基础上进行SVM标注 yi/一 zhi/枝 mei li /美丽 de/的 xian hua/鲜花 姜维.《文本分析与文本挖掘》.科学出版社.2018 复杂兼类词 左图---词典中复杂兼类词比例 数据集上---复杂兼类词比例 姜维.《文本分析与文本挖掘》.科学出版社.2018 各模型有自身特点 姜维.《文本分析与文本挖掘》.科学出版社.2018 HMM1 MEMM SVM CRF 多模型组合方法 简单投票,或者基于模型融合 姜维.《文本分析与文本挖掘》.科学出版社.2018 内容索引 2.1 三个序列标注问题 2.2 隐马尔科夫序列标注 2.3 条件随机域模型 2.4 条件随机域中文词性标注 2.5 组合分类器的序列标注方法 2.6 实验结果与分析 2.7 本章小结 练习与思考 姜维.《文本分析与文本挖掘》.科学出版社.2018 实验数据 《人民日报》 训练语料为前5个月的数据(包含66万句,604万词) 开放测试采用第6个月的语料库(13万句,124万词)。 姜维.《文本分析与文本挖掘》.科学出版社.2018 几种模型性能 姜维.《文本分析与文本挖掘》.科学出版社.2018 CRF比HMM优秀性举例 姜维.《文本分析与文本挖掘》.科学出版社.2018 在Chunking上的性能 姜维.《文本分析与文本挖掘》.科学出版社.2018 组块特征的反馈作用 姜维.《文本分析与文本挖掘》.科学出版社.2018 内容索引 2.1 三个序列标注问题 2.2 隐马尔科夫序列标注 2.3 条件随机域模型 2.4 条件随机域中文词性标注 2.5 组合分类器的序列标注方法 2.6 实验结果与分析 2.7 本章小结 练习与思考 姜维.《文本分析与文本挖掘》.科学出版社.2018 序列标注有着不同于“分类”的特点 词性标注是一个序列标注问题 融入更多特征有助于复杂兼类词标注 多模型组合性能通常能提高 姜维.《文本分析与文本挖掘》.科学出版社.2018 内容索引 2.1 三个序列标注问题 2.2 隐马尔科夫序列标注 2.3 条件随机域模型 2.4 条件随机域中文词性标注 2.5 组合分类器的序列标注方法 2.6 实验结果与分析 2.7 本章小结 练习与思考 姜维.《文本分析与文本挖掘》.科学出版社.2018 1、简述HMM进行词性标注的主要过程 2、设计一个词性标注系统,阐述具体模型和模型的工作过程 3、能否基于一个分类模型进行词性标注,如Bayes,决策树,SVM,思考与序列标注模型的不同。 4、思考,如何改善复杂兼类词的标注性能? 姜维.《文本分析与文本挖掘》.科学出版社.2018 5、设计一个高性能的词性标注系统。 6、思考,分词系统是否可以与词性标注问题一体化完成,即同时完成分词和词性标注任务? 姜维.《文本分析与文本挖掘》.科学出版社.2018

文档评论(0)

fengruiling + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档