- 2
- 0
- 约4.27千字
- 约 5页
- 2023-08-14 发布于江苏
- 举报
4.感知机分类与序列标注
第4章我们利用隐马尔可夫模型实现了第一个基于序列标注的中文分词器,然而效果并不理想。事实上,隐马尔可夫模型假设人们说的话仅仅取决于一个隐藏的{B.M,E,S序列,这个假设太单纯了,不符合语言规律。语言不是由这么简单的标签序列生成,语言含有更多特征,而隐马弥可夫模型没有捕捉到。隐马弥可夫模型能捕捉的特征仅限于两种: 其一,前一个标签是什么;其二,当前字符是什么。
为了利用更多的特征,线性模型( linear model )应运而生。线性模型由两部分构成: 一系列用来提取特征的特征函数 φ,以及相应的权重向量 w。
本章将深人讲解感知机算法的原理,以及在分类和序列标注上的应用。在序列标注应用部分,我们将实现基于感知机的中文分词器。由于感知机序列标注基于分类,并且分类问题更简单,所以我们先学习分类问题。
5.1 分类问题
定义
分类指的是预测样本所属类别的一类问题。二分类也可以解决任意类别数的多分类问题(one vs rest)。
将类型class1看作正样本,其他类型全部看作负样本,然后我们就可以得到样本标记类型为该类型的概率 p1。
然后再将另外类型class2看作正样本,其他类型全部看作负样本,同理得到 p2。
以此循环,我们可以得到该待预测样本的标记类型分别为类型 class i 时的概率
您可能关注的文档
- java高级开发-基于TCP协议的聊天室程序实验报告.doc
- java高级开发-留言板开发实验报告.doc
- java综合性设计性实验要求说明书(Java高级开发实验二 留言板设计).doc
- 自然语言处理1 新手上路.docx
- 自然语言处理2 词典分词.docx
- 自然语言处理3 二元语法与中文分词.docx
- 自然语言处理4 隐马尔可夫模型与序列标注.docx
- 自然语言处理6 条件随机场与序列标注.docx
- 自然语言处理7 词性标注.docx
- 自然语言处理8 命名实体识别.docx
- (共25页PPT)有效提升HRBP的沟通和影响力.pptx
- (共24页PPT)排列与组合第六课时课件6.pptx
- (共29页PPT)第14章备份和恢复数据库.ppt
- (共21页PPT)4专题二 算法与程序基础.pptx
- (共20页PPT)大学生职业生涯规划书范文电子信息工程技术专业1.ppt
- (共21页PPT)课时规范练56 资源枯竭地区的发展.pptx
- (共20页PPT)第31讲交变电流的产生及其描述.pptx
- (共23页PPT)大学生职业生涯规划与就业指导第1章认识职业生涯规划.pptx
- (共23页PPT)高中数学人教a版必修二课件132《球的体积与表面积》.ppt
- (共23页PPT)第十八章自然资源与国家安全第4讲海洋空间资源与国家安全.pptx
最近下载
- PV 3015_EN-2024 内装饰的非金属材料可冷凝组分的测定.pdf
- 学习国有企业领导人员廉洁从业若干规定自查自纠汇报.docx VIP
- mac340450大容量风冷模块机安装使用说明书.doc
- 2025年住院医师规培-广东-广东住院医师规培(眼科)历年参考题库典型考点含答案解析.docx VIP
- 在线网课学习课堂《地学景观——探秘﹒审美﹒文化(重大 )》单元测试考核答案.docx VIP
- 高级城市轨道交通服务员技能鉴定理论考试题(附答案).doc VIP
- 2025年住院医师规培-广东-广东住院医师规培(眼科)历年参考题库含答案解析.docx VIP
- 2026年粤教版八年级下册数学期中名校联考卷(含答案可下载).docx VIP
- 《瓶装气体储存和使用安全管理规范》.pdf VIP
- (正式版)DB32∕T 4644.2-2024 《从业人员健康检查 第2部分:健康检查技术规范》.docx VIP
原创力文档

文档评论(0)