- 8
- 0
- 约9.33千字
- 约 9页
- 2023-08-14 发布于江苏
- 举报
4. 隐马尔可夫模型与序列标注
第3章的n元语法模型从词语接续的流畅度出发,为全切分词网中的二元接续打分,进而利用维特比算法求解似然概率最大的路径。这种词语级别的模型无法应对 OOV(Out of Vocabulary,即未登录词) 问题: 00V在最初的全切分阶段就已经不可能进人词网了,更何谈召回。
例如下面一句:
头上戴着束发嵌宝紫金冠,齐眉勒着二龙抢珠金抹额
加粗的就是相对陌生的新词,之前的分词算法识别不出,但人类确可以,是因为读者能够识别“戴着”,这些构词法能让人类拥有动态组词的能力。我们需要更细粒度的模型,比词语更细粒度的就是字符。
具体说来,只要将每个汉字组词时所处的位置(首尾等)作为标签,则中文分词就转化为给定汉字序列找出标签序列的问题。一般而言,由字构词是序列标注模型的一种应用。 在所有“序列标注”模型中,隐马尔可夫模型是最基础的一种。
4.1 序列标注问题
序列标注指的是给定一个序列 ,找出序列中每个元素对应标签 的问题。其中,y 所有可能的取值集合称为标注集。比如,输入一个自然数序列,输出它们的奇偶性。
求解序列标注问题的模型一般称为序列标注器,通常由模型从一个标注数据集 中学习相关知识后再进行预测。再NLP问题中,x 通常是字符或词语,而 y 则是待预测的组词角色或词性等标签。中文分词、词性标注以及命名实体识别,都可以转化为序列标注问题。
序列
您可能关注的文档
最近下载
- 客房部实操考核表.xls VIP
- 永诚财险核物质损失保险条款.pdf VIP
- 2025年建筑业十项新技术 .pdf VIP
- 初三化学:方程式配平经典练习题(含答案).pdf VIP
- 陕西、河南、山西天一顶尖计划(四)2026届高三4月联考化学试题(含答案).pdf
- 佳能 PowerShot G1X说明书.pdf
- 第15课《我是记忆小能手》课件 生命生态安全四年级下册 (川教版).ppt VIP
- 2025-2026学年小学信息技术滇人版五年级第6册-滇人版教学设计合集.docx
- 山东省名校大联考2025届高三下学期4月联合检测化学试卷.docx VIP
- 人教版2025年春学期七年级下册期中地理试卷(含解析答案).docx VIP
原创力文档

文档评论(0)