- 1、本文档共4页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于贝叶斯分类器的HNC概念基元标注研究
池哲洁 张全 语言声学与内容理解实验室
摘要:概念基元信息的获取是建立在标注完全的语料的基础上,而自动标注工作主要面临
歧义消解的问题。本文引入贝叶斯分类器来完成概念基元自动标注的工作,小规模实验表
明,相比于随机标注,本文的方法具有较高的标注准确率。
关键词:HNC概念基元;贝叶斯分类器;自动标注
中国科学院声学研究所第四届青年学术会议论文集
假设数据集有n个特征A,,A2…一以(或者说数据集由彳,、彳2…一么刀这n个
特征表示),其中共分为m个类C={o,Cz……C卅)。给定一个具体的实例Z用特
征表示为胙{x,,x2……翰),此时对类别判断做的最佳假设为:
c(∞=argmax以GlAt)
G)/尸(∞,其中,尸∞对
对(1)式,利用条件概率公式尸(Gl∞=以G)·尸(xI
所有类均为常数,不予考虑,则可将贝叶斯分类器表示如下:
c(柳=argnlaxP(G)·尸(xIG) (2)
即预测实例x属于在特征给定条件下后验概率最大的类别时,预测的准确性最高。
一般情况下,(2)式中的后验概率难于计算,引入特征独立性假设:给定类别
朴素贝叶斯分类器,表示为:
^
c(X)=argmax尸(ci)·nP(五IG) (3)
k=l
利用贝叶斯分类器进行歧义消解时,可采用如下做法:将歧义词所处的上下
文语境订作为特征,该词含有的多个概念义项作为类别,并引入位置独立性假设,
则实际概念基元义项的计算公式为:
(4)
易=argmaxP(cp,).H尸(%Icpi)
wkEcl
其中,印f为特定概念基元项,Wk为上下文语境ct中的词语。
在实际文本中,位置独立性假设一般不成立,上下文之间的词语总是存在关
联,尽管如此,在很多情况下这种假设作为一种简化的方法却很有效,这也使得
贝叶斯分类器在歧义消解的应用中得到推广。
3算法描述与实现
本文对概念基元的标注是基于切分完全的语料以及给定的词语一概念基元映
射表(以下简称映射表),在标注前,需要先完成贝叶斯分类器的模型训练。标注
时,按顺序逐一进行,对于映射表中出现且只有单一概念基元项的词语可直接标
注;若是在映射表中出现且有多概念项对应的词语,则需应用训练好的贝叶斯分
类器模型对概念摹元结果做出判断;对于不出现在映射表中的词语,也需分类别
单独处理。整个标注算法描述为:
(1)获取训练语料,对贝叶斯分类器进行模型训练。完成模型训练后,获取待
标注文本,转(2)。
(2)判断全文标注是否完成,若是,完成处理,输出标注结果:否则,读取下
一词语,转(3)。
(3)判断该词是否是映射表中的词语,若是,转(4);否则,转(6)。
(4)查找映射表中该词对应的概念基元数,若为单一概念项,则直接进行标注,
——266——
音频声学
转(2);否则,转(5)。
(5)该词与多概念项对应,应用训练好的贝叶斯分类器确定词语对应的概念基
元,转(2)。
(6)该词语不在给定映射表中(可能是标点符号、各种数字或字母的组合等),
按所属类别进行统一标注,转(2)。
3.1贝叶斯分类器模型训练
对分类器模型的训练主要是基于标注语料对公式(4)中各项参数进行估计。
上下文语境作为分类特征,在进行参数估计之前,需先确定特征的范围,即
上下文语境的边界。本文作为一个尝试,为简化处理,统一将边界定为【.2,+2】,即
取特定词语左右各两个词作为该词的上下文。
对参数的估计,采用极大似然估计,从训练语料中计算出相对频率值作为模
型的参数值。概念基元先验概率的估计为:
您可能关注的文档
- 中国慢性荨麻疹患者的忌口情况及其和食物过敏关系的研究.pdf
- 锦纶防活性染料沾染地研究.pdf
- 基于项目与部门的中小型知识型企业组织结构研究.pdf
- 休闲渔业从业人员培训的探究.pdf
- 跨座式单轨交通系统限界的探究.pdf
- 酵母蔗糖酶提取方法地研究.pdf
- 一种新的110kV同塔双回紧凑型直线塔等位作业法探究.pdf
- 全流量补燃循环发动机再生冷却的探究.pdf
- 仙鹤地区勘探潜力的探究.pdf
- 基于XML技术的变电站综合在线监测系统软件可扩展性的探究.pdf
- 小学科学:ESP8266智能插座电路原理与动手实践研究教学研究课题报告.docx
- 《金融开放浪潮下我国多层次监管体系构建与创新研究》教学研究课题报告.docx
- 区域教育质量监测中人工智能应用的数据质量分析与优化策略教学研究课题报告.docx
- 《金融科技监管中的数据治理与合规性要求》教学研究课题报告.docx
- 《3D打印技术在航空航天领域中的多材料制造与复合材料应用》教学研究课题报告.docx
- 《绿色金融发展中的政府职能与市场机制研究》教学研究课题报告.docx
- 《植物工厂多层立体栽培光环境调控技术对植物生长发育节律的调控机制探讨》教学研究课题报告.docx
- 销售团队年度业绩总结.docx
- 银行风险管理与金融危机防范.docx
- 银行网络攻击预警与快速响应机制.docx
最近下载
- 云南西部沿边高校边境缅甸语人才培养的校政企合作模式探索.docx VIP
- 《固定式钢梯及平台安全要求 第2部分:钢斜梯》GB 4053.2-2009.docx VIP
- 幼小科学衔接视角下家校社协同共育现状及对策研究.pdf VIP
- 2025中国中信金融资产管理股份有限公司甘肃分公司招聘笔试备考题库及答案解析.docx VIP
- 旅游警务服务规范.pdf
- 2025凉山州继续教育公需科目满分答案-深入学xi关于发展新生产力的重要论述.docx VIP
- 第三章 教育目的.ppt VIP
- 乳腺癌脑转移瘤护理查房.pptx VIP
- 眼科专科护理操作风险防范.pptx VIP
- 真菌镜检报告.pptx VIP
文档评论(0)