基于贝叶斯分类器的HNC概念基元标注的探究.pdfVIP

下载本文档

2
0
约 4页
2017-08-17 发布于安徽
举报
版权申诉

基于贝叶斯分类器的HNC概念基元标注的探究.pdf

1、本文档共4页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于贝叶斯分类器的HNC概念基元标注研究池哲洁张全语言声学与内容理解实验室摘要：概念基元信息的获取是建立在标注完全的语料的基础上，而自动标注工作主要面临歧义消解的问题。本文引入贝叶斯分类器来完成概念基元自动标注的工作，小规模实验表明，相比于随机标注，本文的方法具有较高的标注准确率。关键词：HNC概念基元；贝叶斯分类器；自动标注中国科学院声学研究所第四届青年学术会议论文集假设数据集有n个特征A，，A2…一以(或者说数据集由彳，、彳2…一么刀这n个特征表示)，其中共分为m个类C={o，Cz……C卅)。给定一个具体的实例Z用特征表示为胙{x，，x2……翰)，此时对类别判断做的最佳假设为： c(∞=argmax以GlAt) G)／尸(∞，其中，尸∞对对(1)式，利用条件概率公式尸(Gl∞=以G)·尸(xI 所有类均为常数，不予考虑，则可将贝叶斯分类器表示如下： c(柳=argnlaxP(G)·尸(xIG) (2) 即预测实例x属于在特征给定条件下后验概率最大的类别时，预测的准确性最高。一般情况下，(2)式中的后验概率难于计算，引入特征独立性假设：给定类别朴素贝叶斯分类器，表示为： ^ c(X)=argmax尸(ci)·nP(五IG) (3) k=l 利用贝叶斯分类器进行歧义消解时，可采用如下做法：将歧义词所处的上下文语境订作为特征，该词含有的多个概念义项作为类别，并引入位置独立性假设，则实际概念基元义项的计算公式为： (4) 易=argmaxP(cp，)．H尸(％Icpi) wkEcl 其中，印f为特定概念基元项，Wk为上下文语境ct中的词语。在实际文本中，位置独立性假设一般不成立，上下文之间的词语总是存在关联，尽管如此，在很多情况下这种假设作为一种简化的方法却很有效，这也使得贝叶斯分类器在歧义消解的应用中得到推广。 3算法描述与实现本文对概念基元的标注是基于切分完全的语料以及给定的词语一概念基元映射表(以下简称映射表)，在标注前，需要先完成贝叶斯分类器的模型训练。标注时，按顺序逐一进行，对于映射表中出现且只有单一概念基元项的词语可直接标注；若是在映射表中出现且有多概念项对应的词语，则需应用训练好的贝叶斯分类器模型对概念摹元结果做出判断；对于不出现在映射表中的词语，也需分类别单独处理。整个标注算法描述为： (1)获取训练语料，对贝叶斯分类器进行模型训练。完成模型训练后，获取待标注文本，转(2)。 (2)判断全文标注是否完成，若是，完成处理，输出标注结果：否则，读取下一词语，转(3)。 (3)判断该词是否是映射表中的词语，若是，转(4)；否则，转(6)。 (4)查找映射表中该词对应的概念基元数，若为单一概念项，则直接进行标注， ——266—— 音频声学转(2)；否则，转(5)。 (5)该词与多概念项对应，应用训练好的贝叶斯分类器确定词语对应的概念基元，转(2)。 (6)该词语不在给定映射表中(可能是标点符号、各种数字或字母的组合等)，按所属类别进行统一标注，转(2)。 3．1贝叶斯分类器模型训练对分类器模型的训练主要是基于标注语料对公式(4)中各项参数进行估计。上下文语境作为分类特征，在进行参数估计之前，需先确定特征的范围，即上下文语境的边界。本文作为一个尝试，为简化处理，统一将边界定为【．2，+2】，即取特定词语左右各两个词作为该词的上下文。对参数的估计，采用极大似然估计，从训练语料中计算出相对频率值作为模型的参数值。概念基元先验概率的估计为：