- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
汉语自动分词与词性标注
两种情况: (1)词汇不是兼词,在语料库中被标识为不同的词性(非兼--兼)。 (2)同一兼词,在相同语境被标注为不同词性。 [非兼词词性标注错误非常少] 基于聚类和分类的思想,对范例进行聚类,对测试数据进行分类来确定其标注的正误。 对于每个兼词分别计算出词性标注相同时其上下文语境向量的平均值VA,然后计算该兼词被标记成各个可能的词性时所在的上下文语境向量与VA之间的距离d,算出d的平均值H(利用正确语料算出H)。 校对时,计算每个词性的上下文语境向量与VA的距离h,如果hH,符号一致性(使用H进行校对)。 H的计算方法: 上下文词性向量由前后三个词和本身构成(3前3后),整个词性标注集由25个词性标注符号组成[p140]。 不同位置上的词性对这个词的词性影响程度不同,越近影响越大,位置属性向量为 (1/22,1/11,2/11,4/11,/2/11,1/11,1/22 ) [利用了上下文的信息][可以从词扩展到句,以段为单位]。 位置属性向量与词性属性矩阵的乘积为词性标记序列向量,Vec=X*Y(1*25=1*7-7*25) 任意两个词性标记序列向量xi与xj之间的相似度计算7-57(马哈拉诺比斯距离) 兼词w有n个不同词性,在训练语料中w有k次被标记为第i个词性标记,那么,该词的词性标记序列向量平均值为VA,每个具体情况下第i个词性标记序列与VA的马氏距离通过7-57计算出来,k个马氏距离的平均值将作为第i个词性标记的判别阙值H。 对于每种情况计算出h(7-58),如果hH,标注满足一致性。 马氏距离计算向量间的相似度比较复杂,对训练语料库的规模比较敏感,容易出现稀疏数据,后来又用欧式距离计算向量间的相似度,用k-最邻近分类算法对待检验语料词性标记序列进行聚类的实现方法,较好的解决了一致性检查,提高了人工校对的效率。 7.6.2 自动校对方法 词性标注中错误一般有两种: (1) 一个地方出错,一错再错 (2)前后标注不一致 如果可以解决第一种情况,不但可以避免大量重复的手工劳动,节省时间,而且可以避免由于人工校对者的疏忽而产生新的错误。 钱揖丽曾实现了基于数据挖掘和规则学习方法的词性标注自动校对方法。 该方法基本思想是通过机器学习,从大规模训练语料库中抽取每个兼词在上下文语境中被标注的词性信息,形成一个词性校对决策表。对被校对的语料检查是否匹配,若匹配,则词性匹配(以上下文整体去匹配) 方法: 从训练语料库抽取所有兼词的可能词性的真实范例生成范例库,再利用真实的上下文信息,基于范例库建立词性校对决策表。与决策表匹配则词性匹配。[史忠植 2002] 缺点 : 直接匹配条件太严格,效果不理想,因此,采用粗糙集理论中决策表简约的方法,对条件属性部分进行了约简,在不造成冲突的情况下尽量减少条件属性的个数,有效提高匹配程度,提高系统性能。 为了提高正确率,对校对规则(决策表)进行了进一步优化,将相似度达到一定程度的规则合并为一条,减少规则条目。 7-59,7-60 这里相似度为0.87;大于则合并 同时可以对那些可信度过低的规则进行删除,进一步优化规则集。 具体算法(p143) 步1:准备词表和范例表 步2:对每个句子,进行匹配检验 步3:修改规则集 7.7 汉语分词与词性标注系统评测 2003年10月: 评测内容:分词和词性标注一体化测试、分词测试、命名实体识别测试。 表7-5 2003年”863”计划评测部分结果 2003年 SIGHAN组织举办了国际上第一届汉语分词评测,评测过程通过网络完成。 2005年和2006年有举办了第二次和第三次 在2005年的SIGHAN评测中,开放测试中集外词的召回率最高的为87.2%,封闭测试中集外词的召回率为0.813,均为PK语料(对PK语料的适应性好或者PK语料好)。 生词问题仍然是汉语分词系统中面临的最严重问题。 2006年SIGHAN(/) 组织的第三次国际汉语自动分词和命名实体识别系统的评测中,提出了简化汉字自动分词系统的训练和测试语料和其他很多种语料。 对命名实体识别而言,最高的系统F-测度值在微软亚洲研究院提高的开放测试集上获得的为0.912 由于训练语料和测试语料的差异,无法评价具体好坏,但反应了基本问题。 如何提高系统对生词的处理能力,尤其是对命名实体识别的能力,仍然是目前汉语分词方法研究中所面临的最大问题。 Thanks 谢谢! 词性和词形实体模型可以统一用7-30描述; 具体算法如p127; 7.4.4 专家知识 上面各模型的最大问题:数据稀疏严重,搜索空间太大,通过引入专家知识来限制候选实体的产生,从而达到提高系统性能和效率的目的。专家知识分为几类: 人名识别的专家知识 地名识别的专家知识 机构名识别的专家知识 人名识别的
文档评论(0)