- 1、本文档共117页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
汉语自动分词与词性标注培训资料.ppt
词性和词形实体模型可以统一用7-30描述; 具体算法如p127; 7.4.4 专家知识 上面各模型的最大问题:数据稀疏严重,搜索空间太大,通过引入专家知识来限制候选实体的产生,从而达到提高系统性能和效率的目的。专家知识分为几类: 人名识别的专家知识 地名识别的专家知识 机构名识别的专家知识 人名识别的专家知识 476个中国人名姓氏列表和9189个日本人名姓氏列表,苏俄人名和欧美人名用字列表(经常出现的字,如斯,科,娃)中国人名最多8位,外国人名无限制。 地名识别的专家知识 一个含607个地名关键字列表、一个含407个单字地名的列表和一个介词、动词列表。 机构名识别专家知识 一个3192个机构名关键字列表,一组机构名模板(课本); “上海的一家有限公司” 7.4.5 模型训练 命名实体模型有4个参数:P(WC)、P(TC)、P(T|TC)、P(W|WC); 数据稀疏问题很严重,采用退避的数据平滑算法(Katz),7-31; 7.4.6 测试结果 两种测试 封闭测试/ 开放测试 专项测试/ 总体测试 如果汉语自动分词与词性标注一体化进行, 对于词性标注来说,可以用“召回率”衡量词性标注系统的性能,但是,如果不是分词与词性标注一体化进行,而是词性标注系统对已经切分好的汉语词汇进行词性标注,那么,一般不采用“召回率”指标衡量词性标注系统的性能。 到目前为止,命名实体识别仍然是汉语分词中面临的最大难题,尤其是人名,地名,组织机构名和他专有名词(如产品名称)的识别。目前识别系统的性能还十分有限,离实用化要去还有较大差距。 P174 表7-5 2003年“863”计划评测部分结果 7.5 词性标注 词性标注就是在给定句子中判定每个词的语法范畴,确定其词性并加以标注的过程。 主要难点有以下三个方面: (1)汉语是一种缺乏词形态变化的语言(例如一tion结尾的单词多为名词); (2)常用词兼类现象严重(兼类词占11%,但词次47%[4次])。 (3)研究者主观原因造成困难(不同语料库有不同规定和划分方法)。 这里介绍词性兼类的消除方法 主要有基于统计模型的标注方法、基于规则的标注方法、统计方法与规则方法相结合的方法、基于有限状态转换机的词性标注方法(第三章)。 7.5.2 基于统计模型的词性标注方法 在7.2.3节和7.2.4节中已经介绍了这种方法的基本思想,这里只说下参数的选择; HMM中确定各参数时采用随机初始化的方法,但是这将使词性标注问题过于缺乏现在,因此,通常采用词典信息约束模型的参数。 Jelinek方法(p131),用最大似然估计来初始化HMM,并 假定每个词与其每个可能的词性标记出现的概率相等(把有5种词性,每种词性出现的概率为20%[实际肯定不是这样])。 还有一种采用将词汇分词若干等价类的策略,以类为单位进行参数估计。大大减少了参数的总个数。 把相同的可能的词汇划分为一组,成为元词(p132),对原词的处理和Jelinek方法一样。 优点是不需要为每一个单词调整参数,引入等价类后,参数的数量大大减少,使参数估计更加可靠。 缺点是不适合高频词的词性标注(会引入一些错误),把100个高频词作为一类。 参数确定就可以用前向后向算法进行训练。 为了提高模型参数对训练语料的适应性,即对于不同领域的语料参数会随之变化。 两个训练语料C1、C2(C1为原有的训练语料,C2为新增加的训练语料),N为不同词性的个数,模型参数估计如下(p133) 这种改进方法能够在新的语料(不管是否经过标注)引入时,方便地修改模型的参数,使之能够同时反映新的语料和原有训练语料的信息,提高模型的准确性。 另外,在基于三元的HMM词性标注中的效果进行研究,实验表明,在语料有限的情况下,不同的平滑方法对实验效果影响较大(可以多尝试几种平滑方法,选取最适合自己语料库的平滑方法)。 * 由字构词背后的思想 “…, the POC tags reflect our observation that the ambiguity problem is due to the fact that a hanzi can occur in different word-internal positions and it can be resolved in context.”——Nianwen Xue 中文词一般不超过4个字,所以字位的数量很少。 部分汉字按一定的方式分布。 利用相对固定的字推断相对不定的字的位置问题,如: “们”总是出现在一个词里最后的位置,由此可以推断: “们”与前面的字结合成词; “们”后面的字是下一个词的开头。 虽然不能将所有的词列入词典,但字是基本稳定的。 * 由字构词方法的
您可能关注的文档
- 水与健康知识点讲座.ppt
- 水之翼安全主要培训ppt.pptx
- 水吧设计案例实例分析.ppt
- 水墨交融写青山精品幻灯片讲稿.ppt
- 水族介绍说明.ppt
- 水果拼盘(劳技课程讲义).pptx
- 水果超市_语言活动培训资料.ppt
- 水泥混凝土路面三辊轴施工质量控制技术讲解.ppt
- 水泥砼路(地)面施工质量控制与管理——工管中心内部培训.ppt
- 水环境污染、污染危害幻灯片讲稿.ppt
- 2024年学校党总支巡察整改专题民主生活会个人对照检查材料3.docx
- 2025年民主生活会个人对照检查发言材料(四个带头).docx
- 县委常委班子2025年专题生活会带头严守政治纪律和政治规矩,维护党的团结统一等“四个带头方面”对照检查材料四个带头:.docx
- 巡察整改专题民主生活会个人对照检查材料5.docx
- 2024年度围绕带头增强党性、严守纪律、砥砺作风方面等“四个方面”自我对照(问题、措施)7.docx
- 2025年度民主生活会领导班子对照检查材料(“四个带头”).docx
- 国企党委书记2025年度民主生活会个人对照检查材料(五个带头).docx
- 带头严守政治纪律和政治规矩,维护党的团结统一等(四个方面)存在的问题整改发言提纲.docx
- 党委书记党组书记2025年带头增强党性、严守纪律、砥砺作风方面等“四个带头”个人对照检查发言材料.docx
- 2025年巡视巡察专题民主生活会对照检查材料.docx
文档评论(0)