网站大量收购独家精品文档,联系QQ:2885784924

基于多特征知识的先秦典籍词性自动标注研究.PDF

基于多特征知识的先秦典籍词性自动标注研究.PDF

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于多特征知识的先秦典籍词性自动标注研究.PDF

第61卷 第12期 2017年6月 基于多特征知识的先秦典籍词性自动标注研究 1,2 1,2 1,2 ■ 王东波  黄水清  何琳 1 2 南京农业大学信息科学技术学院 南京210095  南京农业大学领域知识关联研究中心 南京210095 摘要:[目的/意义]先秦典籍在古代典籍中的地位极为重要。本文提出对先秦典籍进行词性自动标注的 解决方法,以便更加准确地挖掘先秦典籍中的潜在知识。[方法/过程]通过条件随机场模型,结合统计方法确 定组合特征模板,并最终得到针对先秦典籍的词性自动标注算法模型。[结果/结论]在先秦典籍自动分词的整 个流程基础上,得到简单特征模板、组合特征模板下的词性自动标注模型,基于组合特征模板的词性标注模型 调和平均值F达到94.79%,具有较强的推广和应用价值。在构建词性自动标注模型的过程中,通过融入字词 结构、词语拼音和字词长度的特征知识,使得模型的精确率和召回率得到有效提升。 关键词:词性标注 先秦古籍 条件随机场模型 特征模板 古文信息处理 分类号:G255   DOI:10.13266/j.issn.0252-3116.2017.12.008 1 引言 处理带来了极大的困难。   目前,词性标注主要是基于规则、统计模型或者两   中文信息处理研究在现代汉语领域已经取得了比 种相结合的策略。基于规则的词性标注方法出现较 较丰硕的成果,许多方面达到了实用的阶段,而以古代 早,是按照兼类词语搭配关系和上下文语境构造词类 汉语文本为对象的古文信息处理则亟待探索。古汉语 [3] 的消歧规则,规则的精确度直接影响标注质量 。如 学科的发展急需现代信息技术的参与,人类专家的学 [4] TAGGIT系统 ,它构建3300条上下文规则,包含86 术研究过程需要得到古文信息处理技术及其成果的辅 个词性标记,因其带有较强的主观性,规则一致性较 助。在这样的背景下,业界对古代汉语文本数字化、语 [5] 差,导致其自动标注的结果并不理想。彭涛等 提出 料化和语义化的需求越来越大。词性是词汇基本的语 了一种基于规则的无监督词性标注方法,根据英文已 法属性,词性标注就是在给定句子中,判定每个词的语 法范畴,确定其词性并加以标注的过程,被广泛应用于 有规则库,创建了26个规则函数,涵盖了200多条英 自然语言处理的后续分析中,如组块分析、句法分析 语语法规则,实现了高效的英语词性自动标注。上述 等[1]。词性标注是自然语言处理中一项非常重要的基 两项基于规则的研究对于本文统计词汇的词性特征具 础性工作,作为这些应用的预处理,词性标注中出现的 有一定的启发意义。目前,基于语料库统计的方法,在 错误将级联传入到后续处理中,直接影响到机器翻译、 消除歧义和句法分析等方面已得到越来越广泛的应 信息抽取、问答系统以及文本信息处理其他应用的性 用。针对给定的输入词串,该方法先确定其所有可能 [2] 的词性串,选出得分最高的作为最佳输出。其中应用 能。汉语词性标注面临着以下3方面

文档评论(0)

sunguohong + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档