基于多特征知识的先秦典籍词性自动标注研究.PDF

下载文档 降价啦

12
0
约2.54万字
约 7页
2019-01-19 发布于天津
举报
版权申诉
保障服务

基于多特征知识的先秦典籍词性自动标注研究.PDF

1、本文档共7页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

第６１卷第１２期　２０１７年６月基于多特征知识的先秦典籍词性自动标注研究 １，２１，２１，２ ■ 王东波　黄水清　何琳１２南京农业大学信息科学技术学院　南京２１００９５　南京农业大学领域知识关联研究中心　南京２１００９５摘要：［目的／意义］先秦典籍在古代典籍中的地位极为重要。本文提出对先秦典籍进行词性自动标注的解决方法，以便更加准确地挖掘先秦典籍中的潜在知识。［方法／过程］通过条件随机场模型，结合统计方法确定组合特征模板，并最终得到针对先秦典籍的词性自动标注算法模型。［结果／结论］在先秦典籍自动分词的整个流程基础上，得到简单特征模板、组合特征模板下的词性自动标注模型，基于组合特征模板的词性标注模型调和平均值Ｆ达到９４．７９％，具有较强的推广和应用价值。在构建词性自动标注模型的过程中，通过融入字词结构、词语拼音和字词长度的特征知识，使得模型的精确率和召回率得到有效提升。关键词：词性标注　先秦古籍　条件随机场模型　特征模板　古文信息处理分类号：Ｇ２５５　　ＤＯＩ：１０．１３２６６／ｊ．ｉｓｓｎ．０２５２－３１１６．２０１７．１２．００８１　引言处理带来了极大的困难。　　目前，词性标注主要是基于规则、统计模型或者两　　中文信息处理研究在现代汉语领域已经取得了比种相结合的策略。基于规则的词性标注方法出现较较丰硕的成果，许多方面达到了实用的阶段，而以古代早，是按照兼类词语搭配关系和上下文语境构造词类汉语文本为对象的古文信息处理则亟待探索。古汉语［３］的消歧规则，规则的精确度直接影响标注质量。如学科的发展急需现代信息技术的参与，人类专家的学［４］ＴＡＧＧＩＴ系统，它构建３３００条上下文规则，包含８６术研究过程需要得到古文信息处理技术及其成果的辅个词性标记，因其带有较强的主观性，规则一致性较助。在这样的背景下，业界对古代汉语文本数字化、语［５］差，导致其自动标注的结果并不理想。彭涛等提出料化和语义化的需求越来越大。词性是词汇基本的语了一种基于规则的无监督词性标注方法，根据英文已法属性，词性标注就是在给定句子中，判定每个词的语法范畴，确定其词性并加以标注的过程，被广泛应用于有规则库，创建了２６个规则函数，涵盖了２００多条英自然语言处理的后续分析中，如组块分析、句法分析语语法规则，实现了高效的英语词性自动标注。上述等［１］。词性标注是自然语言处理中一项非常重要的基两项基于规则的研究对于本文统计词汇的词性特征具础性工作，作为这些应用的预处理，词性标注中出现的有一定的启发意义。目前，基于语料库统计的方法，在错误将级联传入到后续处理中，直接影响到机器翻译、消除歧义和句法分析等方面已得到越来越广泛的应信息抽取、问答系统以及文本信息处理其他应用的性用。针对给定的输入词串，该方法先确定其所有可能［２］的词性串，选出得分最高的作为最佳输出。其中应用能。汉语词性标注面临着以下３方面