面向层次发类标签词性标注系统.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
复旦大学硕士论文 面向层次分类标签的词性标注系统 摘要 作为自然语言处理的基本操作,词性标注能提供关于单词及其邻近成分的大 量有用信息,因此常常是组成复杂应用的模块之一。词性标注任务是文本理解、 文本生成等自然语言处理领域的重要基础,经过多年的发展,被认为是相对成熟 的一个领域。然而,随着互联网的发展和信息的日益增多,出现了大量的不规则 的短语文本,如层次分类标签。另一方面,目前的词性标注工具均建立在常规长 句的基础上,在短语文本上的性能并不理想。正是在这种前提下,本文深入研究 了面向层次分类标签的词性标注算法。 本文介绍了词性标注的核心技术和研究方法,包括四种经典的词性标注模型 和算法。通过手工标注,我们成功分析出层次分类标签同长句文本之间的六个主 要差异,找到了传统的词性标注工具性能不佳的根本原因,并指出了两个有待解 决的关键问题:路径信息和专有名词。 在此基础上,本文提出了基于最大熵模型的词性标注算法。为了把路径信息 集成到输入中,我们引入了一个新的标记PATH,同时还添加了三类利用该路径 出发,分别构造出一个词典和一个数据库,然后以二值特征的形式引入到最大熵 模型中去。在分类目录D1TIOZ上,这些改进取得了非常显著的性能提升,从而表 明了该方法的有效性。 层次分类标签上的词性标注可以应用到自动网页分类系统中。当前的网页分 类系统过于依赖于人工标注的网页以作为训练语料。我们设计出这样一个系统, 在没有语料的条件下,巧妙地利用分类标签的词性标注信息和搜索引擎,自动构 造出一批训练语料。实验结果表明,该方法的性能是完全可以接受的。 WordNet 关键词:层次分类标签词性标注最大熵Wikipedia 3 复旦大学硕士论文 面向层次分类标签的词性标注系统 Abstract Asabasic ofnatural BS tagging operation languageprocessing,POSprovides aboutaword its thatitbecomesa withsuchusefulinformation and neighbors the commonof POS taskis basisfor partmanycomplicatedapplications.Thetagging document and otherNLP·relatedmsearch. understanding、documentgenerationmany After of isconsideredtobea maturefieldof yearsdevelopment,it relatively study. as lotofunconventionaldatasetssuchhierarcmcalclassificationlabels However,a havecome withtheriseofIntemetandinformation theother along explosion.On

文档评论(0)

ww88666 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档