- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
复旦大学硕士论文 面向层次分类标签的词性标注系统
摘要
作为自然语言处理的基本操作,词性标注能提供关于单词及其邻近成分的大
量有用信息,因此常常是组成复杂应用的模块之一。词性标注任务是文本理解、
文本生成等自然语言处理领域的重要基础,经过多年的发展,被认为是相对成熟
的一个领域。然而,随着互联网的发展和信息的日益增多,出现了大量的不规则
的短语文本,如层次分类标签。另一方面,目前的词性标注工具均建立在常规长
句的基础上,在短语文本上的性能并不理想。正是在这种前提下,本文深入研究
了面向层次分类标签的词性标注算法。
本文介绍了词性标注的核心技术和研究方法,包括四种经典的词性标注模型
和算法。通过手工标注,我们成功分析出层次分类标签同长句文本之间的六个主
要差异,找到了传统的词性标注工具性能不佳的根本原因,并指出了两个有待解
决的关键问题:路径信息和专有名词。
在此基础上,本文提出了基于最大熵模型的词性标注算法。为了把路径信息
集成到输入中,我们引入了一个新的标记PATH,同时还添加了三类利用该路径
出发,分别构造出一个词典和一个数据库,然后以二值特征的形式引入到最大熵
模型中去。在分类目录D1TIOZ上,这些改进取得了非常显著的性能提升,从而表
明了该方法的有效性。
层次分类标签上的词性标注可以应用到自动网页分类系统中。当前的网页分
类系统过于依赖于人工标注的网页以作为训练语料。我们设计出这样一个系统,
在没有语料的条件下,巧妙地利用分类标签的词性标注信息和搜索引擎,自动构
造出一批训练语料。实验结果表明,该方法的性能是完全可以接受的。
WordNet
关键词:层次分类标签词性标注最大熵Wikipedia
3
复旦大学硕士论文 面向层次分类标签的词性标注系统
Abstract
Asabasic ofnatural BS
tagging
operation languageprocessing,POSprovides
aboutaword its thatitbecomesa
withsuchusefulinformation and neighbors
the
commonof POS taskis basisfor
partmanycomplicatedapplications.Thetagging
document and otherNLP·relatedmsearch.
understanding、documentgenerationmany
After of isconsideredtobea maturefieldof
yearsdevelopment,it relatively study.
as
lotofunconventionaldatasetssuchhierarcmcalclassificationlabels
However,a
havecome withtheriseofIntemetandinformation theother
along explosion.On
您可能关注的文档
最近下载
- 我爱这土地公开课一等奖市赛课一等奖课件.pptx VIP
- 2025社区工作者招聘考试综合基础知识试题(附答案).docx VIP
- 基于Javaweb的图书管理系统的设计与实现.docx VIP
- 医院危重孕产妇新生儿急救应急演练脚本.docx VIP
- 小学科学新教科版二年级上册1.6.“小房子”展示会教案(2025秋版).doc VIP
- 网络安全等级保护-重大风险隐患项描述实践指南(【2025】测评报告新增).docx VIP
- 社区工作者综合能力考试基础知识试题及答案.docx VIP
- 2025年秋新人教版数学三年级上册整册教案.pdf
- 抗菌药物临床应用分级管理目录(2023年版).doc VIP
- 急性左心衰护理课件ppt.pptx
文档评论(0)