基于句法结构分析目标词识别研究.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于句法结构分析目标词识别研究

基于句法结构分析目标词识别研究   摘 要:对于一条给定的句子,目标词识别就是识别出句子中能够激起语义场景的目标词。针对目标词识别中的特征选择问题,本文把目标词识别任务看作是一个分类问题,在传统的词法特征和上下文特征基础上,加入了句法结构特征设计特征模板,识别句子中的目标词。在汉语框架网的标注语料集上进行测试,实验结果表明,相比于传统的词特征,基于句法结构分析的目标词识别率有显著地提升。   关键词:框架语义分析;目标词识别;句法结构分析;汉语框架网   中图分类号:TP391 文献标识码:A   1 引言(Introduction)   框架语义分析的任务是从语义角度,在给定的文本中自动地识别目标词,为目标词分配框架,如果分配时有歧义,进行框架排歧,最终识别出框架中的论元,为论元标注语义角色。在整个任务中,首要解决的就是目标词的识别任务。例如,文本“根据周恩来的指示,贺龙等绕道香港去上海寻找党中央。”的框架语义分析结果如图1所示。要得到这个分析结果,首先要识别出文本的目标词“去”和“寻找”。   近年来,越来越多的学者关注框架语义分析在某些特定领域的应用[1-3]。目前,与目标词识别任务相关的研究,主要有目标词扩展和目标词识别两方面的工作。针对目标词扩展,Jahansson[4]与Das等[5]认为待识别的目标词包含在例句和训练集词表中,利用规则筛选目标词。文献分别利用WordNet和SIM[6]词典,识别和收集语义近似的目标词,实现目标词的扩展。针对目标词识别,文献[7]使用基于规则的目标词过滤方法进行判定,若判定为非目标词,利用基于监督学习的方法予以修正。文献[8]利用分类模型,在特征模板中加入同义词词林编码信息来识别句子中的核心目标词,但同义词词林信息的加入会导致识别性能下降。在上述文献中,大多数是把句子中与目标词相近的词都作为特征来进行分类,而没有考虑到句子结构特征对目标词识别的影响。事实上,句子中的很多词对目标词识别并没有帮助,反而会给目标词识别带来噪音,如何合适地选择句子中的某些词作为分类特征是目标词识别的一个研究重点。   本文利用句法结构来抽取目标词识别的特征,结合分类模型,提出了如何选择句子中合适的词语作为特征的方法。这种方法利用句法依存分析的结果,分析句子中各个词之间的依存关系和关系类型,去掉那些对目标词识别没有作用的词语,选择句子中关键的词作为特征来进行识别目标词。   2 目标词识别模型(Target word identification model)   2.1 目标词识别任务形式化描述   对于一个待识别的文本,其中,表示文本中词的个数。目标词识别,首先要识别出句子中的词元,表示中的词元个数。然后,在词元中识别出目标词,表示中的目标词个数。   则目标词识别任务,可形式化地描述为   2.2 基本概念   框架[8]:框架是指与一些激活性语境相一致的结构化范畴系统,它是储存在人类认知经验中的图式化情境,是理解词语的背景和动因。   词元:在框架语义学中,词通常被称作为词元。   目标词[8]:当词元在句子中能够激起语义场景时,被称为目标词。在一条包含多个目标词的句子中,如果某个目标词激起的框架及其在句中所支配的框架元素依存项相比其他框架更能完整表达该句的核心语义,该目标词即为核心目标词。   2.3 特征抽取   本文将目标词识别任务看作是一个分类问题。解决分类问题最重要的两部分内容是特征选择和模型的选择,本节重点介绍目标词识别任务中特征的选择。本文利用句法结构来提取目标词识别任务中的分类特征,以依存句法分析的结果为基础,分析句子中与目标词存在依存关系的词,去掉句子中有噪音影响的词,从而提高识别的性能。   句子特征提取方法分为三步:   第一步,查找句子中的目标词。这一步主要是在词元库中抽取所有的词元构成候选词元列表。针对一条输入的句子中,句子经分词后,句子中的词逐个在候选词元列表中进行匹配,若匹配成功,则标记为目标词。   第二步,对句子进行句法分析,得到依存弧和关系类型。本文对句子句法分析利用依存句法分析工具,句子经依存句法分析后,可得到句子中各个词之间的依存关系和依存弧。   第三步,提取句子主干作为分类特征。以目标词为核心,在句子中抽取与目标词相关的句子主干特征,主要抽取的是句子中的主语、谓语和宾语成分。   针对目标词识别任务,本文抽取句子的词法特征、上下文特征和句法特征。   (1)词法特征。词法特征主要抽取的是当前词的词性、词。   (2)上下文特征。主要考虑的是词语搭配对目标词识别的影响,一般考查的是在位置上与目标词相近的词。   (3)句法特征。句法特征抽取的是句子主干及其附属成分。句子主干抽取的是句子的主谓宾。主语成分抽取

文档评论(0)

3471161553 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档