面向短文本分类角色关系抽取研究.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
面向短文本分类角色关系抽取研究

摘要 随着信息技术的飞速发展,越来越丰富的信息传播方式出现并影响着人们的 生活。短文本是指长度较短(通常少于160个字)的文本,它通常以手机短信、微 博、网页评论等形式广泛存在于现实生活中。短文本具有长度短、所描述概念信 号弱等固有缺陷,传统的文本分类方法并不适用于短文本,因此研究对短文本进 行有效分类的方法是一项必须解决且具有挑战性的问题。 短文本分类的一条可行途径是利用外部资源的额外信息来扩展短文本所描述 的信息量。角色关系是指某个事件与其固有的相关角色之间的语义关系,利用这 种关系扩展短文本的特征向量,能够在一定程度上增加短文本的有用信息,弥补 其描述能力较弱的缺陷。本文围绕如何获取短文本中存在的特定角色关系,和如 何将这些关系有效的应用于短文本分类这两个核心问题展开研究,主要工作如下: 1)提出了一种自动获取短文本中存在的施事、受事角色关系的方法。由于一个 事件涉及的角色类别较多,不同的角色对事件的重要性有差异,获取方法也不同, 因此本文的研究重点主要是针对施事、受事这两类最主要的角色关系。在获取施 事、受事关系方面,一种常规的方法是直接利用语义词典《知网》描述语言的特 点确定短文本中词对间的关系,但是这种方法抽取的关系词对数量和覆盖度有限。 针对这个问题,本文提出了一种新的角色关系词对抽取方法,该方法利用《知网》 的特征文件中的义原共性和义原树层次结构确定真实文本中存在的施事、受事关 系,并通过义原层次树中的义原距离计算关系强度。实验表明:通过该方法抽取 出的关系词对数量和覆盖度较高,在一定程度上弥补了常规方法覆盖度不足的缺 陷。 2)结合角色关系和短文本分类的特点,设计了一种利用角色关系的短文本分类 框架。该框架首先将常规方法和本文提出的关系抽取方法组合,然后利用组合方 法获取训练集中存在的施事、受事角色关系,再利用关系词对集合扩展测试集的 特征向量,进而将扩展的测试集进行文本分类。实验表明:引入角色关系有助于 短文本分类性能的提升,本文采用的组合策略和特征扩展方法具有可行性。 关键词:短文本分类,关系获取,角色关系,施事,受事 重庆邮电大学硕士论文 Abstract Abstract the ofinformation andmoremodesof With development technology,more rapid communicationandaffectthe ofthe with appeared lifestyle lessthan160chars,is intheformofmobile length mainly phonemessages, andwebcomments.Asthe ofthetextisshortandthe it Microblogging length signal describesis matureclassificationmethodisnotsuitableforshort·text. weak,theexisting forshort-textisa taskandmustberesolved. Therefore,classification challenging Onefeasibletoassisttheclassificationis someadditionalinformation. way using amount 111e

文档评论(0)

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档