网站大量收购独家精品文档,联系QQ:2885784924

短文本信息抽取若干技术研究-计算机应用技术专业论文.pdf.docxVIP

短文本信息抽取若干技术研究-计算机应用技术专业论文.pdf.docx

  1. 1、本文档共99页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
短文本信息抽取若干技术研究-计算机应用技术专业论文.pdf

摘要摘 摘要 摘 要 随着信息技术的发展,互联网已经渗透到人们生活中的各个角落,成为人们 生活中不可缺少的一部分。互联网的飞速发展带来了各种各样数量巨大的信息, 这些信息正以爆炸式的速度增长,如何有效地获取、保存和利用这些信息是现在 大数据时代的重要课题。在互联网海量信息中,用户在各种社交网络平台中发布 的信息增长尤为迅速,这些社交网络中的信息文本较短、用户语言较为随意、文 本语法性较差,我们将其统称为“短文本一具有代表性的短文本有微博、商品评 论、BBS论坛发言等。短文本的出现给传统的Web信息抽取工作带来了许多机 遇和挑战。由于社交网络中的短文本信息量大、信息维度广,使得一些在短文本 中的信息抽取任务非常有价值,这些任务包括事件检测和事件分析、情感分析、 知识图谱挖掘等。然而短文本的文本特性给在短文本中的信息抽取工作带来了 困难和挑战,如何有效地在短文本中进行信息抽取也成为了一个研究热点。 本文针对短文本信息抽取中的几个关键问题,即微博事件抽取、微博事件语 义元素抽取和商品评论情感分析展开研究。微博事件抽取旨在从微博数据中抽 取出用户所需要的事件。微博平台庞大的用户群体带来了数据量巨大的微博文 本,这些微博文本中包含着许许多多事件信息,这使得微博在对事件的报道上比 传统新闻媒体更具优势。如何有效地从微博中抽取出相关事件也成为了一项有 意义的研究工作。对于抽取出的微博事件,如何为这些事件寻找一种完整且直 观的表达方式也是一个重要的课题。本文使用新闻学中事件的语义元素5W1 H (When,Where,Who,What,Whom和How)对抽取出的微博事件进行表达。事件 的5W1 H语义元素对于完整地描述一个微博事件非常有帮助,如何在语言较为 随意的微博文本中抽取事件的语义元素也是一项有价值的工作。商品评论情感 分析旨在于抽取用户在商品评论中表现出的情感倾向性。在电子商务发展迅猛 的今天,网上购物已经成为许多人购物时的首选。通过对用户商品评论的情感倾 向性进行有效挖掘,不仅能够方便用户做出购买决策,还能使商家更好地完善商 品,提升销量。 本文针对以上几个短文本信息抽取中的研究问题提出了一系列解决方法,本 文的主要贡献可以总结为如下几点: 1.对于微博事件抽取问题,由于命名实体信息是一个事件的重要组成部分. 对于不同类型的事件,事件文本中不同类型的命名实体分布也不相同,因 此将命名实体信息加入到事件抽取的过程中,可以提升抽取的效果。本文 将事件的类型定义为事件中不同类型命名实体的概率分布。通过提出一种 基于机器学习的方法,自动抽取事件微博文本中的事件类型。通过文本聚 类的方法抽取微博事件,在聚类的过程中,通过加入抽取出的事件类型信 息、提升了聚类的效果。 万方数据 摘要2.针对已有的对微博事件的表达方式不能完整地描述一个事件的问题,本文 摘要 2.针对已有的对微博事件的表达方式不能完整地描述一个事件的问题,本文 使用事件语义元素5W1 H对事件进行表达。由于微博的文本特点.传统在 Web网页上抽取事件语义元素的方法在微博文本中效果较差,因此本文提 出了新的方法对微博事件语义元素进行抽取。对于When和Where元素,本 文提出了一种基于粒度的自粗向细的抽取方法,该方法考虑了不同粒度上 的时间/地理信息,通过粒度上自粗向细的逐层抽取方法提升了抽取效果。 对于Who、What和Whom元素,本文提出了一种词语聚类和链接的方法。 该方法通过将不同句子成分中的词语进行聚类使得对同一实体的不同表达 被聚类在相同的词语簇中,再利用不同句子成分中词语的共现关系将词语 簇进行链接.得到事件语义元素。这种方法较为有效地解决了事件微博簇 中对于同一实体存在不同表达方式的问题,因此提升了事件语义元素的抽 取效果。 3.对于商品评论情感分析问题.由于在一条评论文本中用户对于商品的不同 维度可能存在不同的情感倾向性,传统基于句子、篇章等的情感分析方法 并不适用。为此本文提出了一个多维度商品评论情感分析的方法框架,旨 在于抽取用户对不同商品维度的情感倾向性。在该方法中,对于一个初始 的商品评论长旬,本文提出使用基于卷积神经网络的方法对句子进行切分。 经过切分后的每个短句中只包含用户对最多一个商品维度的评价。对于每 个短句,本文使用文本和维度关键词之间的相关性将其与一个商品维度建 立映射关系,并最后在该商品维度下进行情感分类。针对情感分析中相同 的情感词在不同的商品维度下表现出的情感极性可能不同的问题,本文使 用半自动的方法为每个商品维度构建了维度情感词典,通过使用维度情感 词典,情感分析的效果得到了提升。 本文的研究较好地缓解了短文本用户语言较为随意、语法不规范等问题对 传统信息抽取工作带来的影响。论文提出了微博事件类型抽取算法、基于事件类 型的微博事件抽

文档评论(0)

131****9843 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档