一种无监督文本分割信息提取算法.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一种无监督文本分割信息提取算法 摘 要:文本分割信息抽取任务的全称是文本记录分割与命名属性值识别,旨在对一段文本型数据记录进行正确分割,提取并标注包含在其中的各个数据项。现在的文本分割信息抽取方法都主要依赖于机器学习,可以分为有监督学习方法和无监督学习方法。 在本毕设设计中,我们学习并实现了几种有代表性的文本分割信息抽取技术,包括基于 CRF 等有监督方法,基于 ONDUX 的无监督方法,此外,在老师和研究生师兄的指导下, 我们利用深度学习技术,设计并实现了一种基于卷积神经网络的文本分割信息抽取方法。这种方法充分利用了已有的数据和基于卷积神经网络的概率分类模型。将文本段与特定域的属性关联起来的过程中,卷积神经网络模型可以减轻选择高质量特征的负担,同时,预先存在的作为领域知识库的数据可以提供训练数据以及创建卷积神经网络模型的全面特征列表。给定一个输入文本,我们做初步分割(根据这些词在知识库中的出现)生成文本段, 提供给卷积神经网络概率分类模型,基于卷积神经网络模型分类结果,我们再为整个输入文本找到最可能的标注方式。 本毕业设计采用了多个真实数据集来对比实现的集中文本分割信息抽取方法。实验结果不仅真实反映了几种方法的对比,也体现了我们设计的基于卷积神经网络的方法的先进性。 关键词:卷积神经网络;信息提取;文本分割信息抽取 前 言 文本分割信息提取(IETS)适用于在使用半结构化记录的文本来源(如邮政地址、书目信息、广告)中提取感兴趣的数据值的情况。丰富的在线文本文档来源包含了大量的以连续文本形式存在的隐式半结构化数据记录,如产品说明、书目引文、邮政地址、分类广告等等。由于这些数据必须以某种结构化格式存储在关系数据库或者 XML 中便于进一步的查询、处理和分析,大量研究致力于通过分割包含它们的文本来自动提取这些数据值。 目前最先进的 IETS 技术,主要依赖于机器学习技术,分为有监督的和无监督两大类。在有监督的 IETS 方法中,主导方法采用统计模型,如隐马尔科夫模型(HMM)或者条件随机场模型 CRF 等学习给定域的分割模型。目前,基于 CRF 的方法是文献报道的有监督的最先进的方法。 然而,所有的监督方法都需要大量的手动标记训练数据集,这在某些领域是不可行的。所以,最近一些工作转而使用预先的数据集来减轻对手动标记训练数据的需要。这些非监督方法利用给定属性的已知属性值训练模型,以此识别一串输入文本记录的该属性的属性值。例如,称为 ONDOX 是目前最先进的无监督 IETS 方法。 我在老师和师兄的帮助下,实现了几种文本分割信息提取方法,如 CRF、ONDUX 和基于卷积神经网络的文本分割信息提取方法,并且对比了这几种方法在真实数据集上的表现,包括提取效率和提取质量等。 第一章 绪 论 本章首先介绍了基于卷积神经网络概率分类模型的文本分割信息提取方法的意义和研究背景,其次简单地介绍了卷积神经网络和文本分割信息提取的定义和问题描述,并概述了本文的主要工作,在本章的最后介绍了这篇论文的整体结构。 1.1 研究背景及意义 近年来,互联网发展日新月异,随着网络中信息的爆发式增长,人们难以从海量的数据文档中快速提取目标信息。网络上内容驳杂,存在大量重复、错误、无用的数据信息, 给用户造成了极大压力。通常情况,用户需求的信息以结构化的形式存在,而这些信息大多以自由文本或者半结构化文本的形式组织分散在 web 网页中。为了帮助用户获取需要的信息,就使用到了信息提取的方法。 信息提取的目标是从网络上的大量文本中抽取关键信息,并结构化存储。网页中不仅包含自由文本(无结构化文本),也包含一些半结构化的数据(如表格,html 文档等)。本文主要针对半结构化文本进行信息提取。 文本分割信息提取方法是一种通过分割文本获得隐含数据值的信息提取方法。确切的说,给定一个区域集合 A,假设给定的字符串 I 包含集合 A 中属性的一些隐含数据值,IETS 问题旨在将 I 划分为一组分段 S = {s1, s2 ,..., sm},并且将每个分段si (1 £ i £ m) 标记为一个 Ai A,其中si 是属性 Ai 的一个数据值。文本分割信息提取对文本输入进行分段,以提取其中 包含的隐式数据值。简单来说,每个文本输入都形成一个隐式记录。目前,解决这一问题的一个相当普遍的方法是使用机器学习技术,包括:(1)有监督的,即人力驱动训练。 由于其在实际应用中的重要性,研究者们在文本分割信息提取上做出了许多努力,无论是监督的还是无监督的,现有的文本分割信息提取方法主要使用机器学习技术。监督学习方法中,主流方法是采用隐马尔科夫型(HMM

文档评论(0)

潇湘画里 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档