结构化信息抽取-半自动化包装器的分析与应用-analysis and application of structured information extraction - semi - automatic wrapper.docxVIP

结构化信息抽取-半自动化包装器的分析与应用-analysis and application of structured information extraction - semi - automatic wrapper.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
结构化信息抽取-半自动化包装器的分析与应用-analysis and application of structured information extraction - semi - automatic wrapper

第一章 绪论 硕士研究生学位论文  PAGE 4 优秀毕业论文 精品参考文献资料 第一章 绪论 1.1 结构化信息抽取的发展背景 近年来,随着 Internet/Web 技术的快速普及和迅猛发展,各种信息的展示以非常低的 成本在网络上获得,由于互联网在全球的普及,其中有着难以计算的信息量和数据量,随 着互联网的发展日新月异,电子商务的蓬勃发展也为网络应用提供了强大支持,在 互联网 这个全球最大的数据集合中如何可以发现有用信息,并将这些有用信息提取出来,无疑将 成为数据挖掘研究的热点[1]。 随着以数据仓库、数据库等数据存储技术为基础的信息系统在全球各行各业中的应 用,大量的数据应运而生[3][7]。与此同时,我们遇到这样的问题:如此复杂繁多的数据让 人难以消化,无法仅从表面上看到有用的用户感兴趣的信息,从而无法进行下一步的具体 工作。怎样从海量的网络数据中发掘到用户真正感兴趣的信息成为人们研究的重点,数据 挖掘技术真是在这种情况之下开始崭露头角的[17]。 Web 挖掘作为一个完整的技术体系,在进行挖掘之前的信息获得 IR(Information Retrieval)和信息抽取 IE(Information Extraction)相当重要。信息获得(IR)的目的在于找 到相关 Web 文档,它只是把文档中的数据看成未经排序的词组的集合,而信息抽取(IE) 的目的在于从文档中找到需要的数据项目,它对文档的结构和表达的含义感兴趣,它的一 个重要任务就是对数据进行组织整理并适当建立索引[11][12][13]。信息获得(IR)和信息抽 取(IE)技术的研究已经有很长时间,随着 Web 技术的不断壮大,基于 Web 技术中涉及的 IR 技术、IE 技术更多的为人们所重视。由于 Web 中的数据非常庞大,而且经常地发生 变化,采用纯手工抽取的方法已经很难适应如今的需求,所以现在重点的研究放在了用自 动化、半自动化的方法在 Web 上进行 IR 和 IE。在 Web 环境下既要处理非结构化文档, 又要处理半结构化的数据,最近几年在这两方面都有相应的研究成果和具体应用,特别是 在大型搜索引擎中得到了很好的应用[25]。 信息抽取(IE)作为 web 数据挖掘的重要技术之一,其目的在于从网页的文档中找到目 标数据项目,它对文档的结构和表达的含义感兴趣,它的一个重要任务就是对数据进行组 织整理并适当建立索引。信息抽取的研究已经有一段历史了,随着 Web 技术的不断发展 和壮大,其信息抽取技术也在不断的得到重视,随着 Web 网页中所容纳得信息量的不断 提升和动态变换的特点,手工抽取信息的方法已经不再适用于当今的形势。因此,现在主 要研究的是半自动化、完全自动化方式的抽取。 众所周之,我们在网上浏览到的网页信息是由后台数据库中存储的数据按照某种编码 模式展现出来的。而数据的抽取工作正好是这个的相反过程,即在网页源代码的基础上, 发现其中的模式结构并从中抽取到用户感兴趣的信息[1][2]。 在 Web 信息抽取中有两大处理问题,即从自然语言文本中和网页的结构化数据中抽 取信息[1]。由于当今网络中包含越来越多的结构化信息数据,因此结构化数据抽取在信息 抽取中占有重要的地位,本文研究的正是如何从具有结构化形式数据的网页中抽取到目标 数据。 1.2 国内外研究状况 1.2.1 国外研究状况 Web 信息抽取(Web Information Extraction)的前身是文本理解,最早开始于 20 世纪 60 年代中期,主要是从自然语言文本中获取结构化信息的研究,这被看作是信息抽取技 术的初始研究。从 20 世纪 80 年代末开始,信息抽取研究蓬勃开展起来。近几年,信息 抽取技术的研究与应用更为活跃。主要的而研究成果集中在研究和应用两个方面给[11][12], 在研究方面:主要侧重于以下几方面:利用机器学习技术增强系统的可移植能力、探索深 层理解技术、篇章分析技术[8]、多语言文本处理能力[9]、WEB 信息抽取(Wrapper)以及对 时间信息的处理等等。在应用方面:信息抽取应用的领域更加广泛,除自成系统以外,还 往往与其他文档处理技术结合建立功能强大的信息服务系统。至今,已经有不少以信息抽 取技术产品 为主的公司出现,比较著名的有:Cymfony 公司、Bhasha 公司、Linguamatics 公司、Revsolutions 公司等[18]。 1.2.2 国内研究状况 国内对中文信息提取系统的研究起步较晚,还集中在命名实体识别方面,遵照 MUC 规范的完整的中文信息提取系统目前还处于探索阶段。Intel 中国研究中心在 ACL-000 上 演示了他们开发的一个抽取中文命名实体以及实体间关系的系

您可能关注的文档

文档评论(0)

peili2018 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档