基于XML的Web信息抽取技术研究-计算机软件与理论专业论文.docxVIP

基于XML的Web信息抽取技术研究-计算机软件与理论专业论文.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第 第 1 章 绪论 沈阳理工大学硕士学位论文 沈阳理工大学硕士学位论文 - - PAGE 13 - - - PAGE 10 - 第 1 章 绪 论 1.1 研究背景及意义 2009 年 1 月 13 日,中国互联网络信息中心(CNNIC)在京发布了《第 23 次中国 互联网络发展状况统计报告》。报告显示,截至 2008 年底,中国的网站数,即域名注册 者在中国境内的网站数(包括在境内接入和境外接入)达到 287.8 万个,中国网页总数 超过 160 亿个,网页总数据量达 460,217,386,099KB。面对如此庞大的数据,如何 从海量 Web 网页中获取相关信息就成了一个亟待解决的问题[1]。 Web 使人们获得大量信息的同时,也带来了很多需要解决的问题。由于网络的方便 快捷,使得在 Web 上发布的各种信息急剧增长,Web 上海量的信息使用户使用的时候 产生了巨大的困难,用户为了获得相关信息,可能浪费大量的时间来进行信息搜索,查 看大量的网页,而且查找的资料可能并不是很精确。虽然现在的搜索引擎很多,而且基 于不同的算法,但是搜索到的结果可能是一个并不理想的网页超链接集合,详细的信息 还需要用户进入网页查找。因为这些网页只是包含有用户输入的关键字,集合中的有些 网页并不是用户感兴趣的。所以通过这种方式查找信息浪费了大量的人力、物力和时间。 另外,HTML 是 Web 网页的主要存在形式,而 HTML 是半结构化的 Web 开发语 言,计算机并不能很好的理解它们,更不能像结构化的数据库一样可以提供功能强大, 而且高效的 SQL 语言。让用户使用 Web 信息与使用数据库一样简单,这是信息抽取的 目的。 为了更好的解决上述的各种问题,有必要对 Web 信息抽取进行更深入的研究。 1.2 信息抽取的对象和任务 信息抽取系统是将信息从各种文档中,如 Web 网页等,抽取后组织成可以直接利 用的、结构化的,并且存储到数据库的系统[2]。信息抽取的对象主要是大量芜杂的信息, 信息抽取是将这些信息进行提取、整理、组织成利于查找和使用的形式。 信息抽取任务是由消息理解会议(MUC)定义的,不同的任务有着不同的规范,而 且不同的任务有着各自的评价体系标准,根据抽取的内容和抽取出的信息的语义相关度 的差别,信息抽取的任务[3]分为: (1) 命名实体识别信息抽取[4](NE,Named Entity Recognition),简单的说,NE 的 任务就是将信息中名字、日期、地点、数字表达式等提取出来,并对各类信息进行分别 存放。在对实体信息进行识别的过程中应对它在文本中的位置进行标记,对这类信息的 检索。 (2) 多语言实体识别信息抽取[5(] MET,Multilingual Entity Task),MET 可以对中文、 韩文等多种语言的命名实体进行抽取,并不局限于英语实体。 (3) 模板元素信息抽取[6](TE,Template Element),TE 主要利用了不同的实体具有 各自特定的描述信息和方式的特点,将这种特点和实体本身进行联系来抽取信息。首先, 将与实体有关联的标志信息提取出来,将这些信息看作是这个实体的属性,实体和这些 属性作为一个实体对象。 (4) 参照信息抽取(CO,Coreference),在同一个文档中,CO 主要是将同一实体的 描述信息组织成一个整体,并分析此实体在不同位置的主要情况;当这个实体在不同文 档时,分析它与别的实体的关系。CO 有助于情节信息的抽取。 (5) 情节模板信息抽取(ST,Scenario Template),ST 是以发生的事的时间为抽取对 象,并将时间和其他实体连结为一个整体。ST 需要的是时间实体和它的属性,将除时 间外的其他实体对应到事件的相应位置,通过这些联系模拟出事件原型。 以上的任务都是信息抽取的核心,不同的信息抽取用到不同的任务。 1.3 信息抽取发展趋势 信息抽取技术未来的发展趋势主要集中在两个发展方向上:一方面,使信息抽取技 术嵌入在现有的应用系统中,包括文本检索、基于任务的自动摘要、基于任务的机器翻 译、跨文档和多媒体的融合等,现有的技术能够很好地支持类似系统;另一方面,对信 息抽取的基础算法和与之相适应的测评机制的研究。另外,信息抽取系统一般不单独使 用,往往是为其它系统提供技术工具,信息抽取过程往往不需要人机交互[7]。 HTML 格式的文档构成了 Internet 中大部分的网页,包含着大量的数据资源,同时 隐蔽网[8](HiddenWeb)也隐藏了相当数量的数据信息,这些都是对网民极其有用的信 息资源,相关的信息抽取也成为了研究的热点。对于图片、声音和视频等内容的抽取比 较困难,但通过贝叶斯算法等的抽取系统,可以得到较优质的结果。由于 XML

您可能关注的文档

文档评论(0)

131****9843 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档