基于Web的信提取技术研究.docxVIP

  • 8
  • 0
  • 约 17页
  • 2018-04-11 发布于贵州
  • 举报
基于Web的信提取技术研究

PAGE2 / NUMPAGES17 基于Web的信息提取技术研究 目录 摘要 4 第1章绪论 5 1.1研究背景 5 1.2研究意义 5 1.3本文研究内容 6 1.4论文结构安排 6 第2章Web信息抽取概述 7 2.1 Web信息抽取的发展历史 7 2.2 Web信息抽取的定义和Web信息的特点 7 2.3 Web信息抽取技术分析 8 2.3.1 基于正则表达式的信息抽取 8 2.3.2 基于自然语言处理的信息抽取 8 2.3.3 基于本体的信息抽取 9 2.3.4 基于包装器归纳的信息抽取 9 2.3.5 基于HTML结构的信息抽取 9 2.3.6 基于Web查询的信息抽取 9 2.4 本章小结 9 第3章 基于XML技术的Web信息抽取 10 3.1 概述 10 3.1.1 问题的提出 10 3.1.2 网页的格式及XML技术的优势 10 3.2 Web信息抽取流程 11 3.3 相关技术介绍 11 3.3.1 DOM模型 11 3.3.2 Xpath 11 第四章 基于XML技术的Web信息抽取的实现 12 4.1 Web文档的预处理 12 4.1.1 将HTML文档解析为DOM模型 12 4.1.2 将HTML文档转换为形式上的XML文档 12 4.2 抽取规则 13 4.2.1 抽取规则的设计 13 4.2.2 抽取规则的生成 14 4.3 信息抽取 14 4.4 附加语义 14 4.5 抽取规则的优化 15 4.5.1 利用标记属性进行优化 15 4.5.2 利用标记之间的数量关系进行优化 15 第五章 结 论 16 本文总结 16 本文总结 16 参考文献 17 摘要 随着互联网的快速发展和普及,人们越来越依赖于网络获取信息。作为海量的信息来源,Web可以看成是一个巨大的数据库,包含着各种各样有价值的信息。基于Web的信息抽取技术就是研究如何从这些Web源中抽取出用户感兴趣的信息,并把这些抽取出的信息表示成更具有语义,更为结构化的形式,以便加以利用。该技术起源于信息抽取技术,但由于Web信息的自身特点,该技术已经和传统的基于纯文本的信息抽取技术有了很大的不同。 目前,大量Web信息被保存在网站的后台数据库中,这些信息在网页上的显示有一些共同的特征,即通常把数据库中的数据插入到网页的一个模板中,其表现形式就是网页的主体部分有多个局部信息块组成,局部信息块有多个数据项构成。这类网页被称为数据密集型(data-rich)网页,由于该类网页富含大量有价值的信息,因此,研究如何对这类网页进行Web信息抽取有重大的意义和实用价值。 对于上述数据密集型网页,本文采用基于XML的相关技术来解决Web信息的抽取问题。其解决方案是:首先获得目标网页,并将该HTML文档以文档对象模型DOM为中介,转换为形式上的XML文档,然后根据这类网页的特征,把该网页中信息的布局视为基于行和列的二维表形式,用户根据自身需求,通过与系统交互,系统半自动地生成基于行和相关列的XPath位置路径表达式作为抽取规则,根据抽取规则定位到待抽取的信息,从而实现信息的准确抽取,抽取的结果用XML来表示。 关键词:Web信息抽取;DOM;XML 第1章 绪论 研究背景 自九十年代初互联网(Internet)开始迅速发展至今,互联网已成为经济、社会、文化、教育以及娱乐等各个方面的重要组成部分,并正在成为我们工作和生活中不可或缺的一员。就我国而言,据CNNIC(中国互联网络信息中心)的统计,截止2010年7月,中国网民数已达4.2亿,网民平均每周上网时长达19.8小时,并且这两个数据还在不断地增长。正当人们越来越依赖互联网来获取信息的时候,信息过载的问题出现了。目前,网络信息的相当一部分是通过万维网(WWW)的Web页面提供的,但据CNNIC的最新统计显示:仅中国,网站数量已有279万个。面对如此庞大的数据,如何从浩如烟海的Web信息中快速、有效地查找用户需要的信息一直是互联网络应用的一个难题。 近几年来,出现了多种基于Web的信息检索工具,如比较出名的Google、Yahoo、百度等搜索引擎工具,这些工具的出现极大地方便了人们对信息的获取,能够解决部分信息过载的问题,但由于它们都是基于字符串匹配和词义相似原理进行信息查询的,因此使用这些工具得到的查询结果动辄成百上千条,而且有很多返回的查询结果中包含了重复的内容,这就使用户得到了网页,并不等于得到了想要的信息资源。为了更加有效的组织和获取网上数据资料,高效地发现和利用Internet上的资源,研究人员开创了Web信息抽取这个研究领域。Web信息抽取技术的任务就是将网页中用户感兴趣的信息准确地抽取出来,以更具有语义、更结构化的形式保存下来,以供用户查询或 其他应用程序利用。它与网络信息检索的区别是: 目的不

文档评论(0)

1亿VIP精品文档

相关文档