- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
2
2
PAGE
PAGE 1
目录
3.4.2 页面的清理规则 24
HYPERLINK \l _TOC_250002 3.5 HTML 到 XML 转换 25
HYPERLINK \l _TOC_250001 3.6 Web 信息抽取方式 29
HYPERLINK \l _TOC_250000 3.7 基于 XSLT 的抽取方法 29
XSLT 转换文档 29
XSLT 转换器 31
3.8 基于分块树的自动抽取算法 33
3.8.1 Web 页面分块 34
3.8.2 主数据区域的识别 37
3.8.3 基于相似块的数据项抽取 39
第四章 原型系统的设计与实现 44
4.1 原型系统的设计 44
4.1.1 系统的整体设计方案 44
4.1.2 系统的模块结构 47
4.2 系统的实验与分析 49
第五章 总结与展望 52
5.1 本文总结 52
5.2 工作展望 53
致 谢 54
参考文献 55
附 录 58
第一章
第一章 绪论
第一章
第一章 绪论
第一章 绪论
1.1 论文的研究背景及意义
由于 Internet 及其应用技术的迅猛发展,互联网上产生了海量的 Web 信息, 人们对网上信息的应用需求也在不断提高。用户为了获取自己需要的一点信息, 需要对大量的 Web 页面进行浏览和搜索,这个过程有时需要耗费用户几个小时 甚至更长时间。目前这个信息资源的主要检索工具就是搜索引擎。然而,随着信 息量的急剧扩大,搜索引擎系统的服务质量已经远远不能满足人们信息获取的需 求。虽然可以尽可能地缩小搜索范围,但是却很难从结果中提取出其中有用的信 息和知识。在未来的 Web 发展中,如何从这样一个无限的信息海洋中准确、快 速定位所需信息,提高信息检索的准确性和效率将成为关键问题。另外,海量的 Web 数据作为一种新的巨大的数据资源,为数据库技术的发展开辟了新的研究领 域,同时也为传统的数据管理领域的理论与方法研究提出了挑战。
网上现有的大多数搜索引擎,例如 Google 和 Baidu 等,都是对 HTML 网页 里的关键字进行索引和组织,关键字匹配是他们的主要技术之一(有些系统提供 稍微复杂一点的布尔搜索)[1]。检索的结果仍然是 HTML 网页的集合,按系统决 定的相关程度进行排序,并且对于搜索出的条目需要用户逐一浏览,查准率也不 是很高。搜索引擎不能进行精确查询的主要原因是 Web 环境中的数据大都是半 结构化数据(semi-structured data)[2]。半结构化数据存在一定的结构,但这些结 构或者没有被清晰地描述;或者是经常动态变化的,或者过于复杂而不能被传统 的模式定义来表现。目前缺少成熟的对半结构数据进行有效的内容提取、集成和 分析处理的理论和方法。
Web 环境下的半结构化数据模型与传统的关系模型有着较大的不同,主要表 现在半结构化数据模型中:(1)没有统一的模式结构;(2)数据与模式混杂其中;
(3)该模式主要描述的是数据的结构信息,而不是强制性约束结构;(4)模式 的规模超过数据本身的规模等[3]。这是由于半结构化数据模型具有结构复杂、模 式不规则等特点,所以一般不直接用于查询处理。而半结构化数据的提取指的是
通过有效的模式提取,利用模式信息和查询计算,提取出 Web 的相关内容。其
中,Web 数据提取主要面对的困难是:一、由于 Web 中的数据模式是隐性的或 者由于模式与数据是混杂的,这就需要综合运用数据库和人工智能技术,通过对 目标文本的特征分析来获得;二、由于模式的不规则性,使得在获取信息前,首 先应该将其转换成等价的规则模式,而通常这种转换过程代价过高,成为研究的 一个难点。
因此,为了解决上述 Web 信息抽取过程中出现的种种困难与问题,有必要 对 Web 信息抽取技术做进一步的研究。
1.2 论文的研究内容
本文主要研究的内容是如何从 Web 页面上抽取出自己所需要的数据,实现 了从半结构化得 HTML 数据转换成结构化得 XML 数据,以及从 XML 数据转换 成关系型数据的这一过程,从而成功实现了 Web 信息抽取。
论文首先介绍了 Web 信息抽取的相关概念,根据所参考的文献,总结出目 前流行的几种 Web 信息抽取的技术分类,并分析了未来 Web 信息抽取可能的发 展方向;其次由于本文所讨论的是采用基于 XML 技术的 Web 信息抽取,所以本 文又讨论了 XML 的相关技术,包括 XML 的相关概念及语法结构、转换技术 XSL 与 XSLT、定位技术 Xpath 等,给出了基于 XML 技术的 Web 信息抽取的设计流 程——页面的预处理、清洗页面、页面转换、
您可能关注的文档
- 基于Xen的Linux内核源码调试器设计-软件工程专业论文.docx
- 基于Xen的Rootkit检测技术研究-通信与信息系统专业论文.docx
- 基于Xen的操作系统识别方法-计算机系统结构专业论文.docx
- 基于Xen的多虚拟机资源调度技术研究计算机科学与技术专业论文.docx
- 基于Xen的进程恢复系统的设计与实现-计算机科学与技术专业论文.docx
- 基于Xen的声音设备虚拟化的研究-计算机软件与理论专业论文.docx
- 基于Xen的虚拟机动态迁移技术研究-计算机应用技术专业论文.docx
- 基于Xen的云管理平台下资源调度策略的研究与实现-计算机技术专业论文.docx
- 基于Xen的云平台安全测试技术与工具-电子与通信工程专业论文.docx
- 基于Xen平台的虚拟机个性化安全监控系统的设计与实现-计算机技术专业论文.docx
- 基于XML的Web信息抽取分析-计算机应用技术专业论文.docx
- 基于XML的Web信息抽取技术研究-计算机软件与理论专业论文.docx
- 基于XML的Web信息抽取设计与实现-计算机应用技术专业论文.docx
- 基于XML的WEB信息抽取系统研究与实现-计算机科学与技术专业论文.docx
- 基于XML的Web信息抽取研究-计算机应用技术专业论文.docx
- 基于XML的Web整合研究及其在多数据库系统中应用-计算机应用技术专业论文.docx
- 基于XML的半结构化数据处理方法与应用研究-计算机科学技术专业论文.docx
- 基于XML的半结构化数据存储技术研究-计算机应用技术专业论文.docx
- 基于XML的残疾人数据库管理系统的相关技术-系统工程专业论文.docx
- 基于XML的产品数据模式、存储及共享模型的研究-机械制造及其自动化专业论文.docx
原创力文档


文档评论(0)