基于XML的Web信息抽取的研究和应用-计算机应用技术专业论文.docxVIP

下载本文档

2
0
约4.56万字
约 63页
2019-02-15 发布于上海
举报
版权申诉

基于XML的Web信息抽取的研究和应用-计算机应用技术专业论文.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

2 2 PAGE PAGE 1 目录 3.4.2 页面的清理规则 24 HYPERLINK \l _TOC_250002 3.5 HTML 到 XML 转换 25 HYPERLINK \l _TOC_250001 3.6 Web 信息抽取方式 29 HYPERLINK \l _TOC_250000 3.7 基于 XSLT 的抽取方法 29 XSLT 转换文档 29 XSLT 转换器 31 3.8 基于分块树的自动抽取算法 33 3.8.1 Web 页面分块 34 3.8.2 主数据区域的识别 37 3.8.3 基于相似块的数据项抽取 39 第四章原型系统的设计与实现 44 4.1 原型系统的设计 44 4.1.1 系统的整体设计方案 44 4.1.2 系统的模块结构 47 4.2 系统的实验与分析 49 第五章总结与展望 52 5.1 本文总结 52 5.2 工作展望 53 致谢 54 参考文献 55 附录 58 第一章第一章绪论第一章第一章绪论第一章绪论 1.1 论文的研究背景及意义由于 Internet 及其应用技术的迅猛发展，互联网上产生了海量的 Web 信息，人们对网上信息的应用需求也在不断提高。用户为了获取自己需要的一点信息，需要对大量的 Web 页面进行浏览和搜索，这个过程有时需要耗费用户几个小时甚至更长时间。目前这个信息资源的主要检索工具就是搜索引擎。然而，随着信息量的急剧扩大，搜索引擎系统的服务质量已经远远不能满足人们信息获取的需求。虽然可以尽可能地缩小搜索范围，但是却很难从结果中提取出其中有用的信息和知识。在未来的 Web 发展中，如何从这样一个无限的信息海洋中准确、快速定位所需信息，提高信息检索的准确性和效率将成为关键问题。另外，海量的 Web 数据作为一种新的巨大的数据资源，为数据库技术的发展开辟了新的研究领域，同时也为传统的数据管理领域的理论与方法研究提出了挑战。网上现有的大多数搜索引擎，例如 Google 和 Baidu 等，都是对 HTML 网页里的关键字进行索引和组织，关键字匹配是他们的主要技术之一（有些系统提供稍微复杂一点的布尔搜索）[1]。检索的结果仍然是 HTML 网页的集合，按系统决定的相关程度进行排序，并且对于搜索出的条目需要用户逐一浏览，查准率也不是很高。搜索引擎不能进行精确查询的主要原因是 Web 环境中的数据大都是半结构化数据（semi-structured data）[2]。半结构化数据存在一定的结构，但这些结构或者没有被清晰地描述；或者是经常动态变化的，或者过于复杂而不能被传统的模式定义来表现。目前缺少成熟的对半结构数据进行有效的内容提取、集成和分析处理的理论和方法。 Web 环境下的半结构化数据模型与传统的关系模型有着较大的不同，主要表现在半结构化数据模型中：（1）没有统一的模式结构；（2）数据与模式混杂其中；（3）该模式主要描述的是数据的结构信息，而不是强制性约束结构；（4）模式的规模超过数据本身的规模等[3]。这是由于半结构化数据模型具有结构复杂、模式不规则等特点，所以一般不直接用于查询处理。而半结构化数据的提取指的是通过有效的模式提取，利用模式信息和查询计算，提取出 Web 的相关内容。其中，Web 数据提取主要面对的困难是：一、由于 Web 中的数据模式是隐性的或者由于模式与数据是混杂的，这就需要综合运用数据库和人工智能技术，通过对目标文本的特征分析来获得；二、由于模式的不规则性，使得在获取信息前，首先应该将其转换成等价的规则模式，而通常这种转换过程代价过高，成为研究的一个难点。因此，为了解决上述 Web 信息抽取过程中出现的种种困难与问题，有必要对 Web 信息抽取技术做进一步的研究。 1.2 论文的研究内容本文主要研究的内容是如何从 Web 页面上抽取出自己所需要的数据，实现了从半结构化得 HTML 数据转换成结构化得 XML 数据，以及从 XML 数据转换成关系型数据的这一过程，从而成功实现了 Web 信息抽取。论文首先介绍了 Web 信息抽取的相关概念，根据所参考的文献，总结出目前流行的几种 Web 信息抽取的技术分类，并分析了未来 Web 信息抽取可能的发展方向；其次由于本文所讨论的是采用基于 XML 技术的 Web 信息抽取，所以本文又讨论了 XML 的相关技术，包括 XML 的相关概念及语法结构、转换技术 XSL 与 XSLT、定位技术 Xpath 等，给出了基于 XML 技术的 Web 信息抽取的设计流程——页面的预处理、清洗页面、页面转换、