基于Web 的数据挖掘.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于Web 的数据挖掘

基于 Web 的数据挖掘 自动抽取用 HTML、XML 和 Java 编写的信息 级别: 初级 Jared Jackson?(jjared@), IBM 研究员 Jussi Myllymaki?(jussi@), IBM 研究员 2001 年 6 月 01 日 不可否认,万维网是到目前为止世界上最丰富和最密集的信息来源。但是,它的结构使它很难用系统的方法来利用信息。本文描述的方法和工具将使那些熟悉 Web 最常用技术的开发人员能快速而便捷地获取他们所需的以 Web 方式发布的信息。 在信息时代快速成长起来的万维网导致各种各样的公用信息被大量分发。 不幸的是,尽管作为信息主要载体的 HTML 提供了一种方便地向读者呈现信息的方法, 但它可能并不是一个很好的可以从中自动抽取与数据驱动的服务或应用程序相关的信息的结构。 已经尝试了多种方法来解决这个问题。大多数方法都采用一些专用查询语言的形式 把 HTML 页面的各个部分映射成代码,而这些代码将 Web 页面上的信息填入到数据库 中。尽管这些方法可能提供一些好处,但大部分会因为以下两个原因变得不切实际:首先,它们需要开发人员花时间去学习一种无法在其它情况下使用的查询语言,其次,它们还不够健壮到能处理不可避免的对目标 Web 页面的简单更改。 在本文中,将讨论使用标准 Web 技术―― HTML、XML 和 Java ――开发的一种 基于 Web 的数据挖掘方法。这种方法即使不比其它专用方法更强大,也和其 它方法不相上下,并且对于那些已经熟悉 Web 技术的人来说,只需要付出很少 的努力就可以收到很好的效果。另外,本文还附送了许多开始数据抽取所需的代码。 HTML:优点与缺点 HTML 通常是一个很难用程序手段处理的媒体。Web 页面中的大多数内容描述与数据驱动 的系统无关的格式编排,并且,由于要动态添加标题以及编写其它服务器端脚本,所以文档 结构可能在每次连接到页面时都需要进行更改。又因为所有 Web 页面主要部分的格式编排 不合理,所以使问题变得更为复杂,其结果是现在的 Web 浏览器在进行 HTML 语法分析 时非常不严谨。 尽管存在这些问题,但是 HTML 在数据挖掘方面仍然具有优势。您所 感兴趣的数据通常可以用 HTML 树中深度嵌套的单 个?table?或?div?标记隔离开来。 这使得抽取过程可以专门在文档的一小部分内执行。在缺少客户机端脚本 的情况下,只有一种定义下拉菜单和其它数据列表的方法。HTML 的这些方面允许 我们在一旦拥有可用格式的数据时能集中精力于数据抽取。 背景技术 这里描述的数据挖掘技术的关键是把现有的 Web 页面转换成 XML,或转 换成 XHTML 可能更适当,并使用众多工具中的一小部分来处理 XML 结构的数据, 以检索出适当的数据。 幸好有一个解决方案可以改正 HTML 页面设计的薄弱之处。Tidy(可以从一些编程语言中获取的库)是一个免费使用的产品,可用于改正 HTML 文档中的常见错误并生成格式编排良好的等价文档。还可以使用 Tidy 来 生成 XHTML(XML 的子集)格式的这些文档。(请参阅?参考资料)。 本文中的代码示例是用 Java 编写的,并且在编译和运行它们时,需要在您系统 的?classpath?中存在 Tidy jar 文 件。它们还需要通过 Apache 项目、Xerces 和 Xalan 使 XML 库可 用。这两个库都基于 IBM 提供的代码并分别控制 XML 语法分析 和 XSL 变换。这三种库中的每一个都可从 Web 上免费获取,要找到 它们,可以追随上述链接或参考本文后面的参考资料。理解 Java 编程 语言、XML 和 XSL 变换将对您理解以下示例有帮助。有关这些技术的 参考资料,可以在本文后面找到。 方法概述和示例简介 我们用示例的 方式来介绍数据抽取的方法。假设我们有兴趣跟踪几个月以来每天不同时间测得 的华盛顿州西雅图的温度和湿度级别。假如,没有现成的软件用于 报告此类信息以满足我们的需求,我们仍然拥有从众多公共网站收集此类信息的机会。 图 1举例说明了抽取的全过程。Web 页面 只有在创建了一个可合并到现有数据集的数据集后才会被检索和处理。 图 1. 概要说明抽取过程 ? 只需要很少的几个步骤,我们就可以拥有一个收集我们信息的合适而可靠的系 统。这里列出这些步骤是为了提供该过程的简要概述,图 1 中显示的是这一过程 的较高形式。 标识数据源并把它映射成 XHTML。 查找数据内的引用点。 将数据映射成 XML。 合并结果并处理数据。 这些步骤中的每一步都将加以详细说明,并将提供执行它们所必需的代码。 获取信 XHTML 格式的源信息 为了抽取数据,当然需要知道可以在哪里找到它。在大多数情

文档评论(0)

zhuliyan1314 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档