基于XML的Web挖掘模型研究.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于XML的Web挖掘模型研究.pdf

* 基于XML的Web挖掘模型研究 ResearchofWeb ModelBasedonXML Mining 王新颖 吴 钊 (襄樊学院电气信息工程系 襄樊441003) 摘要在介绍XML语言基本特点的基础上,提出了一种基于XML的Web挖掘模型。以期解决当前Web挖掘中存 在的一些问题。 关键词XMLWeb挖掘半结构化数据源 随着web上信息量的急剧增加,如何自动地从Web上制定出自己的一套独特的标记,并能迅速投入使用,使得制定 发现、抽取和过滤信息是一个迫切需要解决的问题。Web挖 标记语言简单易行,方便使用。 掘…就是从大量的Web文档和Web活动中发现、抽取感兴 b.内容的自述性。XML是面向内容的标记语言,在 趣的、潜在的有用模式和隐含的、事先未知的、潜在的信息。 XML的标记方面不仅限定了元素的层次结构,并且说明了元 目前Web挖掘所面临的问题主要体现在以下几个方面: 素的含义,在XML的搜寻结果中由标记就可知道内容的含 a.半结构化的数据结构。Web上的数据没有特定的模型义,从而使得搜寻结果更有意义。 描述,每一站点的数据都各自独立设计,并且数据本身具有自 c.数据内容与形式的分离。搜寻不仅允许定义一套标 述性和动态可变性。因而,Web上的数据具有一定的结构 记,而且这些标记不必局限于显示格式的描述,搜寻允许根据 性,但因自述层次的存在,从而是一种非完全结构化的数据, 各种不同的规则来制定标记,比如商业规则,根据数据描述甚 称之为半结构化数据。 至根据数据关系来制定标记,XML是自描述语言,在XML b.异构数据库环境。web上的一个站点就是一个数据 中显示样式从数据文档中分离出来放在样式文件中,在XML 源,每个数据源都是异构的,因而每一站点之间的信息和组织 中数据检索可以简单高效地进行。 都不一样,这就构成了一个巨大的异构数据库环境。 d.严格的语法要求。严格的语法要求固然表面上显得繁 e.解决半结构化的数据源问题。Web挖掘技术要解决半琐,但一个有良好语法结构的文档可提供良好的可读性和可 结构化数据源模型和半结构化数据模型的查询与集成问题, 维护性。 这就要求必须要有一个模型来清晰地描述Web上的数据。 e.显示的多样性。在XML中,可以用格式文件如XSL 除了要定义一个半结构化数据模型外,还需要一种半结构化 (ExtensibleStyle 模型抽取技术,即自动地从现有数据中抽取半结构化模型的 技术【21。 的形式内嵌到HTML页面中,这种分离可以实现不同数据源 针对上述问题,本文在分析XML语言基本特点的基础 数据的无缝连接,各种数据可以在中间件上转换为XML格 上,提出了一种基于XML的web挖掘模型,并对模型的不足式,使得数据很容易地进行在线交换和传输。 和改进进行了积极的探索。 总之,以XML为基础的新一代WwW环境是直接面对 web数据的,不仅可以很好地兼容原有的Web应用,而且可 1 XM L的主要特点 以更好地实现Web中的信息共享与交换。XML可看作一种 XML是一种中介标示语言(Meta—markupLanguage),半结构化的数据模型,可以很容易地将XML的文档描述与 可提供描述结构化资料的格式,类似于HTML,被设计用来关系数据库中的属性一一对应起来,实施精确地查询与模型 描述数据的语言。它提供了一种独立的运行程序的方法来共 抽取。 享数据,是用来自动描述信息的一种新的标准语言。其主要 2基于

文档评论(0)

aiwendang + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档