浅析数据挖掘中半结构化数据.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
浅析数据挖掘中半结构化数据

浅析数据挖掘中半结构化数据   摘要:半结构化数据是网络中一种重要的数据形式,也是进行数据挖掘的重要基础。因此要对Internet上巨量的数据进行数据挖掘,半结构化数据及模型是前提。本文介绍了半结构化数据的相关概念及其数据模型。   关键词:半结构化数据;数据挖掘;数据模型   中图分类号:TP311.13文献标识码:A文章编号:1007-9599 (2010) 16-0000-02   The Semi-structured Data of Data Mining   XianYu Danqian   (Modern Technical Education Center of Hebei United University,Tangshan063000,China)   Abstract:The semi-structured data is an important network in the form of data,but also an important basis for data mining.So to a huge amount of data on the Internet,data mining,semi-structured data and model is the premise.This article describes the semi-structured data and data model concepts.   Keywords:Semi-structured data;Data mining;Data model   一、数据挖掘与半结构化数据模型   (一)数据挖掘与异构数据库   数据挖掘(DM)是从在大型数据库或数据仓库中发现并提取隐藏在其中的信息或者知识的过程。其目的是帮助分析人员寻找数据之间的关联,发现被忽略的要素,而这些信息对于预测趋势和决策行为是十分有用的。   数据挖掘源于人工智能的机器学习领域,其实质的内涵是在一个已知状态的数据集(DataSet)上,通过设定一定的学习算法,从数据集中获取所谓的知识。知识发现技术的相关研究为数据挖掘技术提供了坚实的理论基础,数据挖掘技术实际上是人工智能领域中的知识发现技术和数据库技术共同发展的结果。   传统意义的数据库、数据仓库和上面我们提到的Internet中的数据是我们所拥有的数据资源,也是进行数据挖掘的基础。传统数据库中的数据结构性很强,其中的数据为完全结构化的数据;数据仓库是由数据库导出的用于分析型的数据环境;我们可把Web网站上的信息看作一个数据库,一个更大、更复杂的数据库,Web上的每一个站点就是一个数据源,每个数据源都是异构的,因而每一站点之间的信息和组织都不一样,这就构成了一个巨大的异构数据库环境。   (二)半结构化数据模型与数据挖掘   Internet上的数据与传统的数据库中的数据不同,传统的数据库都有一定的数据模型,可以根据模型来具体描述特定的数据,同时可以很好地定义和解释相关的查询语言。而Internet上的数据非常复杂,没有特定的模型描述,每一站点的数据都各自独立设计,并且数据本身具有自述性和动态可变性,其结构也不可琢磨,是一种我们称之为半结构化数据。所谓半结构化是相对于结构化(传统数据库)和非结构化(如一本书、一张图片等)而言的。但是Internet上存在的数据既不是完全结构化的也不是完全非结构化的,因为它的页面也具有一定的描述层次的,存在一定的结构,所以我们将它称为半结构化的数据。如果想要利用Internet上的数据进行数据挖掘,必须先要研究站点之间异构数据的集成问题,只有将这些站点的数据都集成起来,提供给用户一个统一的视图,才有可能从巨大的数据资源中获取所需的东西。其次,还要解决Web上的数据查询问题,因为如果所需的数据不能很有效地得到,对这些数据进行分析、集成、处理就无从谈起。针对Internet上的数据半结构化的特点,寻找一个半结构化的数据模型则成为了解决上述问题的关键所在。此外,除了要定义这样一个半结构化数据模型外,还需要一项技术能够自动地从现有数据中将这个模型抽取出来,这就是所谓的模型抽取技术。因此半结构化数据模型及其抽取技术是面向Internet的数据挖掘技术实施的前提。   二、半结构化数据的定义   半结构化数据有两层含义,一种是指在物理层上缺少结构的数据,另一种是指在逻辑层上缺少结构的数据。有一些结构化数据,为用于web页面的显示而与html语言的标记符号嵌在一起,构成了物理上的半结构化数据。Internet中有大量丰富的数据,这些数据多存在于html文件中,没有严格的结构及类型定义,这些都是逻辑层半结构化的数据。Internet上的数据与

文档评论(0)

317960162 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档