数据挖掘中的半结构化数据.docVIP

  • 7
  • 0
  • 约4.44千字
  • 约 8页
  • 2017-08-19 发布于浙江
  • 举报
数据挖掘中的半结构化数据

数据挖掘中的半结构化数据 摘 要 半结构化数据是网络中一种重要的数据形式,也是进行数据挖掘的重要基础。因此要对Internet上巨量的数据进行数据挖掘,半结构化数据及模型是前提。本文介绍了半结构化数据的相关概念及其数据模型。 关键词 半结构化数据、数据挖掘、数据模型1 数据挖掘与半结构化数据模型1.1 数据挖掘与异构数据库 数据挖掘(DM)是从在大型数据库或数据仓库中发现并提取隐藏在其中的信息或者知识的过程。其目的是帮助分析人员寻找数据之间的关联,发现被忽略的要素,而这些信息对于预测趋势和决策行为是十分有用的。 数据挖掘源于人工智能的机器学习领域,其实质的内涵是在一个已知状态的数据集(DataSet)上,通过设定一定的学习算法,从数据集中获取所谓的知识。知识发现技术的相关研究为数据挖掘技术提供了坚实的理论基础,数据挖掘技术实际上是人工智能领域中的知识发现技术和数据库技术共同发展的结果。 传统意义的数据库、数据仓库和上面我们提到的Internet中的数据是我们所拥有的数据资源,也是进行数据挖掘的基础。传统数据库中的数据结构性很强,其中的数据为完全结构化的数据;数据仓库是由数据库导出的用于分析型的数据环境;我们可把Web网站上的信息看作一个数据库,一个更大、更复杂的数据库,Web上的每一个站点就是一个数据源,每个数据源都是异构的,因而每一站点之间的信息和组织都不一样,这就构成了一个巨

文档评论(0)

1亿VIP精品文档

相关文档