落实数据挖掘基本概念.docVIP

  • 48
  • 0
  • 约1.25万字
  • 约 14页
  • 2017-08-31 发布于湖北
  • 举报
数据挖掘基本概念 本章为全书的导论部分,首先阐述数据挖掘的本质,并讨论其在多个相关学科中的不同理解。接着介绍邦弗朗尼原理(Bonferroni’s principle),该原理实际上对数据挖掘的过度使用提出了警告。本章还概述了一些非常有用的思想,它们未必都属于数据挖掘的范畴,但是却有利于理解数据挖掘中的某些重要概念。这些思想包括度量词语重要性的TF.IDF权重、哈希函数及索引结构的性质、包含自然对数底e的恒等式等。最后,简要介绍了后续章节所要涉及的主题。 1.1 数据挖掘的定义 最广为接受的定义是,数据挖掘(data mining)是数据“模型”的发现过程。而“模型”却可以有多种含义。下面介绍在建模方面最重要的几个方向。 1.1.1 统计建模 最早使用“data mining”术语的人是统计学家。术语“data mining”或者“data dredging”最初是贬义词,意指试图抽取出数据本身不支持的信息的过程。1.2节给出了这种挖掘情况下可能犯的几类错误。当然,现在术语“data mining”的意义已经是正面的了。目前,统计学家认为数据挖掘就是统计模型(statistical model)的构建过程,而这个统计模型指的就是可见数据所遵从的总体分布。 例1.1 假定现有的数据是一系列数字。这种数据相对于常用的挖掘数据而言显得过于简单,但这只是为了说明问题而采用的例子。统计学家可

文档评论(0)

1亿VIP精品文档

相关文档