- 48
- 0
- 约1.25万字
- 约 14页
- 2017-08-31 发布于湖北
- 举报
数据挖掘基本概念
本章为全书的导论部分,首先阐述数据挖掘的本质,并讨论其在多个相关学科中的不同理解。接着介绍邦弗朗尼原理(Bonferroni’s principle),该原理实际上对数据挖掘的过度使用提出了警告。本章还概述了一些非常有用的思想,它们未必都属于数据挖掘的范畴,但是却有利于理解数据挖掘中的某些重要概念。这些思想包括度量词语重要性的TF.IDF权重、哈希函数及索引结构的性质、包含自然对数底e的恒等式等。最后,简要介绍了后续章节所要涉及的主题。
1.1 数据挖掘的定义
最广为接受的定义是,数据挖掘(data mining)是数据“模型”的发现过程。而“模型”却可以有多种含义。下面介绍在建模方面最重要的几个方向。
1.1.1 统计建模
最早使用“data mining”术语的人是统计学家。术语“data mining”或者“data dredging”最初是贬义词,意指试图抽取出数据本身不支持的信息的过程。1.2节给出了这种挖掘情况下可能犯的几类错误。当然,现在术语“data mining”的意义已经是正面的了。目前,统计学家认为数据挖掘就是统计模型(statistical model)的构建过程,而这个统计模型指的就是可见数据所遵从的总体分布。
例1.1 假定现有的数据是一系列数字。这种数据相对于常用的挖掘数据而言显得过于简单,但这只是为了说明问题而采用的例子。统计学家可
您可能关注的文档
- 医学检验系13级K-1班冉玉娟陈橙及创新.ppt
- 建设项目竣工环境保护-必读.doc
- 监所智能化安全防范管理系统-必读.doc
- 探析企业简易注销操作流程指南.doc
- 技工学校文化理论课教案及有关详解.doc
- 益阳市环境监测站及统计分析.doc
- 建设项目基本情况表1-必读.doc
- 浙江省杭州市2016—2017学年度高二下学期期末考试及统计分析.doc
- 江苏信息职业技术学院及有关详解.doc
- 职业安全卫生教育训练规则部分条文修正条文及汇总.doc
- 无人机在设施农业中的精准作业应用与市场前景.docx
- 户用光储一体化系统产品形态、市场渗透率与消费者偏好研究_市场调研报告.docx
- 光伏产品“数字护照”(Digital Product Passport)强制推行时间表预测及其对供应链透明化的革命性影响.docx
- 水上光伏(湖泊、水库、近海)技术挑战、环境评估与投资收益研究_市场调研报告.docx
- 电镀铜栅线技术替代银浆的彻底无银化路径与成本拐点预测.docx
- 硅基叠层太阳能电池的效率突破与产业化瓶颈分析.docx
- 城市地下管廊无人机自主充电与数据断点续传技术应用.docx
- 老年人对器官捐献的认知与意愿调研.docx
- 大疆创新与极飞科技在农业无人机领域的战略路径对比.docx
- 体育赛事IP数字化运营:NBA、CBA短视频内容分发策略与粉丝活跃度对比_竞争分析报告.docx
原创力文档

文档评论(0)