数据挖掘笔记二.docxVIP

  • 4
  • 0
  • 约2.28千字
  • 约 6页
  • 2024-06-05 发布于北京
  • 举报

数据挖掘笔记(二)

数据挖掘的定义:

(1)?????????技术层面上:数据挖掘是从大量数据中提取潜在有用的信息过程。(潜在:以前所不了解的)

(2)?????????从商业层面:对大量业务数据进行抽取、转换、分析和建模处理,从中提取辅助商业决策的关键性数据。

备注:判断是否有意义不是从人的角度主观去判断(认为自己没用就是没意义的是错误的),应该从定义角度去判断,对公司、商店利益的角度。

判断下列活动是否数据挖掘。

根据性别划分公司的顾客。(否,原因:这是没有多大意义的)

根据可赢利性划分公司的顾客。(否,原因:属于统计销售额,哪位顾客购买多少钱,对公司是否有利,而如果改用数据挖掘去预测模型,才是数据挖掘)

计算公司总销售额。(否,原因:属于统计)

按学生的标识号对学生数据库排序。(否,原因:仅仅是简单的查询任务)

预测摇一对骰子的结果。(否,原因:骰子的一面的概率是六分之一,两个骰子是1/6*1/6=1/36)

使用历史记录预测某公司未来的股票价格。(是,是属于数据挖掘,有预测未来,同时是分类或回归中的回归分析,因为确定相互以来定量关系,还有一个连续的数值(股票价格),所说的分类得出模型是只有一个值,分类是离散数值,预测是“是”还是“否”,。)

检测病人心率的异常变化。(是,从正常的心率模型,区分这个病人是否正常还是异常)

检测地震活动的地震波。(是)

提取声波的频率。(否,没有预测未来的)

属性(也称为特征、维或字段)是指一个对象的某方面性质或特征,一个对象通过若干属性来刻画。

属性分为:标称、序数、区间和比率。

定性(或分类的):标称(区分对象的,如颜色、性别、标号等,没有实际意义)、序数(提供足够的信息,区分对象的序,有等级的,如成绩等级、学生成绩等级、光亮度等级)。

定量(或数值的):区间(属性之间的差值是有意义的,如日历日期、摄氏温度)、比率(属性之间的差值和比率都是有意义的,如长度、时间、和速度)。

数据集特性:维度、稀疏性和分辨率。

数据集分为:记录数据(1.事务数据或购物篮数据,也就是购买商品构成二维表格,购买的商品是一个项,表明购买商品与否。2.数据矩阵)、基于图形的数据和有序的数据集。

数据统计特征

中心趋势度量包括:均值、中位数、众数、中列数,数据离散程度包括四分位数、四分位数极差和方差。

算术均值:直接求平均值。(1+2+3+…+100)/100.

加权算术均值:(w1x1+w2x2+…wnxn)/(w1+w1+…+wn)。一般算分子,分母和(权值和一般为1,权值看重视程度).

截断均值:丢弃高端和低端(p/2)%的数据,用常规方法计算均值。(如:{1,2,3,4,5,90},中位数是(3+4)/2=3.5,截断均值:去掉1和90,(2+3+4+5)/4=3.5)

中列数:用于评估数据集中心趋势,是数据集的最大值和最小值的平均值。

中位数:如果个数是奇数,则中间值是中位数,如果是偶位数,则中间两个值的平均值是中位数。

四分位数:如1234…100,分为25%,50%75%分开,第一个四分位数是25%,第二个是50%,第三个四分位数是75%。

众数:分类数据可以用众数来度量中心趋势,众数是集合中出现频率最高的值。(如:{11356999},9出现频率最高,众数=9)

数据清理

目的:视图填充缺失值,去掉噪声并识别离群点、纠正数据中不一致的值。

缺失值处理方法:忽略元组(性能差)、忽略属性列(缺失值太多,整个数据集中忽略该属性)、人工填写缺失值(数据量大行不通)、自动填充缺失值(常数替换、均值或者众数填充默认值、可能值代替缺失值)。

噪声数据平滑方法

分箱分为中值平滑、边界平滑。一般来说,宽大越大,平滑效果越大。

例如:排序后的字符:4815212124252834划分等深度的箱子,深度是4.则每个箱子分四个字符后:

箱子1:481521

箱子2:21242528

箱子3:34(只有一个数)

方法一:中值平滑:

箱子1:481521平均值是12

箱子2:21242528平均值是21.5

箱子3:34(只有一个数)平均值是34,他自己

平滑后:

箱子1:12121212

箱子2:21.521.521.521.5

箱子3:34

方法二:边界平滑:

箱子1:4815218和边界4更接近,8和21不接近,15和边界21更接近,15和边界4不接近。

因此平滑后应该是:442121

箱子2:21242528平均值是21.5

箱子3:34(只有一个数)平均值是34,他自己

平滑后:

箱子1:442121平均值是12

箱子2:212

文档评论(0)

1亿VIP精品文档

相关文档