第七章统计技术实验
--数据挖掘导论第七章作业
、实验目的及内容
1.1 实习目的
统计技术是一门对数据收集、整理和分析处理,从而得到数据特征和预测对象未来的综合性学科,大多数统计分析技术都具有较强的数学理论基础,在分析和预测对象方面有着较高的准确度,从而使其在社会科学和自然科学的各个领域都得到了普遍和成功的应用,统计分析方法和技术也是数据挖掘技术中非常重要和比较成熟的技术。常用的分析技术包括回归分析、贝叶斯分析,聚类技术和主成分分析、时间序列分析等。
、实验过程
第一部分回归分析
1.1回归算法的核心思想
回归分析(regression analysis)是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。运用十分广泛,回归分析按照涉及的变量的多少,分为一元回归和多元回归分析;在线性回归中,按照因变量的多少,可分为简单回归分析和多重回归分析;按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。如果在回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且自变量之间存在线性相关,则称为多元线性回归分析。
(1)斜截式
已知直线在y轴上的截距为b,斜率K,可以确定该直线的方程.
即为 y = k x + b
此斜截式类似于一次函数的表达式。
(2)最小二乘法估计回归分析的最初目的是估计模型的参数以便达到对数据的最佳拟合。在决定一个最佳拟合的不同标准之中,最小二乘法是非常优越
的
1.2
实验软件:Weka3-9.
1.3 过程
打开excel并录入数据如图
2、画出散点图:
建立简单线性回归方程,并画出这个直线
回归方程为: y = 15.039x - 30129
所以预测当year= 2014,2015,2016时
Year
Income
2014
159.546
2015
174.585
2016
189.624
第二部分凝聚聚类技术
1.1凝聚聚类算法的核心思想
所谓凝聚的,指的是该算法初始时,将每个点作为一个簇,每一步合并两个最接近的簇。另外即使到最后,对于噪音点或是离群点也往往还是各占一簇的,除非过度合并。对于这里的“最接近”,有下面三种定义。我在实现是使用了MIN,该方法在合并时,只要依次取当前最近的点对,如果这个点对当前不在一个簇中,将所在的两个簇合并就行:????单链(MIN):定义簇的邻近度为不同两个簇的两个最近的点之间的距离。????全链(MAX):定义簇的邻近度为不同两个簇的两个最远的点之间的距离。????组平均:定义簇的邻近度为取自两个不同簇的所有点对邻近度的平均值。
1.2实验过程
打开软件导入数据集
选择HierachicalCluster算法并设置为EuclideanDistance
结果如下
=== Run information ===
Scheme: weka.clusterers.HierarchicalClusterer -N 2 -L SINGLE -P -A weka.core.EuclideanDistance -R first-last
Relation: PlayBasketball
Instances: 15
Attributes: 5
Weather
Temperature/??
Courses
Partner
Play
Test mode: evaluate on training data
=== Clustering model (full training set) ===
Cluster 0
(((((((0.0:1,0.0:1):0.01015,(0.0:1,0.0:1):0.01015):0,0.0:1.01015):0.02986,(0.0:1.01015,0.0:1.01015):0.02986):0.11174,(1.0:1.04002,1.0:1.04002):0.11174):0,(1.0:1.04002,(1.0:1.01015,1.0:1.01015):0.02986):0.11174):0.07715,(1.0:0.28571,1.0:0.28571):0.94319)
Time taken to build model (full training data) : 0.01 seconds
=== Model and evaluation on training set ===
Clustered Insta
原创力文档

文档评论(0)