- 0
- 0
- 约1.41万字
- 约 45页
- 2020-11-30 发布于山东
- 举报
实用标准文案
浙江大学算法研究实验报告
数据挖掘
题目: K-means
文档大全
实用标准文案
文档大全
实用标准文案
目录
一、 内容?????????????????????5
二、 目的?????????????????????7
三、 方法?????????????????????7
3.1 、硬件 境 明?????????????????7
3.2 数据 明???????????????????7
3-1 ???????????????????????7
3.3 参数 明 / 件正确性 ???????????7
四、算法描述?????????????????????9
4-1 ???????????????????????10
五、算法 ?????????????????????11
5.1 主要数据 构描述?????????????????11
5-1 ???????????????????????11
5.2 核心代 与关 技 明??????????????11
5.3 算法流程 ????????????????????14
六、 果?????????????????????15
6.1 果 明???????????????????15
6.2 果比 ???????????????????21
七、 ???????????????????????23
文档大全
实用标准文案
文档大全
实用标准文案
一、 实验内容
实现 K-means 算法,其中该算法介绍如下:
k-means 算法是根据聚类中的均值进行聚类划分的聚类算法。
输入:聚类个数 k ,以及包含 n 个数据对象的数据。
输出:满足方差最小标准的 k 个聚类。
处理流程:
Step 1. 从 n 个数据对象任意选择 k 个对象作为初始聚类中心;
Step 2. 根据每个聚类对象的均值(中心对象) ,计算每个对象与这些中
心对象的距离,并根据最小距离重新对相应对象进行划分;
Step 3. 重新计算每个(有变化)聚类的均值(中心对象)
Step 4. 循环 Step 2 到 Step 3 直到每个聚类不再发生变化为止;
k-means 算法的工作过程说明如下:首先从 n 个数据对象任意选择 k 个
对象作为初始聚类中心, 而对于所剩下的其它对象, 则根据它们与这些聚
类中心的相似度(距离) ,分别将它们分配给与其最相似的(聚类中心所
代表的)聚类。然后,再计算每个所获新聚类的聚类中心(该聚类中所有
对象的均值),不断重复这一过程直到标准测度函数开始收敛为止。一般
都采用均方差作为标准测度函数,具体定义如下:
E
k
p mi
2
i 1
p Ci
(1)
其中 E 为数据库中所有对象的均方差之和, p 为代表对象的空间中的一个
点, m i 为聚类 Ci 的均值 (p 和 m i 均是多维的 )。公式 (1)所示的聚类标准,
文档大全
实用标准文案
旨在使所获得的 k 个聚类具有以下特点: 各聚类本身尽可能的紧凑, 而各
聚类之间尽可能的分开。
重点要求 :用于聚类的测试级不能仅为单独的一类属性, 至少有两种属性
值参与聚类。
文档大全
实用标准文案
文档大全
实用标准文案
二、 实验目的
通过实现 K-means 算法,加深对课本上聚类算法的理解,并对数据集做
出较高的要求,以期锻炼我们的搜索查找能力。最后自己实现 K-means
算法,可以加强我们的编程能力。
三、 实验方法
3.1 软、硬件环境说明
采用 win7 旗舰版(盗版)系统,用 vs2010 实现
3.2 实验数据说明
实验数据,源于 google 的广告关键词推荐页面, 在该页面输入关键词,
会出现与该关键词相关的一些信息, 包括月均搜索量, 关键词价值等等, 取出来
在经过自己处理,就得到了我们需要的实验数据,包括关键词、月均搜索量、竞
争力、估价以及关键词排名,包含两种属性。部分数据如下:
关键词
月均搜索量
竞争力
建议出价
排名
模拟股票
70
0.14
27.89
194
股票交流
30
0.11
19.17
160
股票交易系统
30
0.17
11.46
101
股票交易
590
0.31
31.86
203
gupiao
1000
0.06
15.94
137
股市投资
20
0.29
2.82
16
股票趋势
20
0.11
6.95
55
财经网
1900
0.22
13.38
123
股票书
50
0.06
89.06
246
图 3-1
3.3 实验参数说明 / 软件正确性测试
我采用了各种数据对程序进行测试,出现一些数组越界 bug ,修改
后再次测试,无问题,测试通过。
文档大全
实用标准文案
文档大全
您可能关注的文档
最近下载
- 固定污染源废气 氯气的测定 离子色谱法DB34_T 310014-2023.pdf VIP
- GB30871《危险化学品企业特殊作业安全规范》解读.pdf VIP
- 河北对口单招第十类职业适应性测试(计算机)-第七章演示文稿软件应用课件ppt.pptx VIP
- 基于STM32的公交语音报站系统设计.doc VIP
- DB53_T 1447.1-2025 公路工程施工安全风险分级管控和隐患排查治理双重预防体系建设指南 第1部分:总体要求.docx VIP
- 《比亚迪汽车驱动桥的主减速器设计案例综述》3200字.docx VIP
- 呼吸道传染病的预防与隔离措施.pptx VIP
- 橡胶减速丘设置规范.doc VIP
- 口腔医学-2牙周基础治疗-.ppt VIP
- 技术白皮书撰写与发布规范.docx VIP
原创力文档

文档评论(0)