- 3
- 0
- 约4.75千字
- 约 6页
- 2016-12-24 发布于北京
- 举报
聚类的定义
聚类是一个将数据集划分为若干个子集的过程,并使得同一集合内的数据对象具有较高的相似度,而不同集合中的数据对象则是不相同的,相似或不相似的度量是基于数据对象描述属性的聚类值来确定的,通常就是利用各个聚类间的距离来进行描述的。聚类分析的基本指导思想是最大程度地实现类中对象相似度最大,类间对象相似度最小。
聚类与分类不同,在分类模型中,存在样本数据,这些数据的类标号是已知的,分类的目的是从训练样本集中提取出分类的规则,用于对其他标号未知的对象进行类标识。在聚类中,预先不知道目标数据的有关类的信息,需要以某种度量为标准将所有的数据对象划分到各个簇中。因此,聚类分析又称为无监督的学习。
聚类主要包括以下几个过程:
数据准备:包括特征标准化和降维。
特征选择、提出:从最初的特征中选择是有效的特征,并将其存储于向量中。
特征提取:通过对所选择的特征进行转换,形成新的突出特征。
聚类(或分组):首先选择合适特征类型的某种距离函数(或构造新的距离函数)进行接近程度的度量,然后执行聚类或分组。
聚类结果评估:指对聚类结果进行评估。评估主要有3种:外部有效性评估、内部有效性评估和相关性测试评估。
聚类算法的要求
可扩展性。许多聚类算法在小数据集(少于200个数据对象)时可以工作很好;但一个大数据库可能会包含数以百万的对象。利用采样方法进行聚类分析可能得到一个有偏差的结果,这时就需要可扩展的聚
您可能关注的文档
- 2014职代会意见 .doc
- 2014职业道德分.doc
- 2014职位描述.doc
- 2014职初教师听课笔记.doc
- 2014职前培训操作手册.doc
- 2014职场常用英语 .doc
- 2014职场必备顶级高手分享制作技巧.docx
- 2014职前教育.doc
- 2014职场中应注意的原则.doc
- 2014职场礼仪与个人魅力修炼.doc
- 新疆塔城地区第一高级中学2025-2026学年高一下学期学情自测物理试卷(含解析).docx
- 苏教版五年级上册数学 期中检测卷.doc
- 新疆维吾尔自治区昌吉回族自治州呼图壁县2025-2026学年九年级上学期1月期末英语试题(含解析).docx
- 新疆维吾尔自治区和田地区和田市2025-2026学年上学期八年级英语期末试卷(含解析).docx
- 四川省绵阳市游仙区2025-2026学年七年级上学期1月期末英语试题(含解析).docx
- 苏教版三年级上册数学 第三单元测试题.doc
- 四川省绵阳市梓潼县2025-2026学年八年级上学期1月期末物理试题(含解析).docx
- 四川省绵阳市盐亭县四校联考2025-2026学年八年级下学期物理学情自测(含解析).docx
- 房颤患者太极拳练习.pptx
- 苏教版五年级上册数学 期末检测卷.doc
最近下载
- 2024最新教育系统校级年轻后备干部考试应知应会题库及答案.docx VIP
- 高频精选:高校档案馆面试题及答案.doc VIP
- 作业治疗复习测试卷附答案.doc VIP
- 孤独症治疗评估量表(ATEC).docx VIP
- 人工挖孔桩一套检验批.docx VIP
- 2025年山东省员额法官遴选面试考题及答案.docx
- 2026高考化学复习 化学方程式汇总(默写版+背诵版).pdf
- 挖孔桩检验批.docx VIP
- 03J203 平屋面改坡屋面建筑构造.pdf
- 中国国家标准 GB/T 44585.1-2024风险管理在接入IT网络的医疗器械中的应用 第1部分:联网医疗器械或健康软件在其实施和使用中的安全、有效性和网络安全.pdf
原创力文档

文档评论(0)