数据挖掘基础聚类-AmazonAWS
《互联网数据挖掘》本科生课程
数据挖掘基础(三):
聚类
万小军
北京大学语言计算与互联网挖掘组
/lcwm
2017年10月31日
概念
聚类:将数据自动聚集到不同类簇
同一类簇内数据相似,不同类簇间数据不相似
无监督学习
• 没有标注数据
• 类簇未知 类簇1
数据/ 聚类器 类簇2
文本
….
类簇n
2
应用
聚类应用
新闻聚类与话题检测
检索结果组织
网络社区发现
…
3
文本聚类技术
聚类质量
类簇之间的文档距离 最大化
类簇内部的文档距离 最小化
聚类算法
K-Means聚类
层次式聚类(Hierarchical clustering)
增量式单遍聚类
基于图分割的聚类
基于密度峰值的聚类
距离(或相似度)测度
4
文本聚类技术
距离测度
欧式距离(Euclidian distance (L2 norm))
m
2
L (x, y) (x y )
2 i i
i1
L1范式(L1 norm)
m
L (x ,y ) x y
1 i i
i 1
基于余弦测度的距离
您可能关注的文档
- 当老师的学生-朝阳科技大学机构典藏系统.DOC
- 彰化师范大学化学系简介.DOC
- 彭州食品保健食品欺诈虚假宣传专项整治工作成效显着.PDF
- 征兵四部曲.PPT
- 徐州外事服务有限责任公司劳务派遣工作流程图-KidsGoWow.PDF
- 循环肿瘤细胞CTC-Medcon会务通.PDF
- 微波电浆促进化学气相沉积方法形成类钻碳高解析电子显微镜与场.PDF
- 微观经济学教学进程表.DOC
- 心外膜脂肪及血浆中的细胞因子对冠心病的发生及斑块-中华医学会.DOC
- 总体战略——SPACE矩阵分析小结.PPT
- XX县税务局领导班子2025年度民主生活会对照检查材料.docx
- XX县检察院党组班子2025年度民主生活会对照检查材料.docx
- 集团党组书记在2025年度民主生活会准备会上的讲话.docx
- 在银行新员工入职座谈会上的讲话.docx
- XX县委宣传部部长2025年度民主生活会对照检查材料.docx
- XX县财政局局长2025年度民主生活会对照检查材料.docx
- XX企业领导班子2025年度述职报告.docx
- 在XX市委常委会听取下级党委(党组)“一把手”述责述廉情况汇报会上的讲话.docx
- XX县政协党组班子2025年度民主生活会对照检查材料.docx
- 在2026年第一季度安全生产重点工作推进会上的讲话.docx
原创力文档

文档评论(0)