- 3
- 0
- 约5.69万字
- 约 67页
- 2019-05-11 发布于上海
- 举报
万方数据
万方数据
南京邮电大学学位论文原创性声明
本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得 的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包 含其他人已经发表或撰写过的研究成果,也不包含为获得南京邮电大学或其它 教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的 任何贡献均已在论文中作了明确的说明并表示了谢意。
本人学位论文及涉及相关资料若有不实,愿意承担一切相关的法律责任。
研究生签名:
日期:
南京邮电大学学位论文使用授权声明
本人授权南京邮电大学可以保留并向国家有关部门或机构送交论文的复印件和电子文 档;允许论文被查阅和借阅;可以将学位论文的全部或部分内容编入有关数据库进行检索; 可以采用影印、缩印或扫描等复制手段保存、汇编本学位论文。本文电子文档的内容和纸质 论文的内容相一致。论文的公布(包括刊登)授权南京邮电大学研究生院办理。
涉密学位论文在解密后适用本授权书。
研究生签名:
导师签名:
日期:
摘要
大数据巨大的潜在价值促使大数据挖掘技术的产生,大数据挖掘是指从具有大规模性、 高速性和多样性的数据源中挖掘出有价值知识的数据处理过程;如何准确、快速地从大数据 中挖掘出有价值的知识是当今的研究热点。
本文将面向大数据的聚类挖掘算法作为研究重点,以提高聚类挖掘算法的准确度和效率 为研究目标,首先对传统聚类挖掘算法进行改进以提高准确度,然后对改进的聚类算法并行 化以提高效率。
为了提高聚类的准确度,本文在 DBSCAN 算法和 k-means 算法的基础之上,提出了基于 密度的增量 k-means 聚类算法(Density-based Incremental k-means,DBIK-means)。DBIK-means 算法首先计算数据点的密度,以密度不小于给定阈值的中心点以及在其密度范围内的点组合 成各个基本簇;再依据两个簇中心点之间的距离合并基本簇;最后把没有划分到任意簇的点 划分到与其距离最近的簇中。理论分析和基于 KDD CUP 99 数据集的实验结果表明了该算法 能够发现任意形状的簇,对数据点的输入顺序以及参数不敏感,在时间开销仅略有增加的情 况下可获得更高的聚类准确度,其总体性能优于 k-means。
为了提高 DBIK-means 算法的效率,降低算法的时间复杂度,本文利用分布式数据库来 模拟共享存储空间,在云计算 Hadoop 平台上进行 DBIK-means 算法的并行化;通过仿真实验 进行验证,实验结果表明 DBIK-means 算法适合大规模数据集的聚类挖掘。
本文最后将 DBIK-means 聚类算法应用于电信客户的分类中,应用结果表明该聚类算法 能够较为准确地将大量的电信客户自动划分到若干簇中,为电信运营商针对不同类型的客户 制定不同的营销策略提供帮助。
关键词: 大数据,聚类挖掘,k-均值,云计算,Hadoop
I
Abstract
The great potential value of big data prompts big data mining technology to generate, Big Data mining is the data processing which mines valuable knowledge from the data source charactering with volume, velocity and variety. How to accurately and quickly mine valuable knowledge from big data is a hot research topic.
This thesis focuses on the research of big data clustering algorithms, the research objective is to improve the accuracy and efficiency of clustering algorithms. Firstly, the accuracy is improved by improving traditional clustering algorithms, and then to improve efficiency through the improved clustering algorithm parallelization.
This thesis presents a Density-based Incremental k-means clustering algorithm, named DBIK-means, wh
您可能关注的文档
- 空间目标宽带成像技术分析-电磁场与微波技术专业毕业论文.docx
- 螺环单磷配体在α-烷基取代烯酰胺不对称催化氢化中的应用-有机化学专业毕业论文.docx
- 慢性应激对大鼠行为及脑源性神经营养因子在前额叶表达的影响-应用心理学专业毕业论文.docx
- 空间目标宽带成像技术研究-电子与通信工程专业毕业论文.docx
- 抗滑桩在新山滑坡治理工程中的应用研究-建筑与土木工程专业毕业论文.docx
- 矩阵的代数根-应用数学专业毕业论文.docx
- 面向机电系统状态监测的视听信息融合理论与方法研究及应用-机械工程专业毕业论文.docx
- 矩阵低秩逼近在图像压缩中的应用-应用数学专业毕业论文.docx
- 铝钢液-固复合铸造工艺及其组织性能研究-材料物理与化学专业毕业论文.docx
- 慢性肾功能不全病人性功能障碍的研究-内科学专业毕业论文.docx
原创力文档

文档评论(0)