Computer Engineering and Applications 计算机工程与应用 2015 ,51(10) 123
⦾数据库、数据挖掘、机器学习⦾
基于AP 聚类的不完整大数据填充
1,2 2 1
冷泳林 ,张清辰 ,鲁富宇
1,2 2 1
LENG Yonglin , ZHANG Qingchen , LU Fuyu
1.渤海大学 信息科学与技术学院,辽宁 锦州 121000
2.大连理工大学 软件学院,辽宁 大连 116620
1.College of Information Science and Technology, Bohai University, Jinzhou, Liaoning 121000, China
2.School of Software Technology, Dalian University of Technology, Dalian, Liaoning 116620, China
LENG Yonglin, ZHANG Qingchen, LU Fuyu. Incomplete big data imputation algorithm based on AP clustering.
Computer Engineering and Applications, 2015, 51 (10):123-127.
Abstract :Imputing missing values is a hot research topic in big data processing. Incomplete big data could not be clustered
directly, which must be preprocessed, such as inputing missing values. Traditional algorithms, which fill missing values
depending on the statistical theory of the data set, are corrupted by noise data, which decreases the imputation accuracy.
The paper proposes a novel algorithm to fill missing values based on AP clustering, which clusters incomplete big data
directly by proposing a new similarity metrics. The data in the same cluster is utilized to fill missing values which aims at
avoiding noise corruption to improve the filling accuracy. Experiment demonstrates the proposed algorithm can cluster the
incomplete big data directly and improve the accuracy for filling missing data effectively.
Key words :incomplete big data; clustering analysis; data imputation
摘 要:不完整数据的分析与填充一直是大数据处理的热点研究课题,传统的分析方法无法对不完整数据直接聚
类,大部分方法先填充缺失值,然后对数据聚类。这些方法一般利用整个数据集对缺失数据进行填充,使得填充值
容易受到噪声的干扰,导致填充结果不精确,进而造成聚类精度很低。提出一种不完整数据聚类算法,对不完全信
息系统的相似度公式进行重新定义,给出不完整数据对象间的相似度度量方式,进而直接对不完整数据聚类。根据
聚类结果将同一类对象划分到相同的簇中,通过同一类对象的属性值对缺失值进行填充,避免噪声对填充值的干
扰,提高填充结果的精确性。实验结果表明,提出的方法能够对不完整数据进行聚类,并有效提高缺失数据的填充
精度。
关键词:不完整大数据;聚类分析;数据填充
文献标志码:A 中图分类号:TP311
您可能关注的文档
- 城中村改造的文化障碍与策略-华南农业大学.PDF
- 垃圾处理与循环流化床垃圾焚烧炉-东方电气.PDF
- 埃里砖格孢属真菌的研究进展及展望-草业学报.PDF
- 城镇水务推广应用和限制禁止使用技术.PDF
- 埕北稠油催化改质降粘试验研究-计算机科学与探索.PDF
- 坩埚下降法生长红外砷化镓晶体的研究-应用技术学报-上海应用技术.PDF
- 垂直管吸收器内泡式吸收过程的数值研究.PDF
- 基于Android的角规测树及数据处理软件的设计与实现-国家林业局.PDF
- 基于CEEMDAN和多尺度排列熵的球磨机负荷识别方法-噪声与振动控制.PDF
- 基于CPLD的CIS传感器图像采集系统-计算机系统应用.PDF
- 抚顺石化工贸中心资金控制体系优化研究:理论、实践与创新.docx
- 探秘中华通草蛉滞育发育:生殖生物学特征与调控机制.docx
- 稀有鮈鲫受精机制及影响因素的深度剖析.docx
- 从美国强制反诉制度探寻我国民事诉讼反诉制度的革新路径.docx
- 中国职业足球管理体制:演进、困境与突破路径探究.docx
- 论我国网上个体经营活动法律规制的完善与实践.docx
- 论取保候审期间脱逃后又归案的自首认定困境与出路.docx
- 动调陀螺赋能双轴稳定平台控制系统的关键技术与优化策略研究.docx
- 论我国犯罪被害人国家补偿制度的构建与完善:法理、实践与发展路径.docx
- 光纤光栅传感监控软件:原理、应用与创新发展研究.docx
最近下载
- (2026春新版)教科版三年级科学下册全册PPT课件.pptx
- 2026江西省赣勤发展集团有限公司社会招聘6人备考题库附答案.docx VIP
- 热力发电厂课程设计报告dc系统.docx VIP
- 陕西科技大学镐京学院《高等数学(D)》2025 - 2026学年第一学期期末试卷.docx
- 皮鞋工艺学(共计755页,共计3部分)_部分3.pptx
- 2025年湖北国土资源职业学院单招职业适应性考试题库及答案1套.docx VIP
- 工业蒸汽轮机-西门子中国.PDF VIP
- 2026年邵阳职业技术学院单招职业技能考试题库及答案1套.docx VIP
- 门诊药房处方点评与分析.doc VIP
- 装饰装修工程验收资料大全.doc VIP
原创力文档

文档评论(0)