基于Hellinger距离的混合数据集中分类变量相似度分析-计算机科学.PDF

基于Hellinger距离的混合数据集中分类变量相似度分析-计算机科学.PDF

基于Hellinger距离的混合数据集中分类变量相似度分析-计算机科学

Vo l. 43 No.6 第 43 卷第6 期 计算机科学 2016 年 6 月 Computer Science June 2016 基于 Hellinger 距离的混合数据集中分类变量相似度分析 赵亮1 刘建辉2 王星2 阜新 123000)1 葫芦岛 125000)2 (辽宁工程技术大学研究生学院 (辽宁工程技术大学电子与信息工程学院 摘 要 分类变量的相似度分析是数据挖掘任务中的一个重要环节,现有的分类变量相似度算法中存在忽视变量差 异、受不均衡分布影响严重、无法应用于混合数据集等缺点。为克服以上缺点,提出了一种基于 Hellinger 距离的分类 变量相似度算法。该算法累加分类变量对应子集中不同属性变量的分布差异作为相似度,且支持混合数据集。将所 提算法代入聚类算法并应用于 UCI 公共数据集,结果表明,该算法在准确度、有效性和稳定性上都有较大提高。 关键词 分类变量,相似度,f 散度,Hellinger 距离 中图法分类号 TP311 文献标识码 A 001 10. 11896/j. issn. 1002-1372豆 2016.6.055 Hellinger Distance ßased Similarity Analysis for Categorical Variables in Mixture Dataset ZHAO Liang1 LIU lian-Hui2 WANG Xing2 CInstitute of Graduate ,Liaoning Technical University ,Fuxin 123000 ,China)1 CSchool of Electronic and Information Engineering ,Liaoning Technical University ,Huludao 125000 ,China)2 Abstract Similarity analysis of categorical variables is an important part of data mining. The traditional methods have the defects of neglecting the difference between categorical variables ,which are seriously affected by unbalanced dataset and can not be used in mixture dataset. To overcome the shortcomings mentioned above ,this paper proposed an algo rithm to measure the similarity between categorical variables based on the Hellinger distanc已It accumulates the distri bution dif

文档评论(0)

1亿VIP精品文档

相关文档