- 14
- 0
- 约1.25万字
- 约 20页
- 2018-08-17 发布于湖北
- 举报
基于粗糙集的非监督快速属性选择算法
摘要:针对“大数据”中常见的大规模无监督数据集中特征选择速度难以满足实际应用要求的问题,在经典粗糙集绝对约简增量式算法的基础上提出了一种快速的属性选择算法。首先,将大规模数据集看作一个随机到来的对象序列,并初始化候选约简为空集;然后每次都从大规模数据集中无放回地随机抽取一个对象,并且每次都判断使用当前候选约简能否区分这一对象和当前对象集中所有应当区分的对象,并将该对象放入到当前对象集中,如果不能区分则向候选约简中添加合适的属性;最后,如果连续I次都没有发现无法区分的对象,那么将候选约简作为大规模数据集的约简。在5个非监督大规模数据集上的实验表明,所求得的约简能够区分95%以上的对象对,并且求取该约简所需的时间不到基于区分矩阵的算法和增量式约简算法的1%;在文本主题挖掘的实验中,使用约简后的数据集挖掘出的文本主题同原始数据集挖掘出的主题基本一致。两组实验结果表明该方法能够有效快速对大规模数据集进行属性选择。
关键词:海量数据;绝对约简;增量式算法;粗糙集;属性选择
中图分类号: TP18; TP311.13
文献标志码:A
Fast unsupervised feature selection algorithm based on rough set theory
BAI Hexiang1*, WANG Jian1,LI Deyu1,2, CHEN Qian1
1.School of Computer and Information Technology, Shanxi University, Taiyuan Shanxi 030006, China
;
2.Key Laboratory of Computational Intelligence and Chinese Information Processing of Ministry of Education (Shanxi University), Taiyuan Shanxi 030006, China
Abstract:
Focusing on the issue that feature selection for the usually encountered large scale data sets in the “big data” is too slow to meet the practical requirements, a fast feature selection algorithm for unsupervised massive data sets was proposed based on the incremental absolute reduction algorithm in traditional rough set theory. Firstly, the large scale data set was regarded as a random object sequence and the candidate reduct was set empty. Secondly, random object was one by one drawn from the large scale data set without replacement; next, each random drawn object was checked if it could be distinguished with the other objects in the current object set and then merged with current object set, if the new object could not be distinguished using the candidate reduct, a new attribute that can distinguish the new object should be added into the candidate reduct. Finally, if successive I objects were distinguishable using the candidate reduct, the candidate reduct was used as the reduct of the large scale data set. Experiments on five unsupervised largescale data sets demonstrated
您可能关注的文档
- 基于DEA中国省域地区星级酒店经营效率研究.doc
- 基于DEM等空间因子的协克里格土壤环境评价模型研究.doc
- 基于DGPS技术的煤场智能装运系统设计与实现.doc
- 广西陆川县中学2017-2018学年高二5月月考化学试题word版含答案.docx
- 广西陆川县中学2017-2018学年高二5月月考地理试题word版含答案.docx
- 基于DM365的视频图像处理系统.doc
- 基于DRGs成本质量评价的绩效管理研究.doc
- 基于DS2782独立式电量计的动力电池模块化设计.doc
- 基于DSP56f8346的单相光伏并网逆变系统设计.doc
- 基于DSP的音频去噪系统研发设计.doc
- 2026年植物基饮料跨境电商进口消费者购买决策因素与品牌忠诚度研究.docx
- 2026年新能源海洋能行业技术发展趋势及商业化机遇探讨.docx
- 2026年光电子芯片在高清显示技术中的应用创新分析.docx
- 2026年能源评估行业数字化转型路径研究报告.docx
- 2026年新能源氢能产业链发展下游应用分析报告.docx
- 2026年生物农药市场竞争策略报告.docx
- 2026年航空发动机维修市场需求与行业政策报告.docx
- 2026年宠物食品功能性配方发展趋势及消费升级影响分析报告.docx
- 2026年白酒行业白酒品牌品牌形象建设与维护报告.docx
- 2026年山东省高职单招职业技能考试题库与答案解析.docx
最近下载
- 武汉农村商业银行2010年度报告pdf.pdf VIP
- 委托拍卖标的明细标准表格.docx VIP
- 脑膜炎(细菌性)和脑膜炎球菌病的识别、诊断和管理PPT 课件.pptx VIP
- 化脓性脑膜炎诊疗指南.pptx VIP
- 光宝EVO6800变频器说明书.pdf VIP
- DB31_T 1108-2018 监护型救护车配置规范(完整).pdf VIP
- 2025WHO《脑膜炎诊断、治疗和护理指南》解读PPT课件.pptx VIP
- 2025WHO《脑膜炎诊断、治疗和护理指南》解读PPT课件.pptx VIP
- 2025WHO《脑膜炎诊断、治疗和护理指南》解读PPT课件.pptx VIP
- 2025年高考数学试卷(广东)及全详细解析_v2.0.docx VIP
原创力文档

文档评论(0)