- 5
- 0
- 约3.87千字
- 约 19页
- 2018-06-18 发布于江苏
- 举报
适用于大规模文本处理地动态密度聚类算法
适用于大规模文本处理的动态密度聚类算法 李霞 广东外语外贸大学智能信息处理研究所 / 2012.11.4 NLPCC2012 报告内容 研究背景 算法介绍 实验分析 结论 1 研究背景 当前面向海量文本数据的自然语言处理和数据挖掘技术正逐渐成为新的研究热点,如: 微博情感倾向性分析研究 面向互联网新闻及评论内容的网络舆情监测及预警研究 面向海量数据的社会网络分析等。 在这些应用研究中,聚类算法被广泛使用,然而海量文本数据所具有的大规模和高维特征、类分布倾斜和不平衡问题、以及对算法的高效率要求,对传统聚类算法提出了新的要求。 1 研究背景 从聚类的角度看,文本的分布倾斜和不平衡问题可以看成是数据的密度不均匀问题,传统的基于密度的优秀聚类算法可以发现不同大小和形状不同的聚类,如DBSCAN, CURE, Chameleon和SNN等算法。 然而以上算法在处理海量大规模高维文本数据时,存在一些实际应用问题: 参数输入复杂:算法的输入参数均为2个以上,且设置方法复杂对用户具有较高要求; 算法的时间复杂度高:算法在大规模高维数据集上时间复杂度为O(n2); 不能处理混合属性的数据:实际领域中很多数据具有混合属性。 2 算法介绍 应对传统聚类算法的问题,我们提出了两阶段动态密度聚类算法(A Two-Step Dynamic Density-Based Clustering Algorithm, 简称TSDDBCA),该算法具有以下特点: 能够识别密度不均匀、大小不同的空间聚类 简化了用户的输入参数 能够处理混合属性数据 时间复杂度为近似线性时间复杂度,能够处理海量文本数据 DDBCA算法 经典DBSCAN算法通过检查数据集中每个对象的eps邻域来寻找类簇,但由于半径阈值eps和密度阈值MinPts均为全局参数,因此DBSCAN无法识别密度不均匀的簇。 SNN算法改进了密度的定义方法,将对象所有k最近邻中与其共享的邻居个数总和定义为密度,该密度定义能够动态反应簇的密度变化,因此能够识别密度不均匀的簇。然而SNN算法需要三个输入参数:最近邻个数k,半径阈值eps和密度阈值MinPts,虽然算法本身提供了参数设置的方法,但对普通用户要求较高,且较为繁复。 DDBCA算法 提出一种简化的密度定义方法,对某个对象p,将所有其k最近邻与其距离的和的平均值的逆定义为对象p的密度 DDBCA算法 算法思想:为了能够自动区分密度不同的簇,对每个对象依据其密度值进行降序排序,从密度最大的对象开始建立一个新簇,并迭代地聚集从该对象直接密度可达的对象,直到无新的对象可以被添加进来,继续下一个未被处理的对象,继续该过程,直到全部对象处理完毕。 DDBCA实验 TSDDBCA算法 一趟聚类算法: 扫描数据集一遍,将数据集划分为半径一致的簇集合; 该算法具有快速划分的特点; 结合一趟聚类和DDBCA实现两阶段动态密度聚类算法: 第一步:先用一趟聚类算法对原数据集进行聚类,得到大小几乎相同的初始划分簇; 第二步:将第一步中得到的划分簇看成是DDBCA算法的聚类对象,对第一步的初始划分进行归并,得到第2阶段最终的聚类簇。 TSDDBCA在文本数据上的实验 TSDDBCA在Reuters语料上的实验 Reuters-21578是文本自动分类的公开英文基准语料库,包含1987年在路透社报纸上的21578篇新闻报道,由S.Dobbins等人进行人工分类标注,总共包含135个类别。选取其中使用较为频繁的来自acq、crude、earn、interest和trade共5个类别的子集从250篇到7000篇文本作为实验语料进行聚类处理。 TSDDBCA算法和一趟聚类算法在Reuters-21578英文文本语料上的实验结果对比 TSDDBCA在搜狗语料上的实验 搜狗中文文本分类语料来源于搜狐新闻网站保存的大量经过编辑手工整理与分类的新闻语料与对应的分类信息,选取其中的财经、IT、军事、旅游及体育5个类别子集共9950篇文章进行聚类实验。 TSDDBCA算法和一趟聚类算法在搜狗中文语料上的实验结果对比 DDBCA,TSDDBCA,SNN算法对比 为了对比本文算法与SNN算法在聚类精度和聚类时间上的差异,文章分别在Reuters-21578来自5个类别的7000篇英文语料和搜狗来自5个类别9950篇中文语料上进行了聚类对比,实验中SNN算法的参数设置为k=2,eps=0,minpts=2,DDBCA算法的参数设置为k=6,TSDDBCA算法的参数设置为r=2EX,k=3。 DDBCA,TSDDBCA,SNN算法对比 结论 提出了一种能够识别密度变化的动态密度聚类算法DDBCA,并考虑到算法的实际应用性,对DDBCA算法进行了扩充和改进,得到两阶段动态密度聚类算法TSDDBCA。在中
您可能关注的文档
- 软件与集成电路产业发展专项项目指南.doc
- 软件创业者的五个误区.doc
- 软件协议供货项数据库采购项目技术需求(第二包).doc
- 软件工程专业本科工程型人才培养标准、实现矩阵与企业学.doc
- 软件工程课件-9第九章面向对象的Coad方法.ppt
- 软包装乳腐汁鸭的制作技术.doc
- 软包装新技术引发行业关注.doc
- 软包装盛行下的商机.doc
- 软包装膳食纤维鲜面条生产工艺标准.doc
- 软包装荷叶香酥鸡的制作技术.doc
- 《高中数学函数零点问题解题策略及综合应用》-.docx
- 一位乡村转岗幼儿教师职业生涯的叙事研究.docx
- AHP视角引领_钢铁企业碳信息披露质量评价体系构建与绿色低碳发展策略研究.docx
- 面向能量回收的电动汽车EHB-电机复合制动系统控制策略研究.docx
- 揭秘高效学习法_解锁成功之路,助力学业飞速提升!.docx
- 质量月竞赛引领下的全面质量管理水平飞跃式提升_十进制转换技巧揭秘.docx
- 信用评级下调对债券价格的影响研究——基于区域市场化程度的调节效应.docx
- 英语学习资源汇总帖-1.docx
- 2026年中国实木雕花单掩门行业市场数据调查、监测研究报告.docx
- 2026年中国双组份聚氨酯密封胶行业市场数据调查、监测研究报告.docx
最近下载
- 【精美】药学服务与药患沟通技能讲座PPT课件.pptx VIP
- 风力发电场电气设计.pptx VIP
- 2025年度“六个方面”组织生活会六个方面的对照检查材料.docx VIP
- 【低空经济】市低空经济产业发展行动方案编制.docx VIP
- 11J508 建筑玻璃应用构造-栏板 隔断 地板 吊顶 水下玻璃 挡烟垂壁.pdf VIP
- DB32∕T 2677-2014 公路涉路工程安全影响评价报告编制标准.docx VIP
- 2026中国农业科学院第一批招聘(中国农业科学院农产品加工研究所)考试冲刺试题及答案解析.docx VIP
- 铁路隧道渗漏水病害整治施工方案.doc
- 《电力企业合规管理体系有效性评价指南》编制说明.pdf VIP
- 酒店保洁服务整体投标方案(技术方案).doc
原创力文档

文档评论(0)