- 1
- 0
- 约3.87千字
- 约 19页
- 2017-06-15 发布于北京
- 举报
适用于大规模文本处理的动态密度聚类算法 李霞 广东外语外贸大学智能信息处理研究所 / 2012.11.4 NLPCC2012 报告内容 研究背景 算法介绍 实验分析 结论 1 研究背景 当前面向海量文本数据的自然语言处理和数据挖掘技术正逐渐成为新的研究热点,如: 微博情感倾向性分析研究 面向互联网新闻及评论内容的网络舆情监测及预警研究 面向海量数据的社会网络分析等。 在这些应用研究中,聚类算法被广泛使用,然而海量文本数据所具有的大规模和高维特征、类分布倾斜和不平衡问题、以及对算法的高效率要求,对传统聚类算法提出了新的要求。 1 研究背景 从聚类的角度看,文本的分布倾斜和不平衡问题可以看成是数据的密度不均匀问题,传统的基于密度的优秀聚类算法可以发现不同大小和形状不同的聚类,如DBSCAN, CURE, Chameleon和SNN等算法。 然而以上算法在处理海量大规模高维文本数据时,存在一些实际应用问题: 参数输入复杂:算法的输入参数均为2个以上,且设置方法复杂对用户具有较高要求; 算法的时间复杂度高:算法在大规模高维数据集上时间复杂度为O(n2); 不能处理混合属性的数据:实际领域中很多数据具有混合属性。 2 算法介绍 应对传统聚类算法的问题,我们提出了两阶段动态密度聚类算法(A Two-Step Dynamic Density-Based Clustering Algorit
您可能关注的文档
- 第一章 成人高等教育毕业设计(论文)规范.docx
- 广州南站区域地下空间和市政配套设施工程项目土壤氡浓度检.doc
- 一、高考命题趋势二、高考冲刺阶段学习效率提高三、高考.ppt
- 第一章 艾滋病初期症状图片.doc
- 致各中医师新型甲型流行性感冒列为法定须呈报传染病幻灯片.PDF
- 抵御艾滋病是每一个公民责任.ppt
- 瞭解和阐释新高中地理课程.ppt
- 健康体检项目及意义-内外科常规基础数据。.PDF
- 内蒙古自治区2017年度耕地质量等别.doc
- 转Bt-Cry1Ac基因棉花对烟粉虱体内几种酶活力影响.PDF
- 50万吨汽油调和技改项目环评报告书.pdf
- 河北省文安县第一中学2025-2026学年高一上学期10月月考英语试题(解析版).docx
- 河南省TOP二十校205—2026学年高一上学期10月联考生物试题(原卷版).docx
- 河南省安阳市第一中学、鹤壁市高中、新乡市第一中学三校2025-2026学年高一上学期第一次联考数学试题(解析版).docx
- 河南省部分高中2025-2026学年高一上学期第二次月考数学试卷(解析版).docx
- 河南省百师联盟2025-2026学年高二10月联考数学试题(北师大版)(解析版).docx
- 河南省部分学校2025-2026学年高一上学期期中考试数学试题(解析版).docx
- 河南省部分重点中学2025~2026学年高二上学期10月末质量检测数学试题(解析版).docx
- 河南省部分重点中学2025-2026学年高二上学期10月末质量检测英语试题(解析版).docx
- 桥梁伸缩缝安装工艺(可编辑).pptx
最近下载
- 江苏省海安市八校2026届中考猜题数学试卷含解析.doc VIP
- 2026届江苏省海安市十校中考数学押题卷含解析.doc VIP
- 北森:2026年中国企业人力资源数智化成熟度模型与实践白皮书.pdf
- 《中国消化道黏膜下肿瘤内镜诊治专家共识(2023版)》解读课件课件.pptx VIP
- 莆田市2024-2025学年下学期七年级期末质量调研试卷数学(含答案).docx
- 《卷耳》原文与鉴赏.docx VIP
- 演出经纪实务-2025演出经纪人《演出市场政策与经纪实务》练习题.docx VIP
- 扬州某邮局办公楼暖通空调设计毕业设计(含图纸-双击图纸可调出CAD格式).pdf VIP
- 泌尿男生殖系感染宣讲.ppt
- 高清焓湿图超清分辨率.pdf VIP
原创力文档

文档评论(0)