- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
基于密度峰值的聚类算法优化与应用研究
摘要
在如今的互联网时代,从海量数据中提取有价值的信息,探究网络舆论生成
和演变的规律对现实生活有着重要意义。数据挖掘就是从海量且有噪声的数据中
提取潜在的价值信息的过程,聚类分析是数据挖掘的核心方法,其目标在于将数
据依据相似性分组,揭露数据内在的联系和规律。2014年提出的密度峰值聚类算
法(DPC)由于其原理简单、易于实现、能识别任意形状簇等优势而被广泛应用。
但任何聚类算法都难以解决所有聚类问题,因此本文针对DPC的局限性进行创新
性改进,并将改进后的聚类算法应用于网络圈层舆论生成中,具体研究内容如下:
(1)针对DPC因构建全局样本点间的相似度矩阵,而导致时间开销过大的
问题,提出了一种基于空间向量搜索的密度峰值聚类算法(VS-DPC)。该算法首
先,在n维正交坐标系中将数据点映射为以原点为起点的空间向量,计算向量的
模和与统一坐标轴正方向间的夹角;其次,利用截断距离和截断映射角确定相似
范围搜索相似向量;最后,利用相似向量确定有效密度点从而构建稀疏相似度矩
阵,降低时间复杂度。在14个数据集上与三种算法的对比实验,结果表明所提算
法聚类效率最优,相较DPC算法减少了约60%的时间开销。
(2)针对DPC存在假设与实现间不一致和假设不适用的问题,提出一种结
合混合密度和局部结构的密度峰值聚类算法(HS-DPC)。该算法首先,利用相对
密度和绝对密度,提出混合密度计算公式,消除DPC假设中心点为局部峰值但算
法实现是全局峰值间的不一致。其次,根据局部结构重新定义数据点之间的相似
性,从而适应形状复杂数据。最后,对中心点依据相似性传递,搜索有效数据形
成簇的主干结构,对剩余点结合不同簇的主干点分布进行最优分配,从而隔绝连
锁反应完成边界聚类。通过在16个数据集上与五种聚类算法的对比实验,结果表
明了所提算法的有效性和鲁棒性。
(3)将上文所提出的VS-DPC算法和HS-DPC算法应用于网络圈群舆论生成
中。首先,采用改进的协同过滤推荐算法,将相同爱好、行为特征的群体定义不
同的网络圈群。其次,以网络圈群为对象利用所提算法对网络圈群的舆论数据进
行聚类分析,最后,结合中心圈群和舆论场中高低舆论圈群的分布情况,构建舆
论演化指标来反映舆论出现、爆发、高潮、回落等重要节点,从而针对不同节点
采取策略达到对网络舆论场调控的目的。
关键词:密度峰值聚类,混合密度,稀疏矩阵,舆论生成
OptimizationandApplicationResearchofClustering
AlgorithmBasedonDensityPeak
ABSTRACT
IntodaysInternetera,extractingvaluableinformationfrommassivedataand
exploringthelawsofonlineopiniongenerationandevolutionareofgreatsignificance
toreallife.Dataminingistheprocessofextractingpotentiallyvaluableinformation
frommassiveandnoisydata,andclusteringanalysisisthecoremethodofdatamining,
thegoalofwhichistogroupdataaccordingtosimilarityandrevealtheintrinsic
connectionsandpatternsofdata.2014proposeddensitypeakclusteringalgorithm
(DPC)iswidelyusedbecauseofitssimpleprinciple,ea
您可能关注的文档
最近下载
- 2025年一建《建设工程项目管理》课件 .pdf VIP
- 《基础数学(第1册)》电子教案全册.pdf VIP
- 气血疏通中级班讲义.pdf VIP
- 台湾农民的退休制度.docx VIP
- 夫妻关系讲座课件.pptx
- (人教版)初中九年级化学上册第五单元《化学方程式》综合复习测试训练试题卷(附答案详解).docx VIP
- 1_东南营小学体育课教案水平一潘建元2(1)-体育1至2年级全一册教案.docx VIP
- 人教版2025秋小学数学三年级教学设计已知一个数的几倍是多少,求这个数.pdf VIP
- 人教版2025秋小学数学三年级教学设计求一个数的几倍是多少.pdf VIP
- 酒店前台UPSELL培训教学课件.pptx VIP
文档评论(0)