基于密度峰值的聚类算法优化与应用研究.pdfVIP

基于密度峰值的聚类算法优化与应用研究.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

基于密度峰值的聚类算法优化与应用研究

摘要

在如今的互联网时代,从海量数据中提取有价值的信息,探究网络舆论生成

和演变的规律对现实生活有着重要意义。数据挖掘就是从海量且有噪声的数据中

提取潜在的价值信息的过程,聚类分析是数据挖掘的核心方法,其目标在于将数

据依据相似性分组,揭露数据内在的联系和规律。2014年提出的密度峰值聚类算

法(DPC)由于其原理简单、易于实现、能识别任意形状簇等优势而被广泛应用。

但任何聚类算法都难以解决所有聚类问题,因此本文针对DPC的局限性进行创新

性改进,并将改进后的聚类算法应用于网络圈层舆论生成中,具体研究内容如下:

(1)针对DPC因构建全局样本点间的相似度矩阵,而导致时间开销过大的

问题,提出了一种基于空间向量搜索的密度峰值聚类算法(VS-DPC)。该算法首

先,在n维正交坐标系中将数据点映射为以原点为起点的空间向量,计算向量的

模和与统一坐标轴正方向间的夹角;其次,利用截断距离和截断映射角确定相似

范围搜索相似向量;最后,利用相似向量确定有效密度点从而构建稀疏相似度矩

阵,降低时间复杂度。在14个数据集上与三种算法的对比实验,结果表明所提算

法聚类效率最优,相较DPC算法减少了约60%的时间开销。

(2)针对DPC存在假设与实现间不一致和假设不适用的问题,提出一种结

合混合密度和局部结构的密度峰值聚类算法(HS-DPC)。该算法首先,利用相对

密度和绝对密度,提出混合密度计算公式,消除DPC假设中心点为局部峰值但算

法实现是全局峰值间的不一致。其次,根据局部结构重新定义数据点之间的相似

性,从而适应形状复杂数据。最后,对中心点依据相似性传递,搜索有效数据形

成簇的主干结构,对剩余点结合不同簇的主干点分布进行最优分配,从而隔绝连

锁反应完成边界聚类。通过在16个数据集上与五种聚类算法的对比实验,结果表

明了所提算法的有效性和鲁棒性。

(3)将上文所提出的VS-DPC算法和HS-DPC算法应用于网络圈群舆论生成

中。首先,采用改进的协同过滤推荐算法,将相同爱好、行为特征的群体定义不

同的网络圈群。其次,以网络圈群为对象利用所提算法对网络圈群的舆论数据进

行聚类分析,最后,结合中心圈群和舆论场中高低舆论圈群的分布情况,构建舆

论演化指标来反映舆论出现、爆发、高潮、回落等重要节点,从而针对不同节点

采取策略达到对网络舆论场调控的目的。

关键词:密度峰值聚类,混合密度,稀疏矩阵,舆论生成

OptimizationandApplicationResearchofClustering

AlgorithmBasedonDensityPeak

ABSTRACT

IntodaysInternetera,extractingvaluableinformationfrommassivedataand

exploringthelawsofonlineopiniongenerationandevolutionareofgreatsignificance

toreallife.Dataminingistheprocessofextractingpotentiallyvaluableinformation

frommassiveandnoisydata,andclusteringanalysisisthecoremethodofdatamining,

thegoalofwhichistogroupdataaccordingtosimilarityandrevealtheintrinsic

connectionsandpatternsofdata.2014proposeddensitypeakclusteringalgorithm

(DPC)iswidelyusedbecauseofitssimpleprinciple,ea

文档评论(0)

营销资料库 + 关注
实名认证
文档贡献者

本账号发布文档部分来源于互联网,仅用于技术分享交流用,版权为原作者所有。 2,文档内容部分来自网络意见,与本账号立场无关。

1亿VIP精品文档

相关文档