一般分布式和区间型符号数据的动态聚类分析研究.pdf

一般分布式和区间型符号数据的动态聚类分析研究.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
摘 要 互联网技术的高速发展带来了数据的极大丰富,然而传统的聚类分析技术在 面对如此庞大的样本空间时存在着局限性。符号数据分析产生于上个世纪80 年 代,它是针对海量数据进行知识发现和规律挖掘的一套理论方法。聚类作为一种 解释复杂数据关系的技术在符号数据分析领域有着广泛的应用。但现有符号数据 聚类分析的研究大多假设个体在区间内服从均匀分布,这往往并不符合实际情况。 针对此问题,本文对一般分布的分布式符号数据和区间型符号数据动态聚类方法 展开研究。 首先给出了两种常用的符号数据的定义——分布式符号数据和区间型符号 数据,随后对分布式符号数据的聚类分析进行了一些探索性研究,包括分布式符 号数据的形成,一般分布情况下的距离度量,以及动态聚类算法等。以鸢尾属植 物数据集为例,将其分组形成符号对象,并在其上进行动态聚类分析研究,以说 明本算法的实用性。 考虑区间数所包含个体的分布信息,基于Hausdorff 距离提出了一种新的多维 区间型符号数据距离度量。基于此,给出一般分布的区间型符号数据动态聚类算 法。通过随机模拟试验对文中方法进行有效性评价,结论表明,在各种实验设计 的条件下,考虑一般分布的动态聚类算法有效性均优于均匀分布假设下的动态聚 类算法。最后将文中方法应用于汽车的聚类分析,进一步体现了文中方法在解决 实际问题中的优势。 本文针对多维分布式符号数据和区间型符号数据分别提出了动态聚类算法, 并运用聚类有效性指标对其评价。应用研究结果表明,无论对于分布式符号数据 或是区间型符号数据,本文所提出的一般分布的前提条件下的动态聚类分析方法 较之均匀分布假设下的传统方法更有效也更客观。 关键词:分布式符号数据 区间型符号数据 一般分布 符号数据分析 聚类分析 ABSTRACT The rapid development of Internet technology brings enormous data, however there are limitations about traditional clustering analysis method to face with such huge sample space. Symbolic data analysis SDA , which was announced in the 1980s, is a method gleaning useful knowledge and excavating samples’regularity from large datasets. Clustering is an explanatory procedure which helps to understand data with complex structure and multivariate relationships, which is widely used in SDA. The existed clustering methods of symbolic data mostly supposed that the data are uniformly distributed across the interval. However, this is not always practical. Taking this into account, this paper aims to research dynamic clustering method of histogram-valued data and interval data with a general distribution. The definitions of two kinds of commonly used symbolic data are proposed firstly, which are histogram-valued data and interval data. A number of studies of the histogram-valued data about clustering analysis had made, including the formation of it, the distance between them with a general distribution, and the dynamic clustering

文档评论(0)

llllss930 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档