开题报告-张传晓.docx

下载文档 降价啦

6
0
约5.28千字
约 10页
2017-01-07 发布于贵州
举报
版权申诉
保障服务

开题报告-张传晓.docx

1、本文档共10页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

开题报告-张传晓开题报告-张传晓

山东科技大学泰山科技学院本科毕业设计（论文）开题报告题目基于密度聚类的应用研究系部名称：信息工程系专业班级：计算机科学与技术2011-2班学生姓名：张传晓学号： 1143010226 指导教师：苏娜填表时间： 2013 年 4 月12日设计（论文）题目基于密度聚类的应用研究设计（论文）类型工程设计应用研究开发研究基础研究其它√课题目的和意义聚类分析是数据挖掘中的一个重要研究领域没事一种数据划分或分组处理的重要手段和方法。聚类无论在商业领域，还是在生物学、web文档分类、图像处理等其他领域都得到了有效的应用。目前聚类算法大体上分为基于划分的方法、基于层次的方法、基于密度的方法、基于网格的方法、基于模型的方法以及模糊聚类。聚类的用途很广泛。在商业上，聚类可以帮助市场分析人员从他们的消费者数据库中区分出不同的消费群体来，并且概括出每一类消费者的消费模式或者说习惯；在生物学中，它可以用来辅助研究动物植物的分类，可以迎来分类具有相似功能的基因，还可以用来发现人群中一些潜在的结构等等；聚类还可以从保险公司的数据库中发现汽车保险中具有较高赔率的人群；还可以从一个城市的房地产信息数据库中，根据房型，房价以及地理位置分成不同的类；还可以用来从万维网上分类不同类型的文档等。同时，聚类分析作为数据挖掘中的一个模块，它既可以单独作为一个单独的工具以发现数据库中数据分布的一些深入的信息，并概括出每一类的特点，或者把注意力放在某一个特定的类上以做出进一步的分析；聚类分析也可以作为数据挖掘算法中其他分析算法的一个预处理步骤。本文采用聚类分析方法，主要是基于密度的聚类方法，对于数据流进行聚类分析。基于密度的聚类方法在聚类分析技术中占有很重要的地位，在金融、市场营销，信息检索，信息过滤，科学观测与工程给个领域广泛应用，是聚类分析中的研究重点。本文对基于密度的聚类算法就行了研究，并以DBSCAN（Density-Based Spatial Clustering of Application with Noise）为基础。文献综述（课题的应用背景和前景）早期有学者提出，可以将处理大规模数据集的聚类算法应用到数据流聚类上，基于密度的方法(density一basedmethod)的基本思想是：将具有足够密度的区域划分为簇，即对于给定类中的数据点，如果临近区域的密度超过某一个闭值，则继续进行聚类，从而可将获得的簇视为数据空间中由低密度区域分割开的高密度数据对象区域，其目的是发现任意形状的簇”基于密度的方法与其它方法的一个根本区别是：它不是基于各种各样的距离的，而是基于密度的”这样就能克服基于距离的算法只能发现/类圆形0的聚类的缺点”这个方法的知道思想就是，只要一个区域中的点的密度大过某个阀值，就把它加到与之相近的聚类中去”也就是说，对于给定类中的每个数据点，在一个给定范围的区域内必须至少包含一定数目的点”这样可以过滤/噪音0数据，发现任意形状的簇”代表算法有：DBSCAN算法，OPTICS算法，DENCLUE算法等”。DBSCAN(Density一BasedspatialClusteringofApplieationswithNoise)是一种基于密度的聚类算法，其基本思想是：对于一个聚类中的每一个对象，在其给定半径的领域中包含的对象不能少于某一给定的最小数目，然后对具有密度连接特性的对象进行聚类”在该算法中，发现一个聚类的过程是基于这样的事实：一个聚类能够被其中的任意一个核心对象所确定”DBSCAN算法可以挖掘任意形状的聚类，对数据输入顺序不敏感，并且具有处理异常数据(噪声)的能力”该算法将具有足够高密度的区域划分为簇，并可以在带有/噪音0的空间数据库中发现任意形状的聚类。OPTICS算法由于DBSCAN算法需要输入两个参数，对于真实的高维数据集，参数的设置一般很难确定，而且高维的实际数据分布经常是不对称的，聚类算法只使用一个全局参数显然不能代表数据集内在的聚类结构。为了解决这个难题，Mihael等人提出了OPTICS(OrderingPointstoIdentifytheclusteringstruCture)聚类分析方法。OPTICS算法并不产生数据集的聚类，而是生成代表基于密度的聚类结构的一个参数化的数据库的排序”这种聚类排序包含的信息，等同于从一个宽广的参数设置范围所获得的基于密度的聚类”但这样处理，每个对象需要存储两个值一一核心距离(COre一distance)和可达距离(reaehability一distanee)。DENCLUE(DENsity-basedCLUstEring)是一个基于一组密度分布函数的聚类算法”该算法主要基于下的思想：(1)每个数据点的影响可以用一个数学函数来形式化的模拟，它描述了一个数据点在领域内的影响，