网络信息聚类研究与分析开题报告.doc

下载文档 降价啦

92
0
约1.93万字
约 15页
2017-12-16 发布于江西
举报
版权申诉
保障服务

网络信息聚类研究与分析开题报告.doc

1、本文档共15页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

网络信息聚类研究与分析开题报告

网络信息聚类研究与分析一研究的目的及意义一、本课题设计（研究）的目的： ? 2.层次聚类方法层次聚类方法是传统的处理聚类数目未知情况的聚类方法，包括分裂式层次聚类法和聚合式层次聚类法。前者是将所有数据对象整个作为一个聚类，然后按照使目标函数值最优的原则将其拆分为两个聚类，之后选择聚类直径最大的类再次按照同样的原则进行再次拆分，直至目标函数值不再降低为止，后者则恰好与前者相反，层次聚类的结果可以用一个二分树表示，树中的每个节点都是一个聚类，下层的聚类是上层的嵌套，每一层节点构成一组划分。 3.基于密度的方法这种方法将具有足够高密度的区域划分为簇。主要思想是:只要临近区域的密度(数据元素的数目)超过某个闽值，就继续聚类。该方法可用来过滤“噪声” 孤立点数据，发现任意形状的簇，如:DBSCAN, OPTICS等。 4.基于网格的方法这种方法把数据元素空间量化为有限数目的单元，形成了一个网格结构，所有的聚类操作都在这个网格结构上进行。该方法的主要优点是:处理速度很快，其处理时间独立于数据对象的数目，只与量化空间中每一维的单元数目有关。缺点是:由于将对象空间作了很大简化，因此聚类质量和精确性较差，STING是一个典型例子。CLIQUE和WaveCluster这两种算法既是基于网格的，又是基于密度的。 5.基于模型的方法该方法为每个聚簇假定了一个模型，寻找数据对给定模型的最佳拟合。主要有两类:统计学方法和神经网络方法。传统的统计方法中的聚类分析是一种基于全局比较的聚类，它需要考察所有的个体才能决定聚类的划分:神经网络方法将每个簇描述为一个标本，标本作为聚类的原型，不一定对应一个特定的数据实例或对象。根据某些距离度量，新的对象可以被分配给标本与其最相似的簇。被分配给一个簇的对象的属性可以根据该簇的标本的属性来预测。SOM是一种利用了人工神经网络技术的聚类方法。不同领域的聚类，比如:文本聚类、web日志信息的聚类、声音和特征识别、生物数据的聚类、DNA数据的聚类等。各个领域中得到的数据是千差万别的，如数据的形态上有数字、符号、图像、图形、声音等;数据组织方式也各不相同，可以是有结构、半结构和非结构的，因此不能将一般的聚类方法直接应用到这些领域。通常的方法是将数据作适当的处理或转换，然后再聚类，但是有时需要进行专门的研究，这一领域的研究是重点也是难点。关于在文本聚类方面的具体算法将在后面的章节中进行更为详尽的阐述。国外对英文文本聚类己经进行了大量的研究，与国外相比，国内对中文文本聚类的研究和应用起步较晚，目前国内仅有少数单位从事中文文本聚类算法的研究及其应用。中国科学院计算技术研究所智能信息处理开放重点实验室在国内率先展开了对中文文本聚类研究。宫秀军和史忠植2002年提出了基于Bayes潜在语义模型的半监督文本挖掘[2];吴斌等人[3]提出了一种基于群体智能的Web文档聚类算法。另外，西安交通大学的宋擒豹和沈钧毅提出了基于关联规则的Web文档聚类算法[[s1;合肥工业大学的陈福集、杨善林提出了一种基于SOM的中文Web文档层次聚类方法[6]等等。 1.2.2未来发展趋势目前第一类对于通用聚类算法的研究已经取得了大量的研究成果，这些研究基本上是基于结构化数据的，比如数据库，然而却很少有针对非结构化数据的研究。第二类研究的成果还相对较少，随着互联网的迅速发展，开展这一领域的研究已成为新的热点，有大量的研究工作需要开展，如:并行聚类算法、复杂数据的聚类算法、算法聚类结构的可视化、聚类结果质量的提高等。另外，聚类分析目前普遍存在的主要问题为: 1.算法的动态自适应性和运算结果的精确性尚待进一步提高; 2.聚类分析算法的时空复杂度仍待降低; 3.对大数据量、复杂数据类型数据库的聚类分析系统缺乏实用性。 4.初始敏感性:初始值的选择以及输入顺序对聚类算法的最终结果影响很大。在数据挖掘领域中可采取的措施:可以用多组不同的初始值并进行多次迭代，最终选取其中最佳者作为计算结果，但是不能保证一定达到全局最优解。 5.最优解:聚类过程的本质是一个优化的过程，通过一种迭代运算使得系统的目标函数达到一个最优解。然而这个目标函数在状态空间中是一个非凸函数，它有许多极小值，而其中只有一个是全局最小值，其它都是局部最小值。优化的目标就是达到全局最优，因此一个非凸函数的优化问题是待解决的研究课题。 6.算法的效率问题:提高算法的效率问题是当前聚类领域中研究的又一个重要问题。通过改进现有的聚类算法，使之具有增量聚类的能力，并具有较好的伸缩性，在处