网站大量收购独家精品文档,联系QQ:2885784924

网络信息聚类研究与分析开题报告.doc

  1. 1、本文档共15页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
网络信息聚类研究与分析开题报告

网络信息聚类研究与分析 一研究的目的及意义 一、本课题设计(研究)的目的: ? 2.层次聚类方法 层次聚类方法是传统的处理聚类数目未知情况的聚类方法,包括分裂式层次 聚类法和聚合式层次聚类法。前者是将所有数据对象整个作为一个聚类,然后按 照使目标函数值最优的原则将其拆分为两个聚类,之后选择聚类直径最大的类再 次按照同样的原则进行再次拆分,直至目标函数值不再降低为止,后者则恰好与 前者相反,层次聚类的结果可以用一个二分树表示,树中的每个节点都是一个聚 类,下层的聚类是上层的嵌套,每一层节点构成一组划分。 3.基于密度的方法 这种方法将具有足够高密度的区域划分为簇。主要思想是:只要临近区域的 密度(数据元素的数目)超过某个闽值,就继续聚类。该方法可用来过滤“噪声” 孤立点数据,发现任意形状的簇,如:DBSCAN, OPTICS等。 4.基于网格的方法 这种方法把数据元素空间量化为有限数目的单元,形成了一个网格结构,所 有的聚类操作都在这个网格结构上进行。该方法的主要优点是:处理速度很快, 其处理时间独立于数据对象的数目,只与量化空间中每一维的单元数目有关。缺 点是:由于将对象空间作了很大简化,因此聚类质量和精确性较差,STING是一 个典型例子。CLIQUE和WaveCluster这两种算法既是基于网格的,又是基于密度 的。 5.基于模型的方法 该方法为每个聚簇假定了一个模型,寻找数据对给定模型的最佳拟合。主要 有两类:统计学方法和神经网络方法。传统的统计方法中的聚类分析是一种基于 全局比较的聚类,它需要考察所有的个体才能决定聚类的划分:神经网络方法将 每个簇描述为一个标本,标本作为聚类的原型,不一定对应一个特定的数据实例 或对象。根据某些距离度量,新的对象可以被分配给标本与其最相似的簇。被分 配给一个簇的对象的属性可以根据该簇的标本的属性来预测。SOM是一种利用了 人工神经网络技术的聚类方法。 不同领域的聚类,比如:文本聚类、web日志信息的聚类、声音和特征识别、 生物数据的聚类、DNA数据的聚类等。各个领域中得到的数据是千差万别的,如 数据的形态上有数字、符号、图像、图形、声音等;数据组织方式也各不相同, 可以是有结构、半结构和非结构的,因此不能将一般的聚类方法直接应用到这些 领域。通常的方法是将数据作适当的处理或转换,然后再聚类,但是有时需要进 行专门的研究,这一领域的研究是重点也是难点。关于在文本聚类方面的具体算 法将在后面的章节中进行更为详尽的阐述。 国外对英文文本聚类己经进行了大量的研究,与国外相比,国内对中文文本 聚类的研究和应用起步较晚,目前国内仅有少数单位从事中文文本聚类算法的研 究及其应用。中国科学院计算技术研究所智能信息处理开放重点实验室在国内率 先展开了对中文文本聚类研究。宫秀军和史忠植2002年提出了基于Bayes潜在语 义模型的半监督文本挖掘[2];吴斌等人[3]提出了一种基于群体智能的Web文档聚类 算法。另外,西安交通大学的宋擒豹和沈钧毅提出了基于关联规则的Web文档聚 类算法[[s1;合肥工业大学的陈福集、杨善林提出了一种基于SOM的中文Web文档 层次聚类方法[6]等等。 1.2.2未来发展趋势 目前第一类对于通用聚类算法的研究已经取得了大量的研究成果,这些研究 基本上是基于结构化数据的,比如数据库,然而却很少有针对非结构化数据的研 究。第二类研究的成果还相对较少,随着互联网的迅速发展,开展这一领域的研 究已成为新的热点,有大量的研究工作需要开展,如:并行聚类算法、复杂数据 的聚类算法、算法聚类结构的可视化、聚类结果质量的提高等。 另外,聚类分析目前普遍存在的主要问题为: 1.算法的动态自适应性和运算结果的精确性尚待进一步提高; 2.聚类分析算法的时空复杂度仍待降低; 3.对大数据量、复杂数据类型数据库的聚类分析系统缺乏实用性。 4.初始敏感性:初始值的选择以及输入顺序对聚类算法的最终结果影响很大。 在数据挖掘领域中可采取的措施:可以用多组不同的初始值并进行多次迭代,最 终选取其中最佳者作为计算结果,但是不能保证一定达到全局最优解。 5.最优解:聚类过程的本质是一个优化的过程,通过一种迭代运算使得系统 的目标函数达到一个最优解。然而这个目标函数在状态空间中是一个非凸函数, 它有许多极小值,而其中只有一个是全局最小值,其它都是局部最小值。优化的 目标就是达到全局最优,因此一个非凸函数的优化问题是待解决的研究课题。 6.算法的效率问题:提高算法的效率问题是当前聚类领域中研究的又一个重 要问题。通过改进现有的聚类算法,使之具有增量聚类的能力,并具有较好的伸 缩性,在处

文档评论(0)

pangzilva + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档