信息管理和信息系统第3章幻灯片.pptVIP

  • 2
  • 0
  • 约 158页
  • 2017-02-07 发布于河南
  • 举报
《信息存储与检索》 3.6.4 文本聚类常用技术 动态聚类法主要致力于在一个平面层次上分割所有的样本点,通过算法的迭代执行,得到一个较合理的有k个类的聚类结果(假设k是希望得到的类的数目)。动态聚类的基本处理思想如图3-9: 图3-9 动态聚类法工作流程图 《信息存储与检索》 * 《信息存储与检索》 3.6.4 文本聚类常用技术 动态聚类法主要基于这样的假设:类的中心可以代表整个类,并且一般由该类包含对象(如文档向量)的平均值来描述。图中的“聚类中心”(或称“凝聚点”)我们可以认为是类的重心(centroid)。刚开始时,在参加聚类的文档集合中选若干有代表性的文档作为凝聚点,相当于把这些文档单独成类,然后按照一定的原则(如选择最近的凝聚点)使其他文档向凝聚点聚集,即合并到已有的类中,实现文档的初始聚类处理。之后,再判断初始聚类结果是否合理,如果不合理,就进行修改,然后再次聚类,直到对聚类结果满意为止。 《信息存储与检索》 * 《信息存储与检索》 3.6.4 文本聚类常用技术 在这样的聚类处理过程中,各文档仅限于与“凝聚点”进行比较,这种局部分析策略使聚类处理的工作量大大减少,因此,算法的执行时间与问题规模(即文档数量)呈线性时间复杂度的关系,可以在较短时间完成。在这一点上,与采用全局性策略的等

文档评论(0)

1亿VIP精品文档

相关文档