信息管理和信息系统第3章幻灯片.pptVIP

下载本文档

2
0
约 158页
2017-02-07 发布于河南
举报

信息管理和信息系统第3章幻灯片.ppt

《信息存储与检索》 3.6.4 文本聚类常用技术动态聚类法主要致力于在一个平面层次上分割所有的样本点，通过算法的迭代执行，得到一个较合理的有k个类的聚类结果（假设k是希望得到的类的数目）。动态聚类的基本处理思想如图3-9: 图3-9 动态聚类法工作流程图《信息存储与检索》 * 《信息存储与检索》 3.6.4 文本聚类常用技术动态聚类法主要基于这样的假设：类的中心可以代表整个类，并且一般由该类包含对象（如文档向量）的平均值来描述。图中的“聚类中心”（或称“凝聚点”）我们可以认为是类的重心（centroid）。刚开始时，在参加聚类的文档集合中选若干有代表性的文档作为凝聚点，相当于把这些文档单独成类，然后按照一定的原则（如选择最近的凝聚点）使其他文档向凝聚点聚集，即合并到已有的类中，实现文档的初始聚类处理。之后，再判断初始聚类结果是否合理，如果不合理，就进行修改，然后再次聚类，直到对聚类结果满意为止。《信息存储与检索》 * 《信息存储与检索》 3.6.4 文本聚类常用技术在这样的聚类处理过程中，各文档仅限于与“凝聚点”进行比较，这种局部分析策略使聚类处理的工作量大大减少，因此，算法的执行时间与问题规模（即文档数量）呈线性时间复杂度的关系，可以在较短时间完成。在这一点上，与采用全局性策略的等

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

信息管理和信息系统第3章幻灯片.pptVIP