- 1、本文档共40页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
决策树构造过程中可能会出现这种情况,所有属性都作为分裂属性用光了,但有的子集还不是纯净集,由于没有更多信息可以使用了,一般对这些子集进行“多数表决”,即使用此子集中出现次数最多的类别作为此节点类别,然后将此节点作为叶子节点 * 分类是示例式学习,要求分类前明确各个类别,并断言每个元素映射到一个类别,而聚类是观察式学习,在聚类前可以不知道类别甚至不给定类别数量,是无监督学习的一种。 * 没有预定义的类,不需要训练过程,直接在测试集上处理,以及不需要预先对文档手工标注类别 * 聚类生成树结构,清晰表达类间结构。任意给出阈值,可以清晰地得到聚类结果 * 层次聚类一般用来进行性能测试,评测各算法的性能 * 基于组平均方法比全连接效率高,并且避免了单连接聚类的狭长形状 * * K取 3 或 5 * 结果一般只是局部最优的。 * 2.2 文本聚类的基本过程 对测试集文本进行预处理 对文本进行特征提取 测试 2.3 文本聚类的常用技术 层次聚类: 每一个节点是其父节点的一个子类,叶节点对应的是类别中每一个单独的对象,常用算法自底向上与自上向下(凝聚与分裂) 非层次聚类: 只是简单的包括了每类的数量,体现不了他们之间的层次关系,常用算法K-均值 层次聚类和非层次聚类的比较 层次聚类 适合于数据的详细描述 提供更多的信息 没有单一的最好的算法 效率没有非层次的好 非层次聚类 适合于大数据集合要求考虑效率较高的情况 K-均值是一种最简单的方法,并且有效的 K-均值采用欧氏距离,不能表达更广泛的数据 2.3.1 层次聚类-谱系聚类算法(1) 基本思想:将N个样本各自归为一类,然后计算类与类之间的距离,选择距离最小的一对合并成一个新类,重复计算所有类间距离,直到达到阈值 类间距离三种度量: 单连接:两个最近成员的距离 全连接:两个最远成员的距离 组平均:类成员的平均距离 不同的度量会导致不同的聚类形状,适用于不同的问题 2.3.1 层次聚类-谱系聚类算法(2) 令k=0, m=N, 计算距离矩阵 ,其中Dij是 和 之间的距离。 找出矩阵 中的最小元素,设它是 和 之间的距离,将它们合并成一类,并产生新的聚类: 令k=k+1,m=m?1 ,如果类数m大于2,转至第2步;否则停止。 2.3.2 非层次聚类-K均值算法(1) 基本思想:取定类别个数k和选取k个初始聚类中心 ,然后按最大相似度原则将各样本Xi分配到k类中的某一类,通过不断地计算类心 和调整各样本类别 ,最终使各样本到其所属类别中心的距离平方之和准则函数 极小: 2.3.2 非层次聚类-K均值算法(2) 1.选择 类别个数及初始聚类中心的 2.按照最大原则对样本归归类 3.计算重新分类后的聚类重心 4.判断停止条件 2.3.2 非层次聚类-K均值算法(3) k值的调整 先验知识法:利用先验知识分析选取合理的聚类数。 J-k曲线法:类别数k从较小值逐步增加,易知准则函数J随着k的增加而单调减少,因此在J-k曲线上曲率变化最大的点对应的类数,是比较接近样本几何分布上最优的类数。 2.3.2 非层次聚类-K均值算法(4) 初始聚类中心的选取 经验法:凭经验选择初始类心。 随机法:将样本随机地分成c类,计算每类中心,以其作为初始类心。 密度法:求以每个样本为球心、某一正数d0为半径的球形域中的样本数,即密度。选取密度最大的样本作为第一个初始类心,然后在某个距离d的之外选取另一个具有最大密度的样本作为第二个初始类心,….. 最后共选取c个初始聚类中心。 最远距离法:用相距最远的c个样本作为初始聚类中心。 2.3.2 非层次聚类-K均值算法(3) 优点: 方法简单,结果尚令人满意(样本分布呈现类内团聚状,该算法是能达到很好聚类结果的) 缺点: 分类结果受到取定的类别数目及聚类中心的初始位置的影响 * * * * 对网页中残缺的信息进行整合 * * 海明距离:两个字符串对应位置的不同字符的个数 曼哈顿街区:又称为分量绝对值求和距离 * 切比雪夫(Chebychev)距离,分量绝对值最大距离 * 区别于原来的类中心算法:对于一个分类,某些词出现,属于这个分类的可能性就会增加,而另外一些词出现,属于这个分类的可能性就会降低,那么累计这些正面的,和负面的影响因素,最后对于每个类的一个打分,打分越高属于该类的可能性就越大 * Rocchio方法对于某种非此即彼的分类特别合适 * 通常作为衡量分类系统性能的基准系统,而很少采用这种算法解决具体的分类问题 * 文档属于某个类别的概率等于文档中每个词属于该类别的概
文档评论(0)