文本分类聚类常用技术总结.ppt

下载文档 降价啦

72
0
约7.15千字
约 40页
2018-05-05 发布于四川
举报
版权申诉
保障服务

文本分类聚类常用技术总结.ppt

1、本文档共40页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

决策树构造过程中可能会出现这种情况，所有属性都作为分裂属性用光了，但有的子集还不是纯净集，由于没有更多信息可以使用了，一般对这些子集进行“多数表决”，即使用此子集中出现次数最多的类别作为此节点类别，然后将此节点作为叶子节点 * 分类是示例式学习，要求分类前明确各个类别，并断言每个元素映射到一个类别，而聚类是观察式学习，在聚类前可以不知道类别甚至不给定类别数量，是无监督学习的一种。 * 没有预定义的类，不需要训练过程，直接在测试集上处理，以及不需要预先对文档手工标注类别 * 聚类生成树结构，清晰表达类间结构。任意给出阈值，可以清晰地得到聚类结果 * 层次聚类一般用来进行性能测试，评测各算法的性能 * 基于组平均方法比全连接效率高，并且避免了单连接聚类的狭长形状 * * K取 3 或 5 * 结果一般只是局部最优的。 * 2.2 文本聚类的基本过程对测试集文本进行预处理对文本进行特征提取测试 2.3 文本聚类的常用技术层次聚类：每一个节点是其父节点的一个子类，叶节点对应的是类别中每一个单独的对象，常用算法自底向上与自上向下（凝聚与分裂）非层次聚类：只是简单的包括了每类的数量，体现不了他们之间的层次关系，常用算法K-均值层次聚类和非层次聚类的比较层次聚类适合于数据的详细描述提供更多的信息没有单一的最好的算法效率没有非层次的好非层次聚类适合于大数据集合要求考虑效率较高的情况 K-均值是一种最简单的方法，并且有效的 K-均值采用欧氏距离，不能表达更广泛的数据 2.3.1 层次聚类-谱系聚类算法（1）基本思想：将N个样本各自归为一类，然后计算类与类之间的距离，选择距离最小的一对合并成一个新类，重复计算所有类间距离，直到达到阈值类间距离三种度量：单连接：两个最近成员的距离全连接：两个最远成员的距离组平均：类成员的平均距离不同的度量会导致不同的聚类形状，适用于不同的问题 2.3.1 层次聚类-谱系聚类算法（2）令k=0, m=N, 计算距离矩阵，其中Dij是和之间的距离。找出矩阵中的最小元素，设它是和之间的距离，将它们合并成一类，并产生新的聚类：令k=k+1，m=m?1 ，如果类数m大于2，转至第2步；否则停止。 2.3.2 非层次聚类-K均值算法（1）基本思想：取定类别个数k和选取k个初始聚类中心，然后按最大相似度原则将各样本Xi分配到k类中的某一类，通过不断地计算类心和调整各样本类别，最终使各样本到其所属类别中心的距离平方之和准则函数极小： 2.3.2 非层次聚类-K均值算法（2） 1.选择类别个数及初始聚类中心的 2.按照最大原则对样本归归类 3.计算重新分类后的聚类重心 4.判断停止条件 2.3.2 非层次聚类-K均值算法（3） k值的调整先验知识法：利用先验知识分析选取合理的聚类数。 J-k曲线法：类别数k从较小值逐步增加，易知准则函数J随着k的增加而单调减少，因此在J-k曲线上曲率变化最大的点对应的类数，是比较接近样本几何分布上最优的类数。 2.3.2 非层次聚类-K均值算法（4）初始聚类中心的选取经验法：凭经验选择初始类心。随机法：将样本随机地分成c类，计算每类中心，以其作为初始类心。密度法：求以每个样本为球心、某一正数d0为半径的球形域中的样本数，即密度。选取密度最大的样本作为第一个初始类心，然后在某个距离d的之外选取另一个具有最大密度的样本作为第二个初始类心，….. 最后共选取c个初始聚类中心。最远距离法：用相距最远的c个样本作为初始聚类中心。 2.3.2 非层次聚类-K均值算法（3）优点：方法简单，结果尚令人满意（样本分布呈现类内团聚状，该算法是能达到很好聚类结果的）缺点：分类结果受到取定的类别数目及聚类中心的初始位置的影响 * * * * 对网页中残缺的信息进行整合 * * 海明距离：两个字符串对应位置的不同字符的个数曼哈顿街区：又称为分量绝对值求和距离 * 切比雪夫(Chebychev)距离，分量绝对值最大距离 * 区别于原来的类中心算法：对于一个分类,某些词出现，属于这个分类的可能性就会增加,而另外一些词出现，属于这个分类的可能性就会降低,那么累计这些正面的,和负面的影响因素,最后对于每个类的一个打分,打分越高属于该类的可能性就越大 * Rocchio方法对于某种非此即彼的分类特别合适 * 通常作为衡量分类系统性能的基准系统，而很少采用这种算法解决具体的分类问题 * 文档属于某个类别的概率等于文档中每个词属于该类别的概