文本分类与聚类.ppt

下载文档 降价啦

40
0
约 105页
2017-02-16 发布于天津
举报
版权申诉
保障服务

文本分类与聚类.ppt

1、本文档共105页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

文本分类与聚类

* * 哦陈 * 缺德非层次聚类需要确定期望的类别数k 随机选择k个种子进行初始聚类迭代，将样例重新划分直到样例所属的类别不再改变 K-Means 设定样例是一个实值向量基于质心或类c中样本的均值聚类根据样例与当前类别质心的相似度重新划分类别距离矩阵欧式距 (L2 norm): L1 norm: 余弦相似度 (转换成距离): K-Means 算法令 d为两个实例的距离度量. 选择 k 个随机样例{s1, s2,… sk} 作为种子. 直到聚类收敛或满足停止策略: 对每个样例 xi: 将 xi 分配到 cj ， d(xi, sj) 是最小的. (Update the seeds to the centroid of each cluster) 对每个类 cj sj = ?(cj) K Means 举例(K=2) Pick seeds Reassign clusters Compute centroids x x Reasssign clusters x x x x Compute centroids Reassign clusters Converged! 种子的选择聚类结果与随机种子的选择是相关的随机选择的种子可能会导致收敛很慢或者收敛到局部最优采用启发式方法或其他方法选择好的种子 Buckshot 算法层次聚类和 K-均值首先随机选择n1/2 大小的语料在这些样例上运行HAC 利用HAC的结果做为K-均值的种子该方法避免了不良种子的选取文本聚类 HAC 和 K-Means可以直接应用于文本中. 典型的使用归一化、基于TF/IDF权重的向量以及余弦相似度. 应用: 在检索阶段，加入同一类别的其他文本作为初始检索结果，提高召回率. 检索结果进行聚类，可以提供给用户更好的组织形式自动生成的层次聚类结果为用户提供方便，根据聚类结果生成文摘等半监督学习对于有监督的分类，生成标注的训练语料代价很大. Idea: 用无标记的数据帮助有监督分类. 通过用标注和未标注的语料训练EM，在半监督模式中应用. 用已标注的数据子集训练初始的模型. 用户已标注的数据在迭代过程中不再改变. 无指导的数据标注在迭代过程中被重新标注. 半监督学习举例假设“quantum” 出现在标为物理的文档中，但是 “Heisenberg”（海森堡）没有出现在标注的数据中. 从标注的数据中学到 “quantum” 是物理文档的标示. 标注无监督数据时，将出现“quantum” 和 “Heisenberg”的文档标为物理类. 在进行训练时，可以学到 “Heisenberg” 也是物理类文档的标示. 最后学到的模型可以正确地将仅包含 “Heisenberg” 的文档划为物理类. 本章小结介绍了文本分类和聚类的概念介绍了几种特征提取的方法介绍了贝叶斯，KNN及决策树分类方法介绍了层次聚类和非层次聚类的方法 * Modules: - Machine learning module (neural networks, support vector machine, Bayesian belief network, decision tree, …) - Assorted data structures - Inverted index for computing TFIDF weights - * * 机器学习，p41 * 一个属性的信息增益就是由于使用了这个属性分割样例而导致的期望熵降低（机器学习p42）用熵度量样例的均一性（纯度）熵的定义举例关于某布尔分类的熵函数用信息增益度量期望熵最低一个属性的信息增益就是由于使用这个属性分割样例而导致的期望熵的降低举例计算信息增益确定最佳分类的属性哪一个属性是最好的分类？ S:[9+,5-] E=0.940 Humidity 3+，4- E=0.985 6+,1- E=0.592 Gain(S,Humidity) =0.940-(7/14)0.985-(7/14)0.592 S:[9+,5-] E=0.940 Wind 6+，2- E=0.811 3+，3- E=1.000 Gain(S,Wind) =0.940-(8/14)0.811-(6/14)0.100 high normal strong weak 不同属性的信息增益计算各属性的熵值 Gain(S,Outlook)=0.246 Gain(S,Humidity)=0.151 Gain(S,Wind)=0.048 Gain(S,Temperature)=0.029 可以看到，Outlook得信息增