网站大量收购独家精品文档,联系QQ:2885784924

文本分类与聚类.ppt

  1. 1、本文档共105页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
文本分类与聚类

* * 哦陈 * 缺德 非层次聚类 需要确定期望的类别数k 随机选择k个种子 进行初始聚类 迭代,将样例重新划分 直到样例所属的类别不再改变 K-Means 设定样例是一个实值向量 基于质心或类c中样本的均值聚类 根据样例与当前类别质心的相似度重新划分类别 距离矩阵 欧式距 (L2 norm): L1 norm: 余弦相似度 (转换成距离): K-Means 算法 令 d为两个实例的距离度量. 选择 k 个随机样例{s1, s2,… sk} 作为种子. 直到聚类收敛或满足停止策略: 对每个样例 xi: 将 xi 分配到 cj , d(xi, sj) 是最小的. (Update the seeds to the centroid of each cluster) 对每个类 cj sj = ?(cj) K Means 举例(K=2) Pick seeds Reassign clusters Compute centroids x x Reasssign clusters x x x x Compute centroids Reassign clusters Converged! 种子的选择 聚类结果与随机种子的选择是相关的 随机选择的种子可能会导致收敛很慢或者收敛到局部最优 采用启发式方法或其他方法选择好的种子 Buckshot 算法 层次聚类和 K-均值 首先随机选择n1/2 大小的语料 在这些样例上运行HAC 利用HAC的结果做为K-均值的种子 该方法避免了不良种子的选取 文本聚类 HAC 和 K-Means可以直接应用于文本中. 典型的使用归一化、基于TF/IDF权重的向量以及余弦相似度. 应用: 在检索阶段,加入同一类别的其他文本作为初始检索结果,提高召回率. 检索结果进行聚类,可以提供给用户更好的组织形式 自动生成的层次聚类结果为用户提供方便,根据聚类结果生成文摘等 半监督学习 对于有监督的分类,生成标注的训练语料代价很大. Idea: 用无标记的数据帮助有监督分类. 通过用标注和未标注的语料训练EM,在半监督模式中应用. 用已标注的数据子集训练初始的模型. 用户已标注的数据在迭代过程中不再改变. 无指导的数据标注在迭代过程中被重新标注. 半监督学习举例 假设“quantum” 出现在标为物理的文档中,但是 “Heisenberg”(海森堡) 没有出现在标注的数据中. 从标注的数据中学到 “quantum” 是物理文档的标示. 标注无监督数据时,将出现“quantum” 和 “Heisenberg”的文档标为物理类. 在进行训练时,可以学到 “Heisenberg” 也是物理类文档的标示. 最后学到的模型可以正确地将仅包含 “Heisenberg” 的文档划为物理类. 本章小结 介绍了文本分类和聚类的概念 介绍了几种特征提取的方法 介绍了贝叶斯,KNN及决策树分类方法 介绍了层次聚类和非层次聚类的方法 * Modules: - Machine learning module (neural networks, support vector machine, Bayesian belief network, decision tree, …) - Assorted data structures - Inverted index for computing TFIDF weights - * * 机器学习,p41 * 一个属性的信息增益就是由于使用了这个属性分割样例而导致的期望熵降低(机器学习p42) 用熵度量样例的均一性(纯度) 熵的定义 举例 关于某布尔分类的熵函数 用信息增益度量期望熵最低 一个属性的信息增益就是由于使用这个属性分割样例而导致的期望熵的降低 举例 计算信息增益 确定最佳分类的属性 哪一个属性是最好的分类? S:[9+,5-] E=0.940 Humidity 3+,4- E=0.985 6+,1- E=0.592 Gain(S,Humidity) =0.940-(7/14)0.985-(7/14)0.592 S:[9+,5-] E=0.940 Wind 6+,2- E=0.811 3+,3- E=1.000 Gain(S,Wind) =0.940-(8/14)0.811-(6/14)0.100 high normal strong weak 不同属性的信息增益 计算各属性的熵值 Gain(S,Outlook)=0.246 Gain(S,Humidity)=0.151 Gain(S,Wind)=0.048 Gain(S,Temperature)=0.029 可以看到,Outlook得信息增

文档评论(0)

ailuojue1 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档