[工学]第6章文本分类与聚类.ppt

下载文档 降价啦

16
0
约1.16万字
约 93页
2018-03-09 发布于浙江
举报
版权申诉
保障服务

[工学]第6章文本分类与聚类.ppt

1、本文档共93页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

[工学]第6章文本分类与聚类

引言物以类聚、人以群分相似的对象总聚集在一起根据聚集情况可以对新的对象进行划分分类/聚类的根本原因就是因为对象数目太多，处理困难一些信息处理部门，一个工作人员一天要看上千份信息分门别类将会大大减少处理难度分类是非常普遍的一种处理手段性别、籍贯、民族、学历、年龄等等，我们每个人身上贴满了“标签” 我们从孩提开始就具有分类能力：电影中的好人、坏人；好阿姨、坏阿姨；亲人、非亲人等等。分类无处不在，从现在开始，我们可以以分类的眼光看世界? 分类和聚类的例子分类的例子：在新街口马路上碰到一个人，判断他/她是不是学生？根据某些特征给对象贴一个“标签”。聚类的例子：去综合楼一个大教室上自习，往往发现大家三三两两扎推地坐，一打听，原来坐在一块的大都是一个班的。事先不知道“标签”，根据对象之间的相似情况进行成团分析。文本分类的定义事先给定分类体系和训练样例(标注好类别信息的文本)，将文本分到某个或者某几个类别中。计算机自动分类，就是根据已经标注好类别信息的训练集合进行学习，将学习到的规律用于新样本(也叫测试样本)的类别判定。分类是有监督/指导学习(Supervised Learning)的一种。关于分类体系分类体系的构建标准可以是按照语义(如：政治、经济、军事…)，也可以是按照其他标准(如：垃圾vs. 非垃圾；游戏网站vs. 非游戏网站)，完全取决于目标应用的需求。分类体系一般由人工构造，可以是层次结构。一些分类体系: Reuters语料分类体系、中图分类、Yahoo ！分类目录。文本分类的应用垃圾邮件的判定(spam or not spam) 类别{spam, not-spam} 新闻出版按照栏目分类类别{政治,体育,军事,…} 词性标注类别{名词,动词,形容词,…} 词义排歧类别{词义1,词义2,…} 文本分类的过程（1）获取训练文档集合训练(training)：即从训练样本中学习分类的规律。测试(test或分类classification)：根据学习到的规律对新来的文本进行类别判定。建立文档表示模型目前的文本分类系统，绝大多数都是以词语来表征文档的，用关键词、短语、主题词、概念的都有。文本分类的过程（2）特征选择不管是训练还是测试，都要先分析出文本的某些特征(feature，也称为标引项term)，然后把文本变成这些特征的某种适宜处理的表示形式，通常都采用向量表示形式或者直接使用某些统计量。选择或设计分类模型建立从文档特征（或属性）到文档类别的映射关系，是文本分类的核心问题。现有的分类方法主要来自两个方面：统计和机器学习，比较著名的文档分类方法有kNN、Na?ve Bayes（NB）、SVM等等。文本分类的过程（3）性能评测模型性能评测是分类处理流程中的重要一环。对改进和完善分类系统具有指导意义。文本分类的方法人工方法：人工总结规则优点：结果容易理解：如足球and 联赛??体育类缺点：费时费力难以保证一致性和准确性(40%左右的准确率) 专家有时候凭空想象，没有基于真实语料的分布代表方法：人们曾经通过知识工程的方法建立专家系统(80年代末期)用于分类。自动的方法(学习)：从训练语料中学习规则优点：快速准确率相对高(准确率可达60%或者更高) 来源于真实文本，可信度高缺点：结果可能不易理解(比如有时是一个复杂的数学表达式) 规则方法和统计方法规则方法通过得到某些规则来指导分类，而这些规则往往是人可以理解的。统计方法通过计算得到一些数学表达式来指导分类。规则方法和统计方法没有本质的区别，它们都是想得到某种规律性的东西来指导分类，统计方法得到的数学表达式可以认为是某种隐式规则。在目前的文本分类当中，统计方法占据了主流地位。贝叶斯分类的基本思想 Na?ve Bayes分类方法（以下简称NB法）将概率模型应用于自动分类，是一种简单而又有效的分类方法。它的分类思想是使用贝叶斯公式，通过先验概率和类别的条件概率来估计文档d对类别ci的后验概率，以此实现对文档d的类别归属判断。 Bayes’ Rule 文档间的距离对于有m个特征属性的文档来说，n个文档可以视为m-维空间中的n个点，自然地，可以设想用点间距离度量文档间的接近程度。常用dij表示第i篇文档与第j篇文档间的距离。当q分别取1，2和∞时，明氏距离分别对应于绝对值距离、欧氏距离和切比雪夫距离。单连通（Single Linkage）全连通（Complete Linkage）平均连通（Average Linkage）动态聚类的核心问题初始聚类中心的选取重心法密度法调用等级聚类算法参数K的设置重心法首先计算出全部聚类样本的重