- 1、本文档共93页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
[工学]第6章文本分类与聚类
引言 物以类聚、人以群分 相似的对象总聚集在一起 根据聚集情况可以对新的对象进行划分 分类/聚类的根本原因就是因为对象数目太多,处理困难 一些信息处理部门,一个工作人员一天要看上千份信息 分门别类将会大大减少处理难度 分类是非常普遍的一种处理手段 性别、籍贯、民族、学历、年龄等等,我们每个人身上贴满了“标签” 我们从孩提开始就具有分类能力:电影中的好人、坏人;好阿姨、坏阿姨;亲人、非亲人等等。 分类无处不在,从现在开始,我们可以以分类的眼光看世界? 分类和聚类的例子 分类的例子: 在新街口马路上碰到一个人,判断他/她是不是学生? 根据某些特征给对象贴一个“标签”。 聚类的例子: 去综合楼一个大教室上自习,往往发现大家三三两两扎推地坐,一打听,原来坐在一块的大都是一个班的。 事先不知道“标签”,根据对象之间的相似情况进行成团分析。 文本分类的定义 事先给定分类体系和训练样例(标注好类别信息的文本),将文本分到某个或者某几个类别中。 计算机自动分类,就是根据已经标注好类别信息的训练集合进行学习,将学习到的规律用于新样本(也叫测试样本)的类别判定。 分类是有监督/指导学习(Supervised Learning)的一种。 关于分类体系 分类体系的构建标准可以是按照语义(如:政治、经济、军事…),也可以是按照其他标准(如:垃圾vs. 非垃圾;游戏网站vs. 非游戏网站),完全取决于目标应用的需求。 分类体系一般由人工构造,可以是层次结构。 一些分类体系: Reuters语料分类体系、中图分类、Yahoo !分类目录。 文本分类的应用 垃圾邮件的判定(spam or not spam) 类别{spam, not-spam} 新闻出版按照栏目分类 类别{政治,体育,军事,…} 词性标注 类别{名词,动词,形容词,…} 词义排歧 类别{词义1,词义2,…} 文本分类的过程(1) 获取训练文档集合 训练(training):即从训练样本中学习分类的规律。 测试(test或分类classification):根据学习到的规律对新来的文本进行类别判定。 建立文档表示模型 目前的文本分类系统,绝大多数都是以词语来表征文档的,用关键词、短语、主题词、概念的都有。 文本分类的过程(2) 特征选择 不管是训练还是测试,都要先分析出文本的某些特征(feature,也称为标引项term),然后把文本变成这些特征的某种适宜处理的表示形式,通常都采用向量表示形式或者直接使用某些统计量。 选择或设计分类模型 建立从文档特征(或属性)到文档类别的映射关系,是文本分类的核心问题。现有的分类方法主要来自两个方面:统计和机器学习,比较著名的文档分类方法有kNN、Na?ve Bayes(NB)、SVM等等。 文本分类的过程(3) 性能评测模型 性能评测是分类处理流程中的重要一环。对改进和完善分类系统具有指导意义。 文本分类的方法 人工方法:人工总结规则 优点: 结果容易理解:如足球and 联赛??体育类 缺点: 费时费力 难以保证一致性和准确性(40%左右的准确率) 专家有时候凭空想象,没有基于真实语料的分布 代表方法:人们曾经通过知识工程的方法建立专家系统(80年代末期)用于分类。 自动的方法(学习):从训练语料中学习规则 优点: 快速 准确率相对高(准确率可达60%或者更高) 来源于真实文本,可信度高 缺点: 结果可能不易理解(比如有时是一个复杂的数学表达式) 规则方法和统计方法 规则方法通过得到某些规则来指导分类,而这些规则往往是人可以理解的。 统计方法通过计算得到一些数学表达式来指导分类。 规则方法和统计方法没有本质的区别,它们都是想得到某种规律性的东西来指导分类,统计方法得到的数学表达式可以认为是某种隐式规则。 在目前的文本分类当中,统计方法占据了主流地位。 贝叶斯分类的基本思想 Na?ve Bayes分类方法(以下简称NB法)将概率模型应用于自动分类,是一种简单而又有效的分类方法。 它的分类思想是使用贝叶斯公式,通过先验概率和类别的条件概率来估计文档d对类别ci的后验概率,以此实现对文档d的类别归属判断。 Bayes’ Rule 文档间的距离 对于有m个特征属性的文档来说,n个文档可以视为m-维空间中的n个点,自然地,可以设想用点间距离度量文档间的接近程度。常用dij表示第i篇文档与第j篇文档间的距离。 当q分别取1,2和∞时,明氏距离分别对应于绝对值距离、欧氏距离和切比雪夫距离。 单连通(Single Linkage) 全连通(Complete Linkage) 平均连通(Average Linkage) 动态聚类的核心问题 初始聚类中心的选取 重心法 密度法 调用等级聚类算法 参数K的设置 重心法 首先计算出全部聚类样本的重
您可能关注的文档
最近下载
- “双减”政策下初中数学分层作业设计的实践与探究 .pdf
- 《My family photo》(教学设计)-2024-2025学年冀教版(2024)初中英语七年级上册.docx VIP
- 国开电大《创业教育(创业教育专)》形考1-3及综合答案.pdf VIP
- ISO 10009-2024 质量管理——质量工具及其应用指南(中文版-雷泽佳译2024-07).docx VIP
- 人教版初中英语八年级上册 Unit 7 大单元作业设计案例 .pdf
- 美国国父——华盛顿课件.ppt
- 渔父文化内涵.doc VIP
- 2025年合肥市轨道交通集团有限公司校园招聘934人笔试备考题库及答案解析.docx
- 腰椎穿刺术教师赛教案.docx
- 产后大出血的抢救.pptx VIP
文档评论(0)