文本的分类与聚类.pdf

  1. 1、本文档共93页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
文本的分类与聚类

现代信息检索 Modern Information Retrieval 第六章文本分类及聚类(Text Categorization Clustering) 授课人:王斌 wangbin@ /~wangbin/ 2007年11月 中科院研究生院2007年度秋季课程 1 最后更新日期:2007-12-11 课前思考题 分类/聚类的概念是什么?有什么关系?有什么 区别? 为什么要进行(文本)分类/聚类? (文本)分类/聚类的过程如何? (文本)分类/聚类如何进行特征选择? (文本)分类/聚类的方法有哪些? 如何评价(文本)分类/聚类的效果? 中科院研究生院2007年度秋季课程 2 引言 分类/聚类是大自然的固有现象:物以类聚、人以群分 相似的对象往往聚集在一起 (相对而言)不相似的对象往往分开 中科院研究生院2007年度秋季课程 3 什么是分类? 简单地说,分类(Categorization or Classification) 就是按照某种标准给对象贴标签(label) 男 女 中科院研究生院2007年度秋季课程 4 分类非常普遍 性别、籍贯、民族、学历、年龄等等, 我们每个人身上贴满了“标签” 我们从孩提开始就具有分类能力:爸 爸、妈妈;好阿姨、坏阿姨;电影中的 好人、坏人等等。 分类无处不在,从现在开始,我们可以 以分类的眼光看世界☺ 中科院研究生院2007年度秋季课程 5 课堂思考题 从如下叙述中找出“标签” 你以为我穷,不好看,就没有感情吗?我也会有 的。如果上帝赋予我财富和美貌,我一定要让你难 于离开我,就像我现在难于离开你。上帝没有这 样,我们的精神是同等的,就如同你跟我经过坟 墓,将同样地站在在上帝面前 中科院研究生院2007年度秋季课程 6 什么是聚类 简单地说,聚类是指事先没有“标签”而 通过某种成团分析找出事物之间存在聚 集性原因的过程。 去研究生院一个大教室上自习,往往发现大 家三三两两扎推地坐,一打听,原来坐在一 块的大都是一个班的。 事先不知道“标签”,根据对象之间的相似情 况进行成团分析。 中科院研究生院2007年度秋季课程 7 信息处理中分类和聚类的原因 分类/聚类的根本原因就是因为对象数目 太多,处理困难 一些信息处理部门,一个工作人员一天要看 上千份信息 分门别类将会大大减少处理难度,提高处理 效率和效果

文档评论(0)

wujianz + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档