- 17
- 0
- 约4.34千字
- 约 3页
- 2017-08-15 发布于重庆
- 举报
文本分类聚类.doc
文本分类与聚类(text categorization and clustering)
1. 概述 广义的分类(classification或者categorization)有两种含义:一种含义是有领导的学习(supervised learning)过程,另一种是无领导的学习(unsupervised learning)过程。通常前者称为分类,后者称为聚类(clustering),后文中提到的分类都是指有指点的学习过程。 给定分类系统,将文本集中的每个文本分到某个或者某几个类别中,这个过程称为文本分类(text categorization)。将文本聚集分组成多个类或簇,使得在同一个簇中的文本内容具有较高的相似度,而不同簇中的文本内容差异较大,这个过程称为文本聚类(text clustering)。 2.1 文本分类的步骤典范的文本分类进程可以分为三个步骤:1. 文本表现(Text Representation)这一过程的目标是把文本表示成分类器能够处理的。最常用的方法是向量空间模型,即把文本集表示成词-文档矩阵,矩阵中每个元素代表了一个词在相应文档中的权重。选取哪些词来代表一个文本,这个过程称为特点选择。常见的特征选择方法有文档频率、信息增益、互信息、期看交叉熵等等。为了分类过程中的计算量,经常还需要进行降维处理,比如LSI。 2. 分类器构建(Classifier Const
您可能关注的文档
- 数字图象处理学一绪论.ppt
- 数字影像是如何输出的.doc
- 数字技术和虚拟学习.ppt
- 数字时钟与温度计设计.doc
- 数字标牌在信息时代中所扮演的角色.doc
- 数字滤波器应用.doc
- 数字滤波器设计小结.doc
- 数字特技处理.doc
- 数字电视地面广播系统实践.doc
- 数字电视标准概述.doc
- 2024-2025学年湖南省邵阳市新宁县回龙寺镇人教版一年级下册期中测试数学试卷.docx
- 2024-2025学年山东省德州市平原县王杲铺中小、王凤楼中小、腰站镇中小青岛版一年级下册3月月考数学试卷.docx
- 第四单元 课题3 物质组成的表示-初中化学新教材预习学案(人教版2024九年级上册).docx
- 2024-2025学年山东省济宁市梁山县人教版一年级下册期中测试数学试卷.docx
- 2024-2025学年山东省德州市德州经济技术开发区长河小学等校青岛版一年级下册期中考试数学试卷.docx
- 2026《基于国产开源单片机GD32VF103的输变电设备物联网传感器设计》8300字.docx
- 2024年中考道德与法治真题完全解读(北京卷).docx
- 2026《基于机器视觉识别的工件边缘曲线重构方法分析》9000字.docx
- 课时9.4 物体的浮与沉【一大题型】八年级全一册物理(沪科版2024).docx
- 2024-2025学年广东省江门市开平市人教版一年级下册期中综合素养评价数学试卷.docx
原创力文档

文档评论(0)