文本分类及其特征提取.ppt

下载文档 降价啦

94
0
约1.12万字
约 64页
2018-03-31 发布于江西
举报
版权申诉
保障服务

文本分类及其特征提取.ppt

1、本文档共64页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

文本分类及其特征提取

文本分类及其特征提取报告人：张爱华 Agenda 分类概述分类的处理过程特征提取分类算法（KNN）分类的概念分类：给定一个对象，从一个事先定好的标签集合中挑出一个（或者多个）最适合该对象的标签。对象：可以是任何东西事先定好的标签集合：可能有结构最适合：判断标准便于今后查找：最直接、最普遍的应用支持其他应用：例如电子商务，统计分析，专业学习等可采用的分类策略全人工的网络编辑半自动的专家系统全自动的统计学习全人工的网络编辑例如sina，sohu，china等新闻网页。巨大的工作量分类的随意性和不准确半自动的专家系统手工定义分类规则经验表明：非常耗时很多时候难以定义规则（最初看起来容易）规则冲突 (随着规则集的增大) 全自动的统计学习专家系统与统计学习的比较美国人口调查局一年一度的人口普查1990 十年人口统计资料的分析（2200万项资料） 232 industry categories and 504 occupation categories $15 million if fully done by hand 手工定义分类规则： Expert System AIOCS Development time: 192 person-months (2 people, 8 years) Accuracy = 47% Learn classification function Nearest Neighbor classification (Creecy ’92: 1-NN) Development time: 4 person-months (Thinking Machine) Accuracy = 60% 分类的质量评估 Given n test documents and m classes in consideration, a classifier makes n ? m binary decisions. A two-by-two contingency table can be computed for each class. 分类的质量评估 Recall = a/(a+c) where a + c 0 我们找到类中的所有文档了吗？ Precision = a/(a+b) where a+b0 我们制定一个文档属于类，我们的正确率是多少？ Accuracy = (a + d) / n Others: miss, false alarm (fallout), error, F-measure, break-even point, ... 分类的一个例子 Predicting Topics of News Stories 给定: 一个按照分类（主题）标记好的新闻集任务: 指定未标记的新闻的分类在这个例子里面，只考虑新闻的标题。用颜色来标记分类（属于相同分类的例子使用相同的颜色标记）例子：相同颜色表示同一类（人确定）什么没看到之前，能给一个新闻赋予什么颜色（分类预测：取多数）？ Predict with Evidence（看见标题） The Actual Topic（得到分类：政府事务）分类算法的处理过程文本分类算法的一般步骤如图所示，这又称为supervised learning 分类分成两步：训练和测试训练的过程首先是文本的向量化表示然后，根据向量化的文档，利用分类学习算法训练分类器文本的向量化表示文本的向量化表示网络文本没有结构，需要先将这些文档转化为一种类似关系数据库中记录的、较规则的、且能反映文档内容特征的中间形式。这种表示法即要包含足够的信息以反映文本的特征，又不至于过于庞大，使学习算法无法处理，同时能够过滤掉噪声。文本向量化的例子预处理删除HTML tags 删除stop words 词合并（英语中不同语态，所有格等变化）注：现代的搜索引擎和分类研究中也开始利用HTML tags，主要通过两个方面一个well-formed HTML网页提供了一个树结构，在节点中包括文档和特征。恰当的分析HTML文本将给出一个tag-tree，这将为内容挖掘算法提供非常好的线索。① 利用链接图，可以发现文档间的联系，并发掘出较具有权威性和代表性的网页。② 向量化使用最多的表示文档的方法是向量空间模型字-文档关联矩阵 A=（aik）， aik表示字i在文档k中的权很多方法确定aik ，大多基于下列两个原理一个字出现在一个文档中越多，它就和这个文档的类的关系越紧出现一个字的文档数越多，它区分文档分类的能力越弱记fik是字i在文档k中出现的频率，N为集合中的文档数，M是在预处理后文档中字的总数，Ni是