文本分类及其特征提取.ppt

  1. 1、本文档共64页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
文本分类及其特征提取

文本分类及其特征提取 报告人:张爱华 Agenda 分类概述 分类的处理过程 特征提取 分类算法(KNN) 分类的概念 分类:给定一个对象,从一个事先定好的标签集合中挑出一个(或者多个)最适合该对象的标签。 对象:可以是任何东西 事先定好的标签集合:可能有结构 最适合:判断标准 便于今后查找:最直接、最普遍的应用 支持其他应用:例如电子商务,统计分析,专业学习等 可采用的分类策略 全人工的网络编辑 半自动的专家系统 全自动的统计学习 全人工的网络编辑 例如sina,sohu,china等新闻网页。 巨大的工作量 分类的随意性和不准确 半自动的专家系统 手工定义分类规则 经验表明: 非常耗时 很多时候难以定义规则(最初看起来容易) 规则冲突 (随着规则集的增大) 全自动的统计学习 专家系统与统计学习的比较 美国人口调查局一年一度的人口普查1990 十年人口统计资料的分析(2200万项资料) 232 industry categories and 504 occupation categories $15 million if fully done by hand 手工定义分类规则: Expert System AIOCS Development time: 192 person-months (2 people, 8 years) Accuracy = 47% Learn classification function Nearest Neighbor classification (Creecy ’92: 1-NN) Development time: 4 person-months (Thinking Machine) Accuracy = 60% 分类的质量评估 Given n test documents and m classes in consideration, a classifier makes n ? m binary decisions. A two-by-two contingency table can be computed for each class. 分类的质量评估 Recall = a/(a+c) where a + c 0 我们找到类中的所有文档了吗? Precision = a/(a+b) where a+b0 我们制定一个文档属于类,我们的正确率是多少? Accuracy = (a + d) / n Others: miss, false alarm (fallout), error, F-measure, break-even point, ... 分类的一个例子 Predicting Topics of News Stories 给定: 一个按照分类(主题)标记好的新闻集 任务: 指定未标记的新闻的分类 在这个例子里面,只考虑新闻的标题。 用颜色来标记分类(属于相同分类的例子使用相同的颜色标记) 例子:相同颜色表示同一类(人确定) 什么没看到之前,能给一个新闻赋予什么颜色(分类预测:取多数)? Predict with Evidence(看见标题) The Actual Topic(得到分类:政府事务) 分类算法的处理过程 文本分类算法的一般步骤 如图所示,这又称为supervised learning 分类分成两步:训练和测试 训练的过程 首先是文本的向量化表示 然后,根据向量化的文档,利用分类学习算法训练分类器 文本的向量化表示 文本的向量化表示 网络文本没有结构,需要先将这些文档转化为一种类似关系数据库中记录的、较规则的、且能反映文档内容特征的中间形式。 这种表示法即要包含足够的信息以反映文本的特征,又不至于过于庞大,使学习算法无法处理,同时能够过滤掉噪声。 文本向量化的例子 预处理 删除HTML tags 删除stop words 词合并(英语中不同语态,所有格等变化) 注:现代的搜索引擎和分类研究中也开始利用HTML tags,主要通过两个方面 一个well-formed HTML网页提供了一个树结构,在节点中包括文档和特征。恰当的分析HTML文本将给出一个tag-tree,这将为内容挖掘算法提供非常好的线索。① 利用链接图,可以发现文档间的联系,并发掘出较具有权威性和代表性的网页。② 向量化 使用最多的表示文档的方法是向量空间模型 字-文档关联矩阵 A=(aik), aik表示字i在文档k中的权 很多方法确定aik ,大多基于下列两个原理 一个字出现在一个文档中越多,它就和这个文档的类的关系越紧 出现一个字的文档数越多,它区分文档分类的能力越弱 记fik是字i在文档k中出现的频率,N为集合中的文档数,M是在预处理后文档中字的总数,Ni是

文档评论(0)

153****9595 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档