文本分类过程.pptxVIP

下载本文档

40
0
约2.79千字
约 18页
2018-06-08 发布于上海
举报
版权申诉

文本分类过程.pptx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

文本分类目录Contents文本分类过程文本分类概述0102第一部分文本分类概述互联网使得信息的传播速度以及规模达到了空前的水平。“信息爆炸”已成为人们必须面对的问题。从数据海洋中迅速准确获取所需要的信息变得非常困难。文本分类概述01当前的知识信息主要以文本作为载体，大部分文本信息以非结构化或半结构化的形式存在，如电子邮件、电子文档以及电子档案等，它们不易被机器理解也不可能完全依靠人工进行管理。因此，采用信息化手段通过机器学习方法对这些文本信息进行处理显得尤为重要。文本分类概述01文本分类技术（Text Categorization，TC）作为组织和管理文本信息的有效手段，主要任务是自动分类无标签文档到预定的类别集合中。文本可以是媒体新闻、科技、报告、电子邮件、网页、书籍或像微博一样的一段语料。由于类别时事先定义好的，因此分类是有监督的。信息过滤文本分类应用领域对获取的信息进行二分类的处理，即将用户需求的信息过滤出来，发送给用户；将用户不感兴趣、不需要的不良信息、反动信息等过滤掉。垃圾邮件过滤、新闻选择以及手机信息过滤等都是信息过滤的典型应用。 01信息检索文本分类技术最早应用于信息检索领域，它通过将数字信息按照特定的方式进行组织、存储，把其中主题内容相近的数字信息按照主题层次归纳整理到一起，进而有效地提高了检索的查准率。数字图书馆自动文本分类技术应用于数字图书馆不但可以节省大量的人力、物力，还可以提高图书分类的准确率，减少冗余资料的数量，提高图书管理系统的服务性能。第二部分文本分类过程目录Contents中文分词分类器训练数据预处理特征选择特征表示0103050204现实世界中数据大体上都是不完整，不一致的数据，无法直接进行数据挖掘，或挖掘结果差强人意。为了提高数据挖掘的质量产生了数据预处理技术。　数据预处理有多种方法：数据清理，数据集成，数据变换，数据归约等。这些数据处理技术在数据挖掘之前使用，大大提高了数据挖掘模式的质量，降低实际挖掘所需要的时间。分词是将文本处理为独立的特征，即切分成词，主要针对东方语言，如：汉语、阿拉伯语等，因为这类语言是整个句子连接在一起的，每个词（特征）之间不是独立的。对于西方语言，如：英语、法语等，这类语言的每个词之间都有空格相互分隔，也就不需要进行分词处理。去除停用词，即的、了之类的没有实际意义的词。R语言支持用户对停用词表进行自定义。文本不能被计算机识别，特征表示是指将实际的文本内容变成机器内部的表示结果。特征表示有两个步骤，即特征表示与特征权重计算。特征表示指特征提取的方式；权重计算指将特征转换为语言相似度的权重值。特征表示方法：向量空间模型，在向量空间模型（Vector Space Model，VSM）中，文档的内容被表示为特征空间中的一个向量。每条语料中的每个词对应一个数值，即每条语料对应一组数值，形成一个向量。布尔模型，布尔模型本质上是向量空间模型的一种特殊表示形式，这种表示方式同样也是将文档表示为特征空间中的一个向量，主要区别为：第 i 个特征在文档中是否出现（出现的频率）采用“0”和“1”来代表，“0”代表特征在当前文档中没有出现，“1”代表特征在当前文档中出现。权重计算方法：TF-IDF：TF-IDF函数用来表示特征项的重要程度。词频(TF)：即一个特征项在某一文档中出现的次数，反映了某一个特征项对该文本的重要性。倒文档频度(IDF)：这一分量反映了某一特征项区别于其他文档的程度，是一个关键词在整个数据全局中重要性的全局性统计特征，称为倒文档频度。TF-IDF主要基于以下两个理论依据：在一个文本中出现次数很多的单词，在另一个同类文本中出现的也会很多，反之亦然，所以将 TF(词频)作为测度;一个词条出现的文本频数越小，它区别不同类别的能力就越大，故引入了 IDF(逆文本频数)的概念。特征选择?( Feature Selection )也称特征子集选择( Feature Subset Selection , FSS )?，是指从全部特征中选取一个特征子集，使构造出来的模型更好。在机器学习的实际应用中，特征数量往往较多，其中可能存在不相关的特征，特征之间也可能存在相互依赖，容易导致如下的后果：?特征个数越多，分析特征、训练模型所需的时间就越长。?特征个数越多，容易引起“维度灾难”，模型也会越复杂，其推广能力会下降。特征选择能剔除不相关(irrelevant)或冗余(redundant )的特征，从而达到减少特征个数，提高模型精确度，减少运行时间的目的。另一方面，选取出真正相关的特征简化了模型，使研究人员易于理解数据产生的过程。过滤方法（Filter Approach）：使用某种独立于数据挖掘任务的方法，在数据挖掘算法运行之前进行特征选择，即先过滤特征集产生一个最有价值的特