文本分类及算法总结.docVIP

下载本文档

169
0
约3.97千字
约 9页
2018-11-16 发布于福建
举报
版权申诉

文本分类及算法总结.doc

1、本文档共9页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

文本分类及算法总结

文本分类及算法总结　　摘要：为了能在海量的文本中及时准确地获得有效的信息，文本分类技术受到了广泛的关注。该文概括地介绍了文本分类的一般分类过程，详细阐述文本表示、特征选取和权重的计算，并对几种典型文本分类算法的基本思想、优缺点等进行了讨论。　　关键词：文本分类；文本表示；向量空间模型；特征选择；权重；分类算法　　中图分类号：TP301文献标识码：A文章编号：1009-3044(2012) 04-0825-04 　　在当今的信息社会，各种形式的信息都得到了极大的丰富了我们的生活，尤其随着Internet的大规模普及，网络上的信息量在飞速增长当中，如各种电子文档、电子邮件和网页充满网络上，从而造成信息杂乱。为了快速、准确、全面地找到我们所需要的信息，文本分类成为了有效组织和管理文本数据重要方式，越来越受到广泛的关注。文本分类在信息检索、信息过滤、搜索引擎、文本数据库、数字化图书馆等领域得到广泛的应用。　　1文本分类的一般过程　　文本分类是一个有指导的学习过程，它根据一个已经被标注的训练文本集合，找到文本属性(特征)和文本类别之间的关系模型(分类器)，然后利用这种学习得到的关系模型对新的文本进行类别判[1]。文本分类的过程总体可划分为训练和分类两部分。训练的目的是通过新本和类别之间的联系构造分类模型，使其用于分类。分类过程是跟据训练结果对未知文本进行分类，给定类别标识的过程。具体流程图如图1：　　2文本预处理　　文本预处理是从文本中提取关键词来表示文本的处理过程，它的主要任务是进行中文分词和去停用词。不同于英文中词与词之间是靠空格隔开，中文文本的自然语言中词与词间没有明显的切分标志，所以首先要对文本进行分词处理。中文分词方法主要有基于字符串匹配的方法、基于理解的方法和基于统计的方法[2]。　　基于字符串匹配的分词方法是按照一定的策略将待分析的字符串与一个机器词典中的词条进行匹配，若从词典中找到某个字符串，则匹配成功。依据不同的扫描方向，可分为正向匹配和逆向匹配；依据不同长度优先匹配的情况，可分为最大匹配和最小匹配。　　基于理解的分词方法是通过让计算机仿照人对句子的理解方式，从而达到识别词的效果。其基本思想就是在分词的同时进行句法和语义分析，利用句法信息和语义信息来处理歧义现象。　　基于统计的分词方法是测试字与字相邻共现的频率，并把它作为成词的可信度评价标准。具体做法是先统计语料库中相邻共现的各个字的组合频度，计算它们的互信息。因为互信息体现了汉字之间结合关系的关联程度，当关联程度高于某一个阈值时，便认为这些字组可能构了一个词。　　目前歧义词和新词是中文分词面临的最大困难所在。前者要解决自然语言理解的问题，根据上下文环境，在不同切分结果中选择最优解：后者要解决词典中未收录词(如人名、地名、机构名等)的识别[2]。　　停用词通常指在各类文本中都频繁出现，因而被认为带有很少的有助于分类任何信息的代词、介词、连词等高频词。通过构造一个停用表，在特征提取过程中删除停用表中出现的特征词。　　3文本的表示　　4特征项的选择和特征权重　　通常原始特征空间维数非常高，且存在大量冗余的特征，因此需要进行特征降维。特征选择是特征降维中的其中一类，它的基本思路：根据某种评价函数独立地对每个原始特征项进行评分，然后按分值的高低排序，从中选取若干个分值最高的特征项，或者预先设定一个阈值，把度量值小于阈值特征过滤掉，剩下的候选特征作为结果的特征子集。　　文本分类中常用的特征选择方法有：文档频次、互信息量、信息增益、χ2统计量(CHI)等方法[6]。　　4.1文档频率(DF：Document Frequency) 　　文档频率指训练集中包含该特征的文本总数。所谓包含特征的文本是指这个特征在该文本中是否出现，而忽略其出现次数。采用文档频率基于如下假设：文档频率值低于某个阈值的词条是低频词，可认为它们不包含有类别信息（不具有分类的能力），将这样的词条从原始特征空间中除去，能够降低特征空间的维数从而提高分类精度。　　文档频率是最简单的特征选择技术，由于其具有相对于训练语集规模的线性计算复杂度，它能够容易地被用于大规模语料统计。但是在信息抽取研究中却通常认为DF值低的词条相对于DF值高的词条具有较多的信息量，将这些词条从特征空间中移除会降低分类器的准确率[5]。　　4.2信息增益(IG：Information Gain) 　　信息增益在机器学习领域被广泛使用，它通过特征词在文本中出现和不出现前后的信息量之差来推断该特征词所带的信息量。采用如下公式：　　距离越小，两篇文本的相关程度就越高，反之，相关程度越低。　　在Rocchio算法中，训练过程是为了生成所有类别的中心向量，而分类阶段