数据挖掘-文本分类实验概念.doc

下载文档 降价啦

6
0
约5.91千字
约 11页
2017-09-06 发布于湖北
举报
版权申诉
保障服务

数据挖掘-文本分类实验概念.doc

1、本文档共11页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

北京邮电大学 2015-2016学年第1学期实验报告课程名称：数据仓库与数据挖掘实验名称：文本的分类实验完成人：姓名：学号：日期： 2015年 12月实验一：文本的分类实验目的实验实验环境Windows平台，使用eclipse开发。主要设计思想实验工具介绍E:\DataMiningSample\docVector下的allDicWordCountMap.txt文档中。最终的特征向量表达方式为：文档类别标识_单词词频。如：alt.atheism_abstact 1.0。其中alt.atheism为此文本所属的类别，abstact为对应的单词，1.0为该单词的词频数。分类算法的选择本次实验使用的是朴素贝叶斯分类算法，朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。朴素贝叶斯分类器基于一个简单的假定：给定目标值时属性之间相互条件独立。即：朴素贝叶斯模型：属于V集合，其中Vmap是给定一个example得到的最可能的目标值，a1…an是这个example里面的属性。这里面，Vmap目标值就是后面计算得出的概率最大的一个，所以用max来表示。贝叶斯公式应用到中可得到，又因为朴素贝叶斯分类器默认a1…an他们互相独立，所以对于结果没有用处。因为所有的概率都要出同一个东西之后再比较大小，对最后结果没有影响。可得到。尽管是带着这些朴素思想和过于简单化的假设，但朴素贝叶斯分类器在很多复杂的现实情形中仍能够取得相当好的效果。2004年，一篇分析贝叶斯分类器问题的文章揭示了朴素贝叶斯分类器取得看上去不可思议的分类效果的若干理论上的原因。尽管如此，2006年有一篇文章详细比较了各种分类方法，发现更新的方法（如boosted trees和随机森林）的性能超过了贝叶斯分类器。朴素贝叶斯分类器的一个优势在于只需要根据少量的训练数据估计出必要的参数（变量的均值和方差）。由于变量独立假设，只需要估计各个变量的方法，而不需要确定整个协方差矩阵。实验过程文本分类语料库的采集本实验的语料库是下载网上现成的英文文本语料库的，该语料库的类别有20类，分别为：alt.atheism，comp.graphics，comp.os.ms-windows.misc，comp.sys.ibm.pc.hardware，comp.sys.mac.hardware，comp.windows.x，misc.forsale，rec.autos，rec.motorcycles，rec.sport.baseball，rec.sport.hockey，sci.crypt，sci.electronics，sci.med，sci.space，soc.religion.christian，talk.politics.guns，talk.politics.mideast，talk.politics.misc，talk.religion.misc，其中每个分类有九千多文档，整个语料库有1万8千多文件。现在需要将这1万8千多文件分配成训练集和测试集，为了排除人为因素的干扰，和便于操作的效果，我编写了一个TextClassificationofRandom类来实现将语料库中20个分类都随机均分成训练集和测试集，这样我们就形成了训练集和测试集的数据。在后期实验过程中，通过多次随机生成训练集和测试集来进行实验，获得更详细精确的数据。详细步骤和结果见后面分析。数据预处理（1）对所有英文文件进行英文词法分析，去除数字、连字符、标点符号、特殊字符，所有大写字母转换成小写字母，实现方法是通过正则表达式： String res[] = line.split([^a-zA-Z]); （2）接着去停用词，过滤对分类无价值的词。结果保存在源文件对应文件.out里面。（3）第三步是找词根，将词根还原，并分别将每一类的所有文件的单词进行汇总，同时记录每个单词的词频，最终得到源文件对应文件.outstemed里面。特征提取和表达首先我先解释一下CHI特征提取公式的意义： CHI特征提取：在此公式中，变量的含义如下所示： N: 所有文档的数目 A：在该分类下，包含此单词的文档数量 B: 不在该分类下，包含此单词的文档数量 C: 在该分类下，不包含此单词的文档数量 D: 不在该分类下，不包含此单词的文档数量由于最后，只需要根据CHI的卡方值进行排序，为了简化运算，对公式做了简单的简化处理：简化后的计算方法为：，因为在排序的步骤中，N，（A+C）,(B+D)都不会对最后的排序造成影响，所以这样的简化处理是合理的。计算每个单词的CHI值