基于MapReduce的平均多项朴素贝叶斯文本分类.pdfVIP

下载本文档

14
0
约1.49万字
约 3页
2017-07-04 发布于天津
举报

基于MapReduce的平均多项朴素贝叶斯文本分类.pdf

第33卷第 1期计算机应用研究 Vo1．33No．1 2016年 1月 ApplicationResearchofComputers Jan．2016 基于 MapReduce的平均多项朴素贝叶斯文本分类何敏，武德安，吴磊 (电子科技大学数学科学学院，成都611731) 摘要：针对海量文本分类问题进行了研究，基于分布式计算框架MapReduce平台，实现了一种简单、有效的文本分类算法——平均多项朴素贝叶斯分类方法。实验中该方法分类准确率高于一般朴素贝叶斯方法，且具有较好的加速比。实验结果表明，由于减小了文本冗余特征信息的影响与并行计算良好的扩展性，该方法更适用于海量文本数据分类。关键词：文本分类；朴素贝叶斯；并行计算；冗余特征；大数据中图分类号：TP391．1 文献标志码：A 文章编号：1001-3695(2016)01—0115-03 doi：10．3969／j．issn．1001—3695．2016．01．027 AveragemuhinomialnaiveBayesiantextclassificationbasedonMapReduce HeMin，WuDean，WuLei (SchoolofMathematicalSciences，UniversityofElectronicScienceTechnologyofChina，Chengdu611731，China) Abstract：Thispaperstudiedhowtoclassifymassivetextdata．Basedonadistributedcomputing~ameworkofMapReduce， implementedasimpleandeffectivealgorithm：atextclassificationmethodOfaveragemultinomialNaiveBayes．Experiments showthatthismethod issuperiortothegeneralBayesianmethodon theclassification accuracy，hasgoodperformanceon speedupaswel1．Theresultsindicatethatitismoresuitableformassivetextdataclassificationduetoreducingtheimpactof redundancyfeaturesinformationandgoodscalabilityofpraallelcomputing． Keywords：textclassification；naiveBayes；parallelcomputing；redundancyfeatures；bigdata 近年来互联网的迅猛发展宣告了大数据时代的来临，而在目前国内外对文本分类的并行计算研究尚处于发展阶段。互联网知识呈现形式中，90％的信息是以文本的形式存在。如文献[3]用网格计算进行文本挖掘，文献[4]结合期望最大化何从海量的信息中快速、有效地提取出人们所需要的知识成为 (EM)和朴素贝叶斯用于大量未标记的数据，Reynaldo在2007 机器学习中的热点研究课题。Jeffrey等人在 2004年提出了年提出了近邻算法并行化 j。以上研究存在一定的局限性， MapReduce编程范式，该模型适用于处理大规模数据的并行尤其缺乏泛化与实际应用能力，面对海量数据时优势并不明计算，同时具有可扩展、容错强和高性能等特点。文本分类是显。而在MapReduce框架模型下，由于其简化的编程模式，用指给定预先定义的类别，将自然语言文本划分到该集合的某一户不用了解分布式底层实现细节与机制

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

基于MapReduce的平均多项朴素贝叶斯文本分类.pdfVIP