基于MapReduce的平均多项朴素贝叶斯文本分类.pdfVIP

  • 14
  • 0
  • 约1.49万字
  • 约 3页
  • 2017-07-04 发布于天津
  • 举报

基于MapReduce的平均多项朴素贝叶斯文本分类.pdf

基于MapReduce的平均多项朴素贝叶斯文本分类.pdf

第33卷第 1期 计 算 机 应 用 研 究 Vo1.33No.1 2016年 1月 ApplicationResearchofComputers Jan.2016 基于 MapReduce的平均多项朴素贝叶斯文本分类 何 敏,武德安,吴 磊 (电子科技大学数学科学学院,成都611731) 摘 要:针对海量文本分类问题进行了研究,基于分布式计算框架MapReduce平台,实现了一种简单、有效的文 本分类算法——平均多项朴素贝叶斯分类方法。实验中该方法分类准确率高于一般朴素贝叶斯方法,且具有较 好的加速比。实验结果表明,由于减小了文本冗余特征信息的影响与并行计算良好的扩展性,该方法更适用于 海量文本数据分类。 关键词:文本分类;朴素贝叶斯;并行计算;冗余特征;大数据 中图分类号:TP391.1 文献标志码:A 文章编号:1001-3695(2016)01—0115-03 doi:10.3969/j.issn.1001—3695.2016.01.027 AveragemuhinomialnaiveBayesiantextclassificationbasedonMapReduce HeMin,WuDean,WuLei (SchoolofMathematicalSciences,UniversityofElectronicScienceTechnologyofChina,Chengdu611731,China) Abstract:Thispaperstudiedhowtoclassifymassivetextdata.Basedonadistributedcomputing~ameworkofMapReduce, implementedasimpleandeffectivealgorithm:atextclassificationmethodOfaveragemultinomialNaiveBayes.Experiments showthatthismethod issuperiortothegeneralBayesianmethodon theclassification accuracy,hasgoodperformanceon speedupaswel1.Theresultsindicatethatitismoresuitableformassivetextdataclassificationduetoreducingtheimpactof redundancyfeaturesinformationandgoodscalabilityofpraallelcomputing. Keywords:textclassification;naiveBayes;parallelcomputing;redundancyfeatures;bigdata 近年来互联网的迅猛发展宣告了大数据时代的来临,而在 目前国内外对文本分类的并行计算研究尚处于发展阶段。 互联网知识呈现形式中,90%的信息是以文本的形式存在。如 文献[3]用网格计算进行文本挖掘,文献[4]结合期望最大化 何从海量的信息中快速、有效地提取出人们所需要的知识成为 (EM)和朴素贝叶斯用于大量未标记 的数据,Reynaldo在2007 机器学习中的热点研究课题。Jeffrey等人在 2004年提出了 年提出了近邻算法并行化 j。以上研究存在一定的局限性, MapReduce编程范式 ,该模型适用于处理大规模数据的并行 尤其缺乏泛化与实际应用能力,面对海量数据时优势并不明 计算,同时具有可扩展、容错强和高性能等特点。文本分类是 显。而在MapReduce框架模型下,由于其简化的编程模式,用 指给定预先定义的类别,将自然语言文本划分到该集合的某一 户不用了解分布式底层实现细节与机制

文档评论(0)

1亿VIP精品文档

相关文档