MapReduce框架下贝叶斯文本分类学习研究.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
摘要 文本分类是信息检索与文本挖掘的重要基础。目前,虽然很多文本分类算 法都成功地应用在各个领域,但单一文本分类算法容易导致构造的分类器分类 性能差、泛化能力弱。集成学习算法利用多个单分类器之间的差异,有效地改 善了分类器的性能和泛化能力。然而,随着网络数据规模的急剧增长,传统的 集中式系统框架难以满足集成学习和海量文本数据分析处理要求的存储空间和 计算能力。并行计算的出现使大规模文本数据集的集成分类学习成为可能。 题,为程序员设计及编写并行程序提供了简易的编程框架。 类器的训练和测试部分。在Hadoop分布式平台上的实验表明该算法构造的分类 器具有高数据容量、高效性和高性能的特点。进而通过对集成文本学习算法进 文本分类器。该分类器的训练首先用随机属性选择构建训练子集的方法破坏了 基分类器对训练子集进行学习,并行地产生多个基分类器。分类器的测试包括 利用各个基分类器并行产生中间结果和对中间结果进行不加权投票得出最终结 果两个步骤。实验结果表明该算法适用于大规模文本数据集的分类学习,同时 具有高效性、准确性、高可靠性和易扩展性的优点。 【关键词】文本分类集成学习 1 Abstract Textclassificationisan foundationforinformationretrievalandtext important mining.At thevarioustextclassificationhavebeen ineach present,although algorithms appliedsuccessfully of oneofthemis liabletoleadto domain,thesolelyusage and merely extremely poorperformance ofconstructedclassifiers.At pan。capacity suchacritical uses time,integratedlearningalgorithm the distinctionsbetweenthenumerous the singleclassifiers,effectivelyimproved and ofthe the incrementof performancegeneralizationability classifiers.However,with rapid network with richnessof seems difficultfor data,togethergradual applicationtypes,it typically traditionalframeworkof tomeetthe system demandsofmassivedata and learning.Therefore,theMapReduce modelof abstractionof

文档评论(0)

llllss930 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档