- 8
- 0
- 约1.94千字
- 约 18页
- 2016-11-10 发布于江苏
- 举报
暨南大学并行计算实验室MapReduce研究现状 专 业:计算机软件与理论 姓 名:周敏 丁光华 指导教师:周继鹏 教授 摘要 MapReduce研究 调试、监控等 优化、扩展等 常用API Hadoop改造 数据挖掘项目Redpoll Canopy, k-means Naive bayes, SVM 调试 标准输出,标准出错 Web显示(50030, 50060, 50070) NameNode,JobTracker, DataNode, TaskTracker日志 本地重现: Local Runner DistributedCache中放入调试代码 Profiling 监控 调优点(1) 调优点(2) 常用API Hadoop改造 Hadoop改造 大规模数据挖掘:Redpoll 前提:假定一个属性值对分类的影响独立于其他属性的值。(类条件独立) 朴素贝叶斯分类工作过程 每个数据样本用一个n维特征向量 表示,分别描述对n个属性 样本的n个度量 假设有m个类 。给定一个未知的数据样本X,分类法将预测具有最高后验概率(条件X下)的类。即是找最大化的 。根据贝叶斯定理有 P(X)对所有类为常数,最大化
原创力文档

文档评论(0)