基于MapReduce的Knn连接方法 ----谢荣东论文观点展示 Knn连接 即K最近邻(kNN,k-NearestNeighbor)连接 解决的问题:找出一个样本在特征空间中的k个最相邻的样本,根据其中的大多数属于某一个类别,来判断该样本也属于这个类别,并具有这个类别上样本的特性。 不足之处:计算量较大,因为对每一个待分类的文本都要计算它到全体已知样本的距离,才能求得它的K个最近邻点。 H-BNLJ(Hadoop Block Nested Loop Join)的方法 简介:是一种直接的局部暴力解决KNN连接的算法,它利用MapReduce的循环嵌套算法。 基本思想:把待连接的两个集合R和S分割成大小相等的n块,这里可以通过线性扫描的方法来进行,每个块中分别包含有|R|/n(或|S|/n)个元素。然后,在Map阶段,每个连接块包含一个来自于R的分割块一个来自于S的分割块(也就是总共有n2个连接块)。在Reduce阶段,采用了n2个reduce来处理每个mapper生成的中间结果。每个reduce在本地嵌套执行局部R和S的Knn连接,也就是,对每个局部块中的S通过嵌套循环找到在局部快中的R的knn。所有来自reduce的结果写入(n2)DFS文件再进行排序。 H-BNLJ的问题 本质上是暴力解法 未采用索引,当数据量大时,不能有效从外存(DFS)数据加载到内存中 DSGMR-J(
您可能关注的文档
最近下载
- 2025年智造新引擎:精益数智化与化工行业新质生产力发展白皮书.pdf VIP
- Unit7ArtLesson2BeijingOpera课件高中英语北师大版(2019)必修第三册.pptx VIP
- 科研论文的写作.ppt VIP
- 某连锁药店年度培训计划表.pdf VIP
- 高中数学“问题链”教学策略对学生数学学习兴趣的激发研究教学研究课题报告.docx
- DB32/T 4416-2022《高延性纤维增强水泥基复合材料加固砌体结构应用技术规程》.docx VIP
- 2026年江苏事业单位统考笔试真题及答案.docx VIP
- 《加强基层应急管理体系和能力建设 推进治理体系和治理能力现代化》课件.pptx
- 工业园区消防评估方案及技术措施.pdf VIP
- 蓝鲲海洋生物科技(烟台)有限公司生物活性肽提取生产线环评报告表.docx VIP
原创力文档

文档评论(0)