- 12
- 0
- 约1.54万字
- 约 53页
- 2017-03-21 发布于湖北
- 举报
* 实验4 单表关联 设计思路: 把左表的parent列和右表的child列连接起来(这里的左表和右表是同一张表)。在连接得到的新表中把连接的两列(左表的parent列和右表的child列)删除就可以得到需要的结果,即grandchild-grandparent关系。 由于在MapReduce的工作过程中会将相同key值的value合并,因此,如果把Map阶段输出结果中的key设置成需要连接的列,那么列相等的value就会合并连接在一起。 * 实验5 多表关联 问题描述:和单表关联类似,也是对原始数据进行挖掘,找出用户所关心的数据,不同的是原始数据存放在多张表中。 例如:输入两个文件,一个文件表示工厂信息,文件中每行一个数据,内容包括工厂名称和工厂所在城市的编号;另一个文件表示地址信息,每行一个数据,内容包括城市编号和城市名称。 要求从输入数据中找出工厂和其所在城市名称之间的对应关系,输出文件中每一行数据包括两列,第一列是工厂名称,第二列是工厂所在城市的名称。 * 实验5 多表关联 设计思路: Map阶段对读入的每行数据进行分割,如果这行数据属于工厂信息表,那么把工厂所在城市的编号作为key,把工厂名称和标志参数1作为value,形成左表并输出;如果这行数据属于地址信息表,那么把工厂所在城市的编号作为key,把城市名称和标志参数2作为value,形成右表并输出。 在
原创力文档

文档评论(0)