20120828_判重串讲文档_WXF.docx

下载文档 降价啦

1
0
约1.07万字
约 18页
2018-01-18 发布于河南
举报
版权申诉
保障服务

20120828_判重串讲文档_WXF.docx

1、本文档共18页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

20120828_判重串讲文档_WXF

判重模块串讲文档一、判重模块简介1、判重问题的引入百度地图的POI（Point of Interest）数据有多个来源，不同的来源的数据存在重复问题、可信度问题，相同来源的数据也有可能重复，因此需要对不同来源的数据进行比较，将表达不同实际相同的POI数据标注出来，以提高检索效果和用户体验。附：百度线上数据来源（参考2011-03-15王小敏《纠错和用户贡献工作》.doc）四维：map基础数据，底图上显示的数据都是四维数据，以后会拓展底图的数据来源Mapbar：mapbar来源的数据，质量不好，更新严重滞后，正逐步被其他来源取代挖掘数据： baidu打点标注数据：标注系统提交的数据合作数据：和其他网站合作的数据公交数据：四维提供and百度抓取地铁数据：部分百度制作，部分四维采集DQ（沉淀数据）：机场、火车站、汽车站、售票点数据整合数据：由多种数据来源组成的数据BD（商圈数据）：百度自己制作的商圈类数据反馈数据：经过纠错系统修改的数据，认为优先级较高其他……图1百度地图数据（UGC：User Generated Content）（参考2012-08-15 王松《基于LBS需求的互联网数据挖掘》.pptx）2、判重模块的主要功能判别数据源中的POI是否重复（简称：判重），并对其进行分组，判别为同一组的POI构成一个判重组，每一个判重组将有一个组ID（判重ID）。二、判重模块和其他模块的关联关系后台数据Map前端输出用户query图2判重模块与其他模块的关系（自我发挥图，属被忽略模块的同学见谅）三、判重模块主要流程图图3判重整体流程图1、对判重数据进行分组：pc_map根据POI的地址（Addr）、核心词（Core）及位置（网格），对POI进行hash分组，减小后续判重程序的计算量。Input: 12个字段[1] guid：POI的ID号，每一个抓取到的POI都会分配一个独一无二的guid[2] uid：判重组id，指示该POI所属的判重组 [3] is_primary：意义不明[4] name：POI名称[5] city：POI所属的城市 [6] point_x：x坐标 [7] point_y：y坐标 [8] address：地址 [9] phone：电话 [10] src_type：来源 [11] sub_src：子来源 [12] catalog_id：类别idInput字段示例（注：字段以\t间隔，部分字段可能缺失）：120234848147947961918961559690北京华泰京晨科贸中心北京市129493694835475北京市海淀区中关村大街32号新中发电子市场b1019010nternetB326Output: HashID | xy_sum | grid | mode | input | pc_catalog[1] HashID的取值如下：current_city_id|core：核心词如有多个，会分别生成一个HashIDcurrent_city_id|road：Road如有多个，会分别生成一个HashIDgrid(x,y)： POI所属网格（网格尺寸为1000*1000）grid(x,y-1)：当前网格的正上方grid(x-1,y)：当前网格的左方grid(x-1,y-1)：当前网格的斜上方[2] xy_sum：x，y之和[3] grid：网格编号，后四种hash为网格模式，网格id分别为0,1,2,3[3] mode：增量判重与全量判重指示位，ip为增量判重，bn为全量判重[4] input：输入POI[5] pc_catalog：名称解析方式，通过POI的类别查表获取，默认为other2、对组内数据进行两两判重：pc_reducer经pc_map处理后的数据，可对其hashid进行排序，这样即可将HashID相同的POI聚到一起，然后利用pc_reducer对组内的POI进行两两判重Input: HashID | xy_sum | grid | mode | input | pc_catalogOutput：（注：输出因版本不同可能略有差异）[1] pc_id1：POI的ID号，每一个抓取到的POI都会分配一个独一无二的guid[2] pc_id2：判重组id，指示该POI所属的判重组 [3] pc_res：判重比较的结果[4] weight：两个poi的空间距离（利用xy坐标计算欧式距离）[5] city_id:group_id：POI所属的城市 | Hash分组ID[6] direction：判重比较的方向[7] title1：poi1的名称 [8] address1：poi1的地址 [9] cp1： poi1的来源[10] sub_cp1：poi1的