20120828_判重串讲文档_WXF.docx

  1. 1、本文档共18页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
20120828_判重串讲文档_WXF

判重模块串讲文档一、判重模块简介1、判重问题的引入百度地图的POI(Point of Interest)数据有多个来源,不同的来源的数据存在重复问题、可信度问题,相同来源的数据也有可能重复,因此需要对不同来源的数据进行比较,将表达不同实际相同的POI数据标注出来,以提高检索效果和用户体验。附:百度线上数据来源(参考2011-03-15王小敏 《纠错和用户贡献工作》.doc)四维:map基础数据,底图上显示的数据都是四维数据,以后会拓展底图的数据来源Mapbar:mapbar来源的数据,质量不好,更新严重滞后,正逐步被其他来源取代挖掘数据: baidu打点标注数据:标注系统提交的数据合作数据:和其他网站合作的数据公交数据:四维提供and百度抓取地铁数据:部分百度制作,部分四维采集DQ(沉淀数据):机场、火车站、汽车站、售票点数据整合数据:由多种数据来源组成的数据BD(商圈数据):百度自己制作的商圈类数据反馈数据:经过纠错系统修改的数据,认为优先级较高其他……图1百度地图数据(UGC:User Generated Content)(参考2012-08-15 王松《基于LBS需求的互联网数据挖掘》.pptx)2、判重模块的主要功能判别数据源中的POI是否重复(简称:判重),并对其进行分组,判别为同一组的POI构成一个判重组,每一个判重组将有一个组ID(判重ID)。二、判重模块和其他模块的关联关系后台数据Map前端输出用户query图2判重模块与其他模块的关系(自我发挥图,属被忽略模块的同学见谅)三、判重模块主要流程图图3判重整体流程图1、对判重数据进行分组:pc_map根据POI的地址(Addr)、核心词(Core)及位置(网格),对POI进行hash分组,减小后续判重程序的计算量。Input: 12个字段[1] guid:POI的ID号,每一个抓取到的POI都会分配一个独一无二的guid[2] uid:判重组id,指示该POI所属的判重组 [3] is_primary:意义不明[4] name:POI名称[5] city:POI所属的城市 [6] point_x:x坐标 [7] point_y:y坐标 [8] address:地址 [9] phone: 电话 [10] src_type:来源 [11] sub_src: 子来源 [12] catalog_id:类别idInput字段示例(注:字段以\t间隔,部分字段可能缺失):120234848147947961918961559690北京华泰京晨科贸中心北京市129493694835475北京市海淀区中关村大街32号新中发电子市场b1019010nternetB326Output: HashID | xy_sum | grid | mode | input | pc_catalog[1] HashID的取值如下:current_city_id|core:核心词如有多个,会分别生成一个HashIDcurrent_city_id|road:Road如有多个,会分别生成一个HashIDgrid(x,y): POI所属网格(网格尺寸为1000*1000)grid(x,y-1): 当前网格的正上方grid(x-1,y): 当前网格的左方grid(x-1,y-1):当前网格的斜上方[2] xy_sum:x,y之和[3] grid: 网格编号,后四种hash为网格模式,网格id分别为0,1,2,3[3] mode: 增量判重与全量判重指示位,ip为增量判重,bn为全量判重[4] input:输入POI[5] pc_catalog:名称解析方式,通过POI的类别查表获取,默认为other2、对组内数据进行两两判重:pc_reducer经pc_map处理后的数据,可对其hashid进行排序,这样即可将HashID相同的POI聚到一起,然后利用pc_reducer对组内的POI进行两两判重Input: HashID | xy_sum | grid | mode | input | pc_catalogOutput:(注:输出因版本不同可能略有差异)[1] pc_id1:POI的ID号,每一个抓取到的POI都会分配一个独一无二的guid[2] pc_id2:判重组id,指示该POI所属的判重组 [3] pc_res:判重比较的结果[4] weight:两个poi的空间距离(利用xy坐标计算欧式距离)[5] city_id:group_id:POI所属的城市 | Hash分组ID[6] direction:判重比较的方向[7] title1:poi1的名称 [8] address1:poi1的地址 [9] cp1: poi1的来源[10] sub_cp1:poi1的

文档评论(0)

xcs88858 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:8130065136000003

1亿VIP精品文档

相关文档