Initiate产品培训(算法部分).ppt

下载文档 降价啦

1
0
约5.88千字
约 34页
2017-05-15 发布于湖北
举报
版权申诉
保障服务

Initiate产品培训(算法部分).ppt

1、本文档共34页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

Initiate产品培训(算法部分)

批量对比running a Bulk cross match Running a Bulk Cross Match Running a Bulk Cross Match是对Deriving Data后生成的数据进行批量匹配从而生成Entity的过程阈值分析Analyzing Thresholds and Matched Pairs Thresholds Thresholds是阈值，是对Initiate中Member匹配所得分数总体分布的划分，Initiate会根据Thresholds所划分的不同区域采取不同的处理 Auto-Link(AL) Threshold Clerical Review(CR) Threshold LINK IGNORE False Positives与False Negatives False Positives：不应该被link在一起的Member被错误地link在一起 (提高AL有助于减少False Positives) False Negatives：应该被link在一起的Member却被系统忽略 (降低CR有助于减少False Negatives) False Negative False Positive Buckets、Entities分析Analyzing Buckets and Entities Buckets Analysis Overview Member Bucket Values Buckets、Entities分析 * ? 2011 IBM Corporation IBM? Initiate? 产品培训 ?2009 Initiate Systems, Inc. * * ? 2011 IBM Corporation Information Management * ? 2011 IBM Corporation IBM? Initiate? 产品培训 ?2010 Initiate, an IBM Company ?2009 Initiate Systems, Inc. IBM? Initiate? 产品培训 Version 10.0 日程安排第一天: 介绍产品概念及相关术语产品的安装及配置数据模型的介绍及相关配置第二天: 算法介绍算法配置及部署第三天: 数据清洗(Clover ETL) 数据装载 / 生成权重 / 批量比对 Thresholds, Buckets and Entities分析第四天: 安全管理介绍(LDAP view) 配置/部署/使用 Inspector 中文算法介绍第五天: 案例实施算法介绍Configuring the Algorithm Algorithm DATA Algorithm是一系列对Member进行匹配分析从而得到相似度评分的处理流程将原始数据转换成成更加易于匹配的格式 (512) 634-5144 ? 根据数据相应的属性值进行归类，从而对搜索与匹配进行优化 ? 1344456 匹配数据 ? 6345144 vs. 6345414 6345144 = 3.9 Algorithm包括： Standardization Function Bucketing Function Comparison Function Algorithm何时会被触发？当执行查询操作时当Member的数据被添加时当Member的数据被更新时当执行Derive Data操作时当执行Bulk Cross Match操作时 Algorithm Standardization可以做什么？大小写转换：Karen Jones ? KAREN JONES 值截取：(010) 8321-1212 ?删除“匿名值(Anonymous Value)”：删除电话号码000-0000000 校验数据长度：校验身份证号的长度校验数据格式：校验e-mail地址中是否包含“@” 对等价值(Equivalent Value)进行转换：若Jimmy是James的昵称，则Jimmy ? James Standardization Standardization是减少数据之间差异性、使数据更易于匹配的处理过程，其并不会对原始数据进行修改经过Standardization后的数据是什么样子的？ “^”用来分隔不同的属性 “:”用来分隔同一属性中的不同Token “~”用来分隔同一属性中的多个值 Standardization Compare Value (cmpval) 常用的Standardization Funct