Initiate产品培训(算法部分).ppt

  1. 1、本文档共34页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Initiate产品培训(算法部分)

批量对比 running a Bulk cross match Running a Bulk Cross Match Running a Bulk Cross Match是对Deriving Data后生成的数据进行批量匹配从而生成Entity的过程 阈值分析 Analyzing Thresholds and Matched Pairs Thresholds Thresholds是阈值,是对Initiate中Member匹配所得分数总体分布的划分,Initiate会根据Thresholds所划分的不同区域采取不同的处理 Auto-Link (AL) Threshold Clerical Review (CR) Threshold LINK IGNORE False Positives与False Negatives False Positives:不应该被link在一起的Member被错误地link在一起 (提高AL有助于减少False Positives) False Negatives:应该被link在一起的Member却被系统忽略 (降低CR有助于减少False Negatives) False Negative False Positive Buckets、Entities分析 Analyzing Buckets and Entities Buckets Analysis Overview Member Bucket Values Buckets、Entities分析 * ? 2011 IBM Corporation IBM? Initiate? 产品培训 ?2009 Initiate Systems, Inc. * * ? 2011 IBM Corporation Information Management * ? 2011 IBM Corporation IBM? Initiate? 产品培训 ?2010 Initiate, an IBM Company ?2009 Initiate Systems, Inc. IBM? Initiate? 产品培训 Version 10.0 日程安排 第一天: 介绍产品概念及相关术语 产品的安装及配置 数据模型的介绍及相关配置 第二天: 算法介绍 算法配置及部署 第三天: 数据清洗(Clover ETL) 数据装载 / 生成权重 / 批量比对 Thresholds, Buckets and Entities分析 第四天: 安全管理介绍(LDAP view) 配置/部署/使用 Inspector 中文算法介绍 第五天: 案例实施 算法介绍 Configuring the Algorithm Algorithm DATA Algorithm是一系列对Member进行匹配分析从而得到相似度评分的处理流程 将原始数据转换成成更加易于匹配的格式 (512) 634-5144 ? 根据数据相应的属性值进行归类,从而对搜索与匹配进行优化 ? 1344456 匹配数据 ? 6345144 vs. 6345414 6345144 = 3.9 Algorithm包括: Standardization Function Bucketing Function Comparison Function Algorithm何时会被触发? 当执行查询操作时 当Member的数据被添加时 当Member的数据被更新时 当执行Derive Data操作时 当执行Bulk Cross Match操作时 Algorithm Standardization可以做什么? 大小写转换:Karen Jones ? KAREN JONES 值截取:(010) 8321-1212 ?删除“匿名值(Anonymous Value)”:删除电话号码000-0000000 校验数据长度:校验身份证号的长度 校验数据格式:校验e-mail地址中是否包含“@” 对等价值(Equivalent Value)进行转换:若Jimmy是James的昵称,则Jimmy ? James Standardization Standardization是减少数据之间差异性、使数据更易于匹配的处理过程,其并不会对原始数据进行修改 经过Standardization后的数据是什么样子的? “^”用来分隔不同的属性 “:”用来分隔同一属性中的不同Token “~”用来分隔同一属性中的多个值 Standardization Compare Value (cmpval) 常用的Standardization Funct

文档评论(0)

过各自的生活 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档