- 1、本文档共34页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Initiate产品培训(算法部分)
批量对比running a Bulk cross match Running a Bulk Cross Match Running a Bulk Cross Match是对Deriving Data后生成的数据进行批量匹配从而生成Entity的过程 阈值分析Analyzing Thresholds and Matched Pairs Thresholds Thresholds是阈值,是对Initiate中Member匹配所得分数总体分布的划分,Initiate会根据Thresholds所划分的不同区域采取不同的处理 Auto-Link(AL) Threshold Clerical Review(CR) Threshold LINK IGNORE False Positives与False Negatives False Positives:不应该被link在一起的Member被错误地link在一起 (提高AL有助于减少False Positives) False Negatives:应该被link在一起的Member却被系统忽略 (降低CR有助于减少False Negatives) False Negative False Positive Buckets、Entities分析Analyzing Buckets and Entities Buckets Analysis Overview Member Bucket Values Buckets、Entities分析 * ? 2011 IBM Corporation IBM? Initiate? 产品培训 ?2009 Initiate Systems, Inc. * * ? 2011 IBM Corporation Information Management * ? 2011 IBM Corporation IBM? Initiate? 产品培训 ?2010 Initiate, an IBM Company ?2009 Initiate Systems, Inc. IBM? Initiate? 产品培训 Version 10.0 日程安排 第一天: 介绍产品概念及相关术语 产品的安装及配置 数据模型的介绍及相关配置 第二天: 算法介绍 算法配置及部署 第三天: 数据清洗(Clover ETL) 数据装载 / 生成权重 / 批量比对 Thresholds, Buckets and Entities分析 第四天: 安全管理介绍(LDAP view) 配置/部署/使用 Inspector 中文算法介绍 第五天: 案例实施 算法介绍Configuring the Algorithm Algorithm DATA Algorithm是一系列对Member进行匹配分析从而得到相似度评分的处理流程 将原始数据转换成成更加易于匹配的格式 (512) 634-5144 ? 根据数据相应的属性值进行归类,从而对搜索与匹配进行优化 ? 1344456 匹配数据 ? 6345144 vs. 6345414 6345144 = 3.9 Algorithm包括: Standardization Function Bucketing Function Comparison Function Algorithm何时会被触发? 当执行查询操作时 当Member的数据被添加时 当Member的数据被更新时 当执行Derive Data操作时 当执行Bulk Cross Match操作时 Algorithm Standardization可以做什么? 大小写转换:Karen Jones ? KAREN JONES 值截取:(010) 8321-1212 ?删除“匿名值(Anonymous Value)”:删除电话号码000-0000000 校验数据长度:校验身份证号的长度 校验数据格式:校验e-mail地址中是否包含“@” 对等价值(Equivalent Value)进行转换:若Jimmy是James的昵称,则Jimmy ? James Standardization Standardization是减少数据之间差异性、使数据更易于匹配的处理过程,其并不会对原始数据进行修改 经过Standardization后的数据是什么样子的? “^”用来分隔不同的属性 “:”用来分隔同一属性中的不同Token “~”用来分隔同一属性中的多个值 Standardization Compare Value (cmpval) 常用的Standardization Funct
您可能关注的文档
- GC总论final.ppt
- GemSafe——.ppt
- GB特殊作业安全规范课件.ppt
- Gene-for-Gene_Theory.ppt
- GDNA是主要的遗传物质.ppt
- GHS全球化学品统一分类和标签系统.ppt
- GINA2012概述及更新.pptx
- GIS技术.ppt
- GG微小世界和我们.ppt
- GC管道朝源.ppt
- 计及电动汽车移动储能动态电价的微电网优化调度研究及解决方案.pdf
- 浅谈电动汽车充电桩绝缘智能化自检装置的设计与应用 .pdf
- 浅谈电动汽车公共充电桩布局方案评价方法.pdf
- 浅谈基于弹性响应的电动汽车快充电价定价策略 汽车充电桩有序充电.pdf
- 浅谈光储充一体化社区的有序充电策略及解决方案.pdf
- 晚期肾透明细胞癌系统性治疗中国专家共识(2024版).pptx
- 中国膀胱癌保膀胱治疗多学科诊治协作共识(2022版).pptx
- 成人心血管外科手术体外循环患者血液管理指南.pptx
- 下尿路修复重建移植物应用规范中国专家共识.pptx
- 中国儿童急性非静脉曲张性上消化道出血诊治指南(2024).pptx
最近下载
- 餐饮食品安全总监和食品安全管理员必备知识考试题库含答案.docx
- 2024年统编版七年级上册语文字词注音及解释汇总.pdf VIP
- 仁爱九年级英语现在完成时练习及答案.doc VIP
- 高一学业水平合格性考试备考计划.pdf VIP
- Unit 1 You and Me Section A How do you greet people 课件 人教版(2024)英语七年级上册.ppt
- Starter Unit 1 Section B How do you start a conversation 课件 人教版(2024)英语七年级上册.ppt
- 最新仁爱九年级英语现在完成时练习及答案.doc VIP
- 个人血糖检测记录表.docx
- 1例低血糖昏迷的护理查房.pptx
- 海康硬盘录像机简易操作说明书.docx
文档评论(0)