一个关注大数据治理中的数据的框架-IBM.pdf

一个关注大数据治理中的数据的框架-IBM.pdf

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
一个关注大数据治理中的数据的框架-IBM

一个关注大数据治理中的 “数据”的框架 英文原文: /2012/06/a-framework-that-focuses-on-the-data-in-big-data-governance/ 大数据类型、信息治理学科、行业和功能。 作者:Sunil Soares |发布日期:2012 年 6 月 13 日|评论次数:32 大数据治理是更广泛的信息治理计划的一部分,通过调整多个功能的目标制定与大数据优化、隐私和货币化相关的策略。然而,若不了 解基础数据类型,大数据治理则毫无意义。 图 1. 大数据治理的一个 3 维框架 图字:行业和功能、大数据类型、信息治理 本文提供一个大数据治理框架。如图 1 所示,该矿框架由 3 个维度构成: ? 大数据类型 大数据可分成 5 类:Web 和社交媒体、机器到机器(M2M)、大事务数据、生物识别和人为产生的。 ? 信息治理学科 信息治理传统学科 – 组织、元数据、隐私、数据质量、业务流程集成、主数据集成,以及信息生命周期管理 – 也适用于大数据。例如,传感器数据需要集成到一个预防性维护流程中。然而,如果不同机器上的传感器生成不一致的事件代码,就 很难简化维护流程。 ? 行业和功能 大数据分析是由特定于给定行业或功能的用例所驱动,比如市场营销、客户服务、信息安全或信息技术。 如上所述,大数据分为 5 类: 1. Web 和社交媒体数据 包括来自社交媒体的点击流和交互数据,比如 Facebook、Twitter 、LinkedIn 和博客。 2. 机器到机器数据 包括从传感器、测量仪以及属于所谓的 “物联网”的其他设备中读取的数据。 3. 大事务数据 包括医疗索赔、电信呼叫详细记录 (CDR )和以半结构化和结构化格式提供的越来越多的公用事业帐单记录。 4. 生物识别数据 包括指纹、基因、笔迹、视网膜扫描以及相似类型的数据。 5. 人为产生的数据 包括大量非结构化和半结构化数据,比如呼叫中心代理的笔记、录音、电子邮件、纸质文档、调查、电子医 疗记录。 大数据框架看起来有所不同,具体取决于行业和功能。 医疗保健供应商 解决方案: 病患监护 大数据类型:M2M 数据 学科: 数据质量、信息生命周期管理、隐私 在新生儿重症监护室,医院利用流线化分析技术监护新生儿的健康状况。使用这些技术,医院能够在任何症状出现前 24 小时预测尚未 发作的疾病。这些技术依赖于大量时间序列数据 – 但是,当病人移动时这类数据有时候会消失,这可能导致脱离和停止提供读数。在这 些情况下,流线化平台使用线性和多项式回归来使用历史读数填补时间序列数据空白。医院也为所有经软件算法修改过的时间序列数据 加上标记。如果发生诉讼或医疗调查案件,医院觉得必须同时生成原始读数和修改后的读数。另外,医院也围绕维护受保护健康信息制 定了政策。 解决方案: 基于电子医疗记录的预测性建模 大数据类型:人为产生的数据 学科: 数据质量 医院的分析部门构建了一个基于 150 个变量和 20,000 个接诊病人的预测性模型,以确定一个病人可能再次住院接受 30 天的充血性 心力衰竭治疗的可能性。在一个预测性模型有效性示例中,分析团队将病人吸烟状况确定为一个关键变量。起初,只有 25% 的关于吸 烟状况的结构化数据是以二元答案“是/不是”填充的。但是,分析团队通过使用基于电子医疗记录的内容分析将吸烟状态人口比率增加 到了接诊人数的 85% ,该电子医疗记录包含医嘱、出院摘要和病人体检 – 结果是分析团队通过使用非结构化资源提高了稀疏分步的结 构化数据的质量。 健康计划 解决方案: 索赔分析 大数据类型:大事务数据 学科: 数据质量 一个大型健康计划每年处理超过 5 亿个索赔,每个索赔记录由 600 到1,000 个属性组成。该计划使用预测分析来确定一小部分成员是 否需要采取某种预防措施。然而,业务智能团队发现内科医生使用不一致的程序代码来提交索赔申请,从而限制了预测分析的有效性。 业务智能团队还质疑索赔文件的内容。例如,该团队使用术语“慢性梗阻”和“血糖监控”来确定哪些成员可能分别是气喘和糖尿病疾 病管理计划的候选者。 公用事业 解决方案: 智能仪表 大数据类型:M2M 数据 学科: 隐私、信息生命

文档评论(0)

***** + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档