Extracting-Databases-from-Dark-Data-with-DeepDive-文章讨论.docxVIP

  • 5
  • 0
  • 约7.01千字
  • 约 7页
  • 2018-06-28 发布于福建
  • 举报

Extracting-Databases-from-Dark-Data-with-DeepDive-文章讨论.docx

Extracting Databases from Dark Data with DeepDive一.文章的核心讨论概述将题目翻译成中文来看,本文题目为“使用DeepDive从DarkData中提取数据库”,所谓DarkData即为黑暗数据,就是那些针对单一目标而收集的数据,通常用过之后就被归档闲置,其真正价值未能被充分挖掘。如果黑暗数据用在恰当的地方,那么很多领域的发展将会得到很大程度的提高。DeepDiv是从黑暗数据中提取关系数据库的系统:当前网络上大量的文本,表格和图像能被广泛收集和存储,但是却不能被标准的关系工具所利用。如果黑暗数据(科学论文,网页分类广告,客户服务笔记等)中的信息是在一个关系数据库中,那么它将给数据分析师们提供一个数据量庞大的有很大分析价值的新的一组大数据。与以前的信息提取系统相比,DeepDive具有以更合理更低廉的工程成本获得非常高的精度和召回的能力;在许多应用程序中,我们已经使用DeepDive创建数据库,其精度可满足人们对于精度的要求。迄今为止,我们已经成功部署了DeepDive,为保险,材料科学,基因组学,古生物学家,执法机构等开发了以数据为中心的应用程序。DeepDive提取的数据为各行各业的工作者,政府部门和科学研究机构提供了巨大的机会。DeepDive是通过将大规模概率推理与新型开发人员交互循环相结合的设计实现的。而这种设计是通过围绕概率训练和推理的几项核心创新实现的。二.文章的具体内容介绍DeepDive是一种从非结构化黑暗数据中提取结构化数据的系统。假设我们现在考虑一套关于保险索赔或科学论文或互联网分类广告的文字说明;这些不同来源的信息都是很有价值的,但是原则上它们也应该适用于关系工具的分析。目前,一些组织能够完成支付收集和维护黑暗数据的花费,但是暂时仍然没有能很好地利用它。DeepDive可获取黑暗数据,并增加了可与标准数据管理工具(例如OLAP查询处理器和可视化软件Tableau)以及分析工具(如R或Excel)一起使用的关系数据库。黑暗数据通常保存了任何以其他格式不可用的信息。例如,保险公司的索赔说明类似于一个单一索赔的小型博客,其中包含了许多不同的个人撰写的信息。他们包含了客户的服务代表笔记,治疗索赔人的医生账单,汽车维修店的报告等。简单的声明可能有一个单一的文字说明,但更复杂的索赔可能有数百个。如果此信息位于关系数据库而不是文本中,则可以使用简单的SQL查询来回答一系列有用的问题,其中包括:·哪些医生负责最多的索赔?·损伤类型的分布是否随时间而变化?·某些检查员是否会产生比其他工作者更大的索赔?因为一个任务分析结果的成功与否往往受到可用数据的限制,所以在分析时嵌入黑暗数据的信息将会是非常有价值的。在某些情况下,数据本身都是非常有价值的,一些机构可能会雇佣工人阅读文件并手动填写录入关系数据库。然而,这种做法是异常昂贵的,除了要像这些高素质工人支付高昂的薪水外,工作的效率将会很低,工作的结果也会经常出错。相比较于人工在这项工作中的各项缺点,DeepDive就有着很高的工作效率。DeepDive可以从黑暗数据中提取结构化数据库,并且比人工的速度快得多。在20世纪90年代初,信息提取一直是一个较为复杂且吸引学术工作者的学术调查领域。DeepDive是独特的,因为它能够以合理数量的人类工程技术获取到具有极高精度的数据库。在当前人类社会中的多个领域中,DeepDive都已经能够以精确的方式获得满足人们需求的数据。DeepDive的高质量是及其可行的,因为基于概率推理和专门的工程开发周期的独特设计;它们受到若干技术创新的支撑,用于高效的统计培训和抽样。DeepDive是一个自2011年以来一直在开发的开源项目。作者已经使用它获取到了包括基因组学,保险,网页分类广告,材料科学,古生物学等在内的多个不同领域的高质量信息。作者认为,创造和利用黑暗数据获取到的的信息(如今常常分部在快速增长的庞大数据量中)代表了学术界,行业界和政府的巨大发展潜力。作者已经将这些提取到的数据集中的许多信息部署到了特定领域的用户,并且已经通过这些实践获取到了许多高质量的结果。在本文中,我们将讨论DeepDive软件架构的核心要素,以及DeepDive驱动的一些应用,这些应用程序来自学术和工业领域。DeepDive的许多主要算法和技术组件以前已经被记录过;本文首先要全面了解将技术要素与整体相结合的软件。本文中一共分为DeepDive的设计目标,DeepDive的软件架构,对实现DeepDive的软件架构所需的技术组件的简要概述,DeepDive的开发周期,深入启用相关应用程序的概述,相关工作和对未来的讨论等几个部分具体展开对DeepDive的介绍。图1:典型的DeepDive用户交互周期。知识广博的工程师运行Deep

文档评论(0)

1亿VIP精品文档

相关文档