nteract数据探索器的设计理念和主要功能.docVIP

  • 15
  • 0
  • 约3.73千字
  • 约 13页
  • 2018-11-11 发布于江苏
  • 举报

nteract数据探索器的设计理念和主要功能.doc

nteract数据探索器的设计理念和主要功能

nteract数据探索器的设计理念和主要功能   我职业生涯的大部分时间花在设计和创建数据产品上——数据面板之类的分析应用,便于理解算法、数据集的数据可视化原型。相当一部分(但仍然不算多)时间花在开发一个名为Semionic的React数据可视化框架上,我的许多其他数据产品的图形部分使用了这个框架。   如果你只对nteract数据探索器的特性感兴趣,可以跳过下面几节,直接从如何使用数据探索器开始阅读。      基于Semiotic可视化TSNE数据集 by Susie Lu   数据可视化主要有两个领域:应用和工具。在数据可视化的语境下,工具是指诸如D3这样的软件库,或者Tableau这样的平台,这些可视化工具让你可以创建数据产品,比如面板或报告。然而,数据可视化还有一个我直到最近以前都没怎么接触过的领域:自动数据可视化。所以当我为nteract平台开发一个数据探索器的时候,我很兴奋,想看看自己能够给这一数据可视化的重要领域贡献点什么。   问题空间   插入一张表格或其他结构化的数据集,然后循环不同视图,这就是自动可视化。例如,插入一张表格,然后你可以查看它的柱形图或饼图,希望不同的视图可以揭示数据中隐藏的东西。   某种意义上,所有用于探索性数据分析的数据可视化都具备自动模式。Tableau之类的商业智能(BI)工具让你通过试验不同的视图设计面板和报告。ggplot2接受期望的数据结构,然后返回美观的默认图形,让你可以相对简单地循环视图。   以上工具和nteract数据探索器的区别在于,数据探索器并不是为最终生成报告或面板而设计的。相反,它仅仅提供一组图形,让你可以概览notebook中的数据。notebook用户有各种创建数据可视化最终产品的方法,他们知道想要呈现和强调什么。数据探索器无意在这方面参与竞争。   目标   以恰当的方式总结数据。不仅可以比较单独的行,还可以比较分组后的行,以突出分布和层级。   支持多样性的数据视图。例如,折线图和柱状图用来描绘不同行的数值测度很不错,但在可视化边列表时完全用不上。类似地,如果你需要查看大量数据点,你会希望能看到两个测度的相关性密度,而不是单个数据点的分布。   封装组件以便其他查询界面复用。比如,同样的可视化组件可以用于Netflix的内部SQL查询应用。   数据探索器使用了pandas实现的表格式数据资源表示法。这是一种简单的数据格式,其中包括:   列名和列类型(字符串、数字)   dataframe键   多种测度   表格式数据结构   另外,数据探索器设计时面向的数据规模是数百数据点,而不是数千乃至更多数据点。   为何基于Semiotic   碰巧我当时正开发这个基于数据模型的结构化视图和数据可视化方法的图表框架。和其他图标库不同,Semiotic没有(柱状图)或PieChart(饼图)这样的组件。相反,Semiotic使用frame表示不同数据结构共享的数据可视化方法。Semiotic包括三种frame:   ,用于柱状图、总结图、平行坐标图   ,用于散点图、折线图、hexbin图   ,用于力导向网络,桑基图、层次结构图   Semiotic的设计方式意味着实现多样性的图表相当容易。例如,不仅可以用来显示力导向网络,还可以用来显示许多不同的面向拓扑的图标,包括dendrogram、矩形树图、桑基图、circle packing。   如何使用数据探索器   我们将使用世界幸福感报告作为样本数据集。你可以在nteract亲自尝试,或者通过mybinder在线浏览(可能需要30秒加载notebook):   /user/nteract-examples-6lbp5cij/nteract/edit/python/happiness.ipynb   在notebook中进行以下配置以便使用数据探索器:   import pandas as pd   pd.options.display.html.table_schema = True   加载数据然后查看dataframe:   df = pd.read_csv(   ”/rgbkrk/a7984a8788a73e2afb8fd4b89c8ec6de/raw/db8d1db9f878ed448c3cac3eb3c9c0dc5e80891e/2015.csv”   )   df      如上图所示,dataframe右侧出现了一些图标,点击这些图标可以切换不同的数据可视化模式。      柱状图、总结图、散点图、hexbin、网络图、层次结构图、平行坐标图、折线图   柱状图   第一个模式是柱状图。每个柱形都可以交互。不过出于清晰考虑,只有数值最高的那些柱形是彩色的。通过Metric(测度)下拉菜单可

文档评论(0)

1亿VIP精品文档

相关文档