原文链接: http://vis.pku.edu.cn/blog/chi2022-ditl/
在做数据分析时,研究者需要对数据进行变换、聚类或者过滤等操作来使得数据满足分析任务的需求。在这个过程中,不仅处理数据的代码会发生变化,数据本身也会发生变化。然而已有工具都是追踪处理过程中代码的变化,不能够告诉用户经过这些代码处理后,数据如何发生变化。这篇论文设计了一个工具,支持数据探索分析中对数据变化的追踪。
如图1,左侧代码是关于汽车数据集的处理,高亮的代码对于原始数据进行了过滤,过滤后的数据只包含气缸数大于4的数据项。过滤后的数据发生了哪些变化?研究者需要写额外的代码来将一些感兴趣的信息绘制出来,然后对于过滤前后的数据进行比较。如图1右侧的直方图分别显示了过滤前后的数据集在“马力”维度上的分布情况。
图1 数据处理中添加了一些操作后,数据的分布会发生变化
为了支持用户对于数据操作前后更方便的比较,这篇论文设计了一个工具DITL (Diff in the loop)。如图2为DITL的界面,视图A记录了用户对于代码的编辑历史,用户可以查看不同时间、不同用户的修改,修改的代码在代码编辑器中会高亮出来。然后,用户可以选择某些数据表进行比较。首先对于一个数据表,系统会通过直方图的形式展现数据表中每个维度的分布情况,列出该维度的一些统计信息。为了比较两个数据表中某个维度分布的差异,作者使用了三种常见的比较方法,包括计算差异(C),重合(D),并列(E)。
图2 DITL系统界面
为了对系统进行评估,作者招募了16位数据科学家,分别在使用DITL和不使用两种情况下,完成两个数据分析任务,然后通过问卷获取用户的反馈。
图3 用户问卷调研结果
从图3可以看出,用户确实存在数据探索过程中比较数据表的需求。通过DITL,用户可以更方便的对数据表进行比较,更容易从数据中得到一些发现。
总的来说,这篇论文提出了一个支持在探索数据过程中对数据表进行比较的工具。然而论文中并没有对于需要支持的任务进行足够的讨论,只比较了数据表中维度分布的差异。同时对于采用的可视化形式,也缺乏足够的讨论。该工具只支持对于数据的比较,还不能支持比较可视化图表的差异。
参考文献:
April Yi Wang, Will Epperson, Robert A. DeLine, Steven Mark Drucker. Diff in the Loop: Supporting Data Comparison in Exploratory Data Analysis. CHI 2022: 97:1-97:10
本文转自: http://vis.pku.edu.cn/blog/chi2022-ditl/
本站仅做收录,版权归原作者所有。