原文链接: http://vis.pku.edu.cn/blog/computableviz/
随着可视化创作工具的可用性和大众化程度的提高,大量的可视化已经产生并在网络上共享。在可视化生成和数字化之后,探索用于处理和分析可视化的技术的研究兴趣日益浓厚。例如,研究人员已经开始研究可视化上的风格迁移和基于示例的检索的问题。在这种趋势下,新的想法和问题不断涌现,因此有必要提炼出这些研究工作的整体框架,以便于未来工作的开展。在此背景下,来自香港科技大学等三所学校的伍翱宇等研究者提出可计算的可视化[1],为可视化的处理和分析提供一个基于数学运算符的统一框架。
可视化操作的设计空间包含操作对象和操作类型两个维度。
该框架的设计空间包含两个维度,分别是操作对象和操作类型。操作对象是基本的可视化原语(primitive),分为数据相关和风格相关。可视化原语参考的是Vega-Lite语言。它的规范由视图规范、数据、数据变换、视觉标记、编码、视图组合、参数和配置组成。作者进一步将它们分为数据(包括数据和转换)和样式(包括标记、编码等)。 操作类型包括基本操作(作用于两个可视化)和高级操作(作用于两个以上可视化)。 作者参考了已有的比较完备的图像处理和分析工具,将操作划分为合并(Union)、作差(Difference)和取交(Intersection)运算。进一步参考将机器学习用于可视化的工作、可视化比较、复合可视化、可视化组合等工作。下面将逐个介绍每个操作。
可视化运算符
基本运算包括合并运算、作差运算和取交运算。合并运算可以支持风格迁移,即将一个可视化的样式运用到另一个可视化上。它也可以支持使用新的数据扩充一个静态可视化。这个任务称为拼接(mosaicing),即可以结合一个数据集的不同视图的两个或多个可视化以表示完整视图。 合并运算支持的另一组任务是用于可视化复合和可视比较,包括可视化并列、叠加和逐项并列。 作差运算可用于显式编码差异,要求两个可视化的数据和样式应相互匹配。 如果不匹配,可以计算数据差异和样式差异。 两种类型的差异都可以映射到对可视化创作有用的语义操作,例如,数据差异可用于生成数据故事,风格差异有助于图表推荐或重新设计可视化。 取交运算与作差运算高度相关,涵盖的任务包括显式编码交集、取数据交集和样式交集。
高级运算分为六类,分别是序列化、拓扑排序、匹配和筛选、聚类、合成聚合和代表性聚合。第一个任务是序列化,用于找到可视化的最佳顺序。 然而,可视化之间的关系通常是非线性的,而是使用拓扑图结构建模,其中每个节点代表一个可视化,每条边表示一个编辑操作或可视化差异。这项任务在可视化推荐系统中得到了广泛的研究。匹配筛选和聚类这两个任务都与衡量可视化之间的差异有关。 匹配筛选与可视化检索系统有关,即寻找与输入可视化相似的可视化。 聚类为元可视化分析提供支持。 这两项任务都需要一个距离函数,将差异和共同点转换为数值型分数。而合成聚合和代表性聚合是对多个可视化的总结,分别是对多个数据作聚合、从集合中选择具有代表性的可视化。
在实现层面,该框架是基于Vega-Lite语法和数据库理论。可视化的Vega-lite规格文件转换为由基本表和映射表组成的关系数据库,通过使用破折号字符(例如“encoding-x-field”)连接具有嵌套级别的键来展平嵌套的 json对象。前面提到的所有运算符都是通过关系型表格的连接(Join)操作实现的。合并运算符建立在 FULL OUTER JOIN 子句的基础上,该子句在左表或右表记录中存在匹配时合并所有记录。通过INNER JOIN 子句实现取交运算符,该子句要求记录在两个表中都匹配一个。 而作差运算符由三个步骤组成,包括左和右表的ANTI-JOIN以及查找仅出现在左表或右表中的记录。
可视化表示为关系型表格
运算符函数的语法将两个可视化和参数作为输入。 on 参数指定对其执行连接子句的列,可以是“key”主键或者是“all”所有列。how 参数处理数据冲突场景, 可以是“left”、“right”(即选择左侧或右侧)或“merge”,即通过添加新的指示符列来合并两个表,表示记录是来自左表还是右表。通过将“auto_encoding”参数设置为真,可以自动为指标列创建新的视觉编码。
运算符函数和参数
该框架具有多元化的应用场景,包括但不限于风格迁移、可视化复合、版本控制、元可视化分析、聚类分析和探索可视化的谱系。第一个场景是风格迁移,可以将一个可视化的样式运用到另一个可视化上。第二个场景是可视化的复合。比如在AR环境下交互式地将柱状图变为堆叠柱状图,通过将可视化作为一个整体,这样的方式可以增强用户体验。第三个场景是版本控制。假设两个人在各自的分支编辑同一个可视化,编辑的路径保存下来,那么可以像git一样合并分支。第四个场景是元可视化分析(可视化拼接)。假设我们拿到世界各国的碳排放占比的逐年的多个饼图,将其合并转为热力图后可以看到每年各个国家的情况。有两张图都是2017年的数据,但是数值不同,进一步合并和比较这两个数据,可以看到具体的差异。更多的场景包括聚类分析和可视化的谱系分析。
应用场景:版本控制
应用场景:元可视化分析(可视化拼接)
参考文献:
[1] Aoyu Wu, Wai Tong, Haotian Li, Dominik Moritz, Yong Wang, and Huamin Qu. ComputableViz: Mathematical Operators as a Formalism for Visualisation Processing and Analysis. In Proceedings of CHI Conference on Human Factors in Computing Systems, Article No. 410, pp. 1–15, 2022.
本文转自: http://vis.pku.edu.cn/blog/computableviz/
本站仅做收录,版权归原作者所有。