对偶空间分析(dual space analysis)是一种先进的高维数据分析方法。它包含维度空间和数据项空间,用户在一个空间上的操作会反映在另一个空间上,从而使得用户可以同时探索它们,联合地研究维度空间的结构和数据项空间的分布(图1)。然而,以往的工作没有平等地处理定量维度和定类维度,后者通常只用来定义数据项子集。这可能会导致有趣的模式被忽略。面对这一局限,作者提出两个能够同时描述定量和定类数据的统计度量来扩展当前对偶空间分析的框架,并开发了一个原型系统来帮助用户完成联合的探索性分析 [1]。
图1 对偶空间分析框架。
提出的两个统计度量分别是可变性和模态。可变性用于理解数据分布或差异,它可以从多样性和围绕均值的变化两个角度来衡量。前者描述数据项之前的差异,后者描述数据的中心性趋势。多样性被定义为不相似性系数,它表示数据对在数据样本中不相似的比例。由于定量维度的值可以在某个范围内任意选取,而定类维度的值只能是几个类别中的一个,因此定量维度的不相似性一般会高于定类维度。为了避免这一现象,作者为定量维度引入了更为宽松的解释:只有当数据对的差异超过设定的阈值时,它们才会被认为“不相似”。对于围绕均值的变化,方差和标准差是我们最为熟悉的针对定量维度的相关统计度量。对于定类维度,作者使用和定量维度类似的对应度量:variance analog类比与方差,而stDev类比于标准差。
模态可以作为定量和定类维度中心性趋势的可靠度量,用户还可以进一步通过分析模态分布来了解数据分布的形状。简单起见,作者这里关注模态的数量。对于定量维度,他们使用核密度估计,然后将局部最大值的数量作为模态的数量。对于定类维度,他们对高频率类别使用阈值进行判断。阈值被设定为最高的频率减去一个预定义的百分比。
作者为对偶空间中定量和定类维度的分析开发了一个原型界面。如图2所示,界面分为三个部分。A和C部分与维度探索相关,B部分与数据项探索相关。在B部分,数据项通过平行坐标可视化,其中缺失值被现实在平行坐标的底部。用户可以通过在平行坐标中刷选或者调整B2中的滑动条来选择一个数据项子集。为了处理维度过多的情况,作者引入旋转木马启发的平行坐标,它可以通过右下角基于甜甜圈图的图标来导航。当前显示的维度以深灰色显示,其中左侧第一个维度被额外加入黑边。应用了子集选择的维度会变成紫色,以便快速识别。
图2 用于对偶空间分析的界面。
在A部分,维度通过散点图可视化,它的轴是之前介绍的统计量。不同类型的维度用不同的颜色来编码。虽然日期是作为定量数据读取的,但由于它们可能对定义子集特别有用被编码为另一种颜色。不透明度表示数据缺失的相对频率。当鼠标悬停在一个维度上时,其详细的统计度量将通过雷达图显示出来。重叠的维度通过带轮廓的圆表示,悬停在它上面将显示其包含的具体维度。在选择一个数据项子集之后,统计度量的变化由偏差线表示。这些线从原来的统计度量值指向当前子集的度量值。C部分也通过散点图可视化维度空间。在选择一个子集之后,它的Y轴表示维度类型,X轴表示维度的总体偏差。总体偏差指的是所有统计度量变化的和。
作者进行了一个案例研究,以证明提出方法的可用性。他们使用一个包含307名患有脑部小血管疾病(Cerebral Small Vessel Disease, CSVD)患者的临床数据集。数据集包含193个维度,这些维度描述了人口统计学信息、遗传数据、教育背景等方面的内容。
首先,他们使用统计度量来获得所有维度的概况。具体来说,他们调研了模态数和不相似性系数之间的关系,以及标准差和方差之间的关系(图3)。通过对模态数的分析,他们观察到有四个维度包含明显的模态数:病理发现和三个标识符。由于病理发现是作为自由文本记录的,而且标识符自然是唯一的,这些维度几乎只包含唯一的值。这些维度模态数如此之多的原因也可以通过它们的高不相似性来验证。从标准差和方差之间的关系可以看出,四个具有高标准差和方差的维度形成了聚类。这些维度是自由文本或有广泛可供选择条件的维度。
图3 分析临床数据集的概况。
作者还研究了教育对CSVD可能产生的影响(图4)。对于一些高危患者来说,提高教育水平可能会减轻CSVD病理的认知影响。他们选择受过15年或以上教育的患者。通过检查整体偏差,他们快速确定了受教育子集影响最大的七个维度。然后,他们调查了这些维度的标准差和不相似性系数的变化。通过雷达图可以看到sex的变化很大,Ab 1-40、Ab 1-42、total protein和total tau的不相似性增加,而标准差变化不大。虽然观察到SWI和Diagnose的变化,但由于它们在子集选择后不包含任何数值,所以被忽略了。从平行坐标中可以看到,较高的教育水平对应Ab 1-40和Ab 1-42的减少,这说明较高的教育水平提供了对淀粉质代谢紊乱和阿兹海默症的复原力。此外,它还对应total protein和total tau的减少。这可以作为大脑内的病理变化较少,抵抗力较强的一个指标。
图4 分析教育水平对CSVD的影响。
总的来说,在这篇论文中,作者扩展了之前针对高维数据进行探索的对偶空间分析框架,提出一种联合地分析定量维度和定类维度的方法。他们是通过提出能够同时描述这两类维度的统计度量来实现的。此外,对缺失数据项的保留对可视化给定数据的不确定性起到了显著的作用。
参考文献
1. Juliane Muller, Laura Garrison, Philipp Ulbrich, Stefanie Schreiber, Stefan Bruckner, Helwig Hauser, and Steffen Oeltze-Jafra. Integrated Dual Analysis of Quantitative and Qualitative High-Dimensional Data. IEEE Transactions on Visualization and Computer Graphics, 27(6):2953-2966, 2021.
本文转自: http://vis.pku.edu.cn/blog/integrated-dual-analysis-of-quantitative-and-qualitative-high-dimensional-data/
本站仅做收录,版权归原作者所有。