# 箱线图的构建方法及特点

箱线图 (box plot) 绘制过程需要几个关键数据:

  • 下界 (最小值,Q0Q_0)
  • 上界 (最大值,Q4Q_4)
  • 中位数 (Q2Q_2): 作为箱中间粗线
  • 第一四分位数 (Q1Q_1): 作为箱下端
  • 第三四分位数 (Q3Q_3): 作为箱上端

此外,定义四分位数间距 (InterQuartile Range, IQR) 为Q3Q1Q_3-Q_1. 箱线图的线上下端为 Q3+1.5IQRQ_3+1.5IQRQ11.5IQRQ_1-1.5IQR.

超出线范围的值称为异常值 (outlier). 异常值单独用点、小圆圈或星形表示。

四分位数的计算细节需要注意。四分位数通过两次取中位数得到。若 nn 为奇数,则第二次取中位数时,两侧均加入中位数,即计算前后 (n+1)/2(n+1)/2 个数据点的中位数。若 nn 为偶数,则按常规计算。

# 统计图表的选择

  • 分类数据的表示:采用柱状图更倾向于展示每组数据的大小,采用饼图倾向于展示某组数据占全体的比例。
  • 条件分布的表示:可以采用分段柱状图 (segmented bar chart)/ 列联表 (contingency table)

# 多变量可视化展示方式

# 视觉编码的设计空间

# 视觉编码的形式

将数据类别分为名词数据 (Nominal), 序数数据 (Ordinal) 和数量数据 (Quantitative).

视觉通道 (visual channel): 数据的表现形式,包括坐标、颜色、形状、面积等。

图像标记 (graphical mark): 包括散点、柱、折线等。

# 视觉编码的有效性

# 多维变量的表示

散点图矩阵 (Scatter PLOt Matrix, SPLOM): 可以有效实现不同数据维度的对比。

雷达图 / 星形图 (radar plot/star graph).

平行坐标系 (parallel coordinates):

降维方法 (dimensionality reduction): 包括 PCA, t-SNE, UMAP 等。

# 视觉编码的设计准则

  • 采用有效的,高表达性的视觉编码方式
  • 拒绝过度编码
  • 可以加入交互,以降低图表的复杂程度

# 图像感知