# 箱线图的构建方法及特点
箱线图 (box plot) 绘制过程需要几个关键数据:
- 下界 (最小值,)
- 上界 (最大值,)
- 中位数 (): 作为箱中间粗线
- 第一四分位数 (): 作为箱下端
- 第三四分位数 (): 作为箱上端
此外,定义四分位数间距 (InterQuartile Range, IQR) 为. 箱线图的线上下端为 和 .
超出线范围的值称为异常值 (outlier). 异常值单独用点、小圆圈或星形表示。
四分位数的计算细节需要注意。四分位数通过两次取中位数得到。若 为奇数,则第二次取中位数时,两侧均加入中位数,即计算前后 个数据点的中位数。若 为偶数,则按常规计算。
# 统计图表的选择
- 分类数据的表示:采用柱状图更倾向于展示每组数据的大小,采用饼图倾向于展示某组数据占全体的比例。
- 条件分布的表示:可以采用分段柱状图 (segmented bar chart)/ 列联表 (contingency table)
# 多变量可视化展示方式
# 视觉编码的设计空间
# 视觉编码的形式
将数据类别分为名词数据 (Nominal), 序数数据 (Ordinal) 和数量数据 (Quantitative).
视觉通道 (visual channel): 数据的表现形式,包括坐标、颜色、形状、面积等。
图像标记 (graphical mark): 包括散点、柱、折线等。
# 视觉编码的有效性
# 多维变量的表示
散点图矩阵 (Scatter PLOt Matrix, SPLOM): 可以有效实现不同数据维度的对比。
雷达图 / 星形图 (radar plot/star graph).
平行坐标系 (parallel coordinates):
降维方法 (dimensionality reduction): 包括 PCA, t-SNE, UMAP 等。
# 视觉编码的设计准则
- 采用有效的,高表达性的视觉编码方式
- 拒绝过度编码
- 可以加入交互,以降低图表的复杂程度