Разберём оси разброса и график разброса.

Впервые мощь оси разброса я увидела в книге Тафти, где он показывал, как добавление засечек на оси увеличивает информативность за счёт того, что ось показывает распределение данных по параметру и сама превращается в график.

График разброса с засечками на осях, dot‑dash‑plot в терминологии Тафти. Visual Display of Quantitative Information, стр. 133

И правда, частицы разбросанные вдоль оси можно вопринимать как самостоятельный график. Здесь сотрудники показаны вдоль оси времени, а цветом проявлена их зарплата. Некоторые закономерности уже видны (какие?):

Если на вертикальную ось положить должности, получится уже двумерный график с разбросом по возрасту внутри должностей:

Тут уже видно, что менеджеры преимущественно моложе программистов. Руководители по возрасту похожи на «старших» программистов. А бухгалтеры вообще разбросаны по совершенно разным возрастным категориям.

Но самое интересное это, конечно, совместить на графике две оси разброса. Например, расставить сотрудников по возрасту и росту:

Видно, что ни зависимости возраста от роста, ни яркой зависимости зарплаты от роста в данных нет. Что вполне ожидаемо.

А теперь перенесём на вертикальную ось зарплату, а вместо неё цвет задействуем под другой параметр, например, под должность.

Вот этот график уже интересно изучать. Теперь хорошо виден тренд — увеличение зарплаты с возрастом, но также видны отклонения от него в виде конкретных точек‑сотрудников. Мы анализируем не возраст в отдельности и не зарплату в отдельности, а взаимное «поведение» этих величин. За это я очень люблю графики разброса. За это, и за то, что они прекрасно работают на датасетах вплоть до тысячи точек. Только на графике разброса можно показать такие данные, сохраняя их детализацию, при этом проявляя тренды.

Вернёмся к сотрудникам. У нас проявился «кластер» программистов, «уголок» менеджеров с одним исключением и «потолок» из руководителей. Уже отлично, мы проявили целых 4 измерения данных и можем искать закономерности и делать выводы с учётом их всех. А при наведении покажем подробную информацию о любом сотруднике:

Теперь давайте представим, что нам нужно добавить ещё один параметр — стаж работы в компании. Как будет логичнее всего проявить его, через свойства визуально атома, или на одной из осей? Или для отображения стажа нужно добавить ещё один график? Попробуйте придумать решение самостоятельно. Свой вариант я покажу в следующем совете.

P. S. Это был совет о визуализации данных. Хотите узнать всё о таблицах, графиках, диаграммах, картах, схемах и дашбордах? Присылайте вопросы.

Визуализация данныхАлгоритм ΔλВизуальный атомКаркасФормат: график разброса
Отправить
Поделиться
Запинить

Рекомендуем другие советы