В прошлом совете мы обсудили первый принцип качественной визуализации данных — визуализация проявляет. Сегодня я расскажу о втором принципе — многомерности.

И снова для начала рассмотрим пример:

Это визуализация Московского марафона, визитная карточка Лаборатории данных. По маршруту марафона слайдер перемещает разноцветного «удава» — толпу бегунов, цветные слои показывают бегунов разного пола и возраста. Видно, как все бегуны стартуют огромной толпой (первые 10 минут забега плотность бегунов, показанная толщиной «удава», составляет 7000 бегунов на километр трассы), и постепенно эта толпа растягивается вдоль маршрута. Обратите внимание, что в момент финиша победителя (2:14 на слайдере), максимальная плотность толпы составляет уже 1100 бегунов на км, а замыкающие толпу марафонцы бегут по Садовому кольцу, то есть преодолели всего треть маршрута. Справа от карты расположены вспомогательные графики: меняющаяся со временем погода, высотный профиль трассы, распределение бегунов по полу и возрасту, оно же по совместительству цветовая легенда (к этому необычному представлению мы ещё вернёмся!), и интерактивный индикатор толщины «удава».

Под картой расположена диаграмма финишей, наложенная на ту же временную ось, по которой перемещается слайдер:

Диаграмма финишей участников Московского марафона

На этой диаграмме все марафонцы распределены по времени финиша, при наведении на любого бегуна‑чёрточку мы видим его имя, стартовый номер, возраст и результат. Эта диаграмма проявляет интересные закономерности и аномалии, рассмотрим их подробно. Во‑первых, распределение бегунов напоминает нормальное, как в целом, так и в разбивке по полу. При этом у мужчин колокол распределения более ярко выражен и смещён влево (среднее в районе 3.50), а у женщин распределение более размазанное по горизонтали и центр его находится правее (4.20...4.30).

Также можно попробовать отыскать закономерности по возрасту, хотя бы среди мужчин, но поверхностный взгляд не выявляет явной зависимости времени финиша от возраста бегуна. Наоборот, молодые бегуны финишируют в любое время, в том числе в хвосте, а возрастные марафонцы (50+) показывают великолепные результаты. Некоторые из них финишируют даже раньше 3 часов:

Отсутствие зависимости — это тоже информация. Делаем вывод, что результат зависит не от возраста, а от подготовки и спортивной формы.

Какие же аномалии видны на диаграмме финишей?

Из нормального распределения выпирают пики в районе отметок 3.00, 3.30, 3.40, 4.00. Их образуют спортсмены (в основном мужчины), которые стремятся показать красивый результат, скажем, «выбежать» из четырёх часов и финишировать за 3.59. Не будь этих амбиций, распределение было бы более нормальным. Ещё одна интересная аномалия — два финиша в самом конце диаграммы, на временной метке 6.19. При наведении мы увидим, что бегунов зовут Степан Жулин и Аркадий Жулин, 35 лет и 74 года соответственно. Предположу, что это сын сопровождал отца и финишировал вместе с ним. Трогательная картина!

Итак, один график финишей проявил сразу несколько интересных особенностей данных. Это достигается не только тем, что он составлен из отдельных финишёров, но и тем, что на графике помимо времени финиша показаны пол, возраста, имена и фамилии бегунов. Именно на стыке этих параметров рождаются интересные выводы.

Ещё одно ценное наблюдение притаилось в распределении по полу и возрасту. Рассмотрим эту диаграмму внимательно:

Распределение по полу и возрасту участников Московского марафона

Эта диаграмма необычна тем, что толщина столбцов по вертикали разная. Эта толщина зависит от количества лет в возрастной группе, которое в свою очередь определяется на основании особенностей спортивной формы бегунов. Например, пика формы бегуны достигают в 20...22 года, поэтому спортсмены в этом возрасте соревнуются только между собой, а 23‑х летние бегуны считаются уже не такими быстрыми и соревнуются в самой обширной группе на «плато» 23...34 года.

То есть возрастные группы это важная особенность реальности спортсменов, поэтому нам важно проявить их на визуализации. При этом количество бегунов показано площадью столбика — именно этот графический аспект наш глаз по умолчанию интерпретирует как количество. А что же тогда отложено по горизонтали? Если мы разделим количество бегунов на количество лет в возрастной группе, получится среднее количество бегунов на один год в возрастной группе. Сравнивая это количество между возрастными группами мы можем судить об активности бегунов. Если бы мы показали возрастные группы столбиками одинаковой толщины, то столбики мужчин и женщин 23...34 были бы очень длинным, и мы не смогли бы понять за счёт чего они такие — за счёт активности бегунов или за счёт количества лет в возрастной группе.

Теперь, когда мы видим не только количество бегунов, но и активность внутри возрастных групп, мы можем сделать вывод, что активность мужчин‑марафонцев при переходе из группы 23...34 в группу 35...39 меняется незначительно. А у женщин? Уменьшается более чем на треть.

Удивительно видеть, как мой собственный опыт (я пробежала марафон в 28 лет, а сейчас в 38 меня хватает только на работу и семью, и я не участвую в забегах) оказывается закономерностью и проявляется на этой диаграмме.

Рассмотрим последнюю часть визуализации — таблицу финишёров. В ней — самой по себе — нет ничего необычного, в похожих таблицах часто публикуют результаты разных забегов. Её ценность в том, что таблица интерактивно связана с другими форматами. Можно выбрать конкретных бегунов (себя, знакомых, любимых блогеров :‑) и посмотреть их перемещение по трассе. Можно выбрать в фильтре город или команду и посмотреть на разброс бегунов из этой команды или города по времени финиша. Внутри фильтров группы отсортированы по количеству участников, и эти списки тоже становятся информативными и проявляющими.

На визуализации Московского марафона показано множество измерений данных. Для каждого бегуна мы проявили его пол и возраст, время финиша, город и страну, имя и фамилию, стартовый номер. Для каждого момента времени мы просчитали положение бегунов на трассе и список финишёров, каждой точке маршрута поставили в соответствие не только координаты, но и высоту над уровнем моря. Все эти параметры формируют полную и многогранную историю забега.

Этот пример прекрасно иллюстрирует принцип многомерности. Мы стремимся «упаковать» на плоском двумерном носителе как можно больше свойств данных и, таким образом, подталкиваем зрителя к глубокому анализу и помогаем выявить интересные наблюдения — даже в такой неожиданной теме как результаты забега.

Визуализация данныхПринципы визуализацииМногомерность
Отправить
Поделиться
Запинить

Рекомендуем другие советы