В прошлом совете мы обсудили первый принцип качественной визуализации данных — визуализация проявляет. Сегодня я расскажу о втором принципе — многомерности.

И снова для начала рассмотрим пример:

Это визуализация Московского марафона, визитная карточка Лаборатории данных. По маршруту марафона слайдер перемещает разноцветного «удава» — толпу бегунов, цветные слои показывают бегунов разного пола и возраста. Видно, как все бегуны стартуют огромной толпой (первые 10 минут забега плотность бегунов, показанная толщиной «удава», составляет 7000 бегунов на километр трассы), и постепенно эта толпа растягивается вдоль маршрута. Обратите внимание, что в момент финиша победителя (2:14 на слайдере), максимальная плотность толпы составляет уже 1100 бегунов на км, а замыкающие толпу марафонцы бегут по Садовому кольцу, то есть преодолели всего треть маршрута. Справа от карты расположены вспомогательные графики: меняющаяся со временем погода, высотный профиль трассы, распределение бегунов по полу и возрасту, оно же по совместительству цветовая легенда (к этому необычному представлению мы ещё вернёмся!), и интерактивный индикатор толщины «удава».

Под картой расположена диаграмма финишей, наложенная на ту же временную ось, по которой перемещается слайдер:

Диаграмма финишей участников Московского марафона

На этой диаграмме все марафонцы распределены по времени финиша, при наведении на любого бегуна‑чёрточку мы видим его имя, стартовый номер, возраст и результат. Эта диаграмма проявляет интересные закономерности и аномалии, рассмотрим их подробно. Во‑первых, распределение бегунов напоминает нормальное, как в целом, так и в разбивке по полу. При этом у мужчин колокол распределения более ярко выражен и смещён влево (среднее в районе 3.50), а у женщин распределение более размазанное по горизонтали и центр его находится правее (4.20...4.30).

Также можно попробовать отыскать закономерности по возрасту, хотя бы среди мужчин, но поверхностный взгляд не выявляет явной зависимости времени финиша от возраста бегуна. Наоборот, молодые бегуны финишируют в любое время, в том числе в хвосте, а возрастные марафонцы (50+) показывают великолепные результаты. Некоторые из них финишируют даже раньше 3 часов:

Отсутствие зависимости — это тоже информация. Делаем вывод, что результат зависит не от возраста, а от подготовки и спортивной формы.

Какие же аномалии видны на диаграмме финишей?

Из нормального распределения выпирают пики в районе отметок 3.00, 3.30, 3.40, 4.00. Их образуют спортсмены (в основном мужчины), которые стремятся показать красивый результат, скажем, «выбежать» из четырёх часов и финишировать за 3.59. Не будь этих амбиций, распределение было бы более нормальным. Ещё одна интересная аномалия — два финиша в самом конце диаграммы, на временной метке 6.19. При наведении мы увидим, что бегунов зовут Степан Жулин и Аркадий Жулин, 35 лет и 74 года соответственно. Предположу, что это сын сопровождал отца и финишировал вместе с ним. Трогательная картина!

Итак, один график финишей проявил сразу несколько интересных особенностей данных. Это достигается не только тем, что он составлен из отдельных финишёров, но и тем, что на графике помимо времени финиша показаны пол, возраста, имена и фамилии бегунов. Именно на стыке этих параметров рождаются интересные выводы.

Ещё одно ценное наблюдение притаилось в распределении по полу и возрасту. Рассмотрим эту диаграмму внимательно:

Распределение по полу и возрасту участников Московского марафона

Эта диаграмма необычна тем, что толщина столбцов по вертикали разная. Эта толщина зависит от количества лет в возрастной группе, которое в свою очередь определяется на основании особенностей спортивной формы бегунов. Например, пика формы бегуны достигают в 20...22 года, поэтому спортсмены в этом возрасте соревнуются только между собой, а 23‑х летние бегуны считаются уже не такими быстрыми и соревнуются в самой обширной группе на «плато» 23...34 года.

То есть возрастные группы это важная особенность реальности спортсменов, поэтому нам важно проявить их на визуализации. При этом количество бегунов показано площадью столбика — именно этот графический аспект наш глаз по умолчанию интерпретирует как количество. А что же тогда отложено по горизонтали? Если мы разделим количество бегунов на количество лет в возрастной группе, получится среднее количество бегунов на один год в возрастной группе. Сравнивая это количество между возрастными группами мы можем судить об активности бегунов. Если бы мы показали возрастные группы столбиками одинаковой толщины, то столбики мужчин и женщин 23...34 были бы очень длинным, и мы не смогли бы понять за счёт чего они такие — за счёт активности бегунов или за счёт количества лет в возрастной группе.

Теперь, когда мы видим не только количество бегунов, но и активность внутри возрастных групп, мы можем сделать вывод, что активность мужчин‑марафонцев при переходе из группы 23...34 в группу 35...39 меняется незначительно. А у женщин? Уменьшается более чем на треть.

Удивительно видеть, как мой собственный опыт (я пробежала марафон в 28 лет, а сейчас в 38 меня хватает только на работу и семью, и я не участвую в забегах) оказывается закономерностью и проявляется на этой диаграмме.

Рассмотрим последнюю часть визуализации — таблицу финишёров. В ней — самой по себе — нет ничего необычного, в похожих таблицах часто публикуют результаты разных забегов. Её ценность в том, что таблица интерактивно связана с другими форматами. Можно выбрать конкретных бегунов (себя, знакомых, любимых блогеров :‑) и посмотреть их перемещение по трассе. Можно выбрать в фильтре город или команду и посмотреть на разброс бегунов из этой команды или города по времени финиша. Внутри фильтров группы отсортированы по количеству участников, и эти списки тоже становятся информативными и проявляющими.

На визуализации Московского марафона показано множество измерений данных. Для каждого бегуна мы проявили его пол и возраст, время финиша, город и страну, имя и фамилию, стартовый номер. Для каждого момента времени мы просчитали положение бегунов на трассе и список финишёров, каждой точке маршрута поставили в соответствие не только координаты, но и высоту над уровнем моря. Все эти параметры формируют полную и многогранную историю забега.

Этот пример прекрасно иллюстрирует принцип многомерности. Мы стремимся «упаковать» на плоском двумерном носителе как можно больше свойств данных и, таким образом, подталкиваем зрителя к глубокому анализу и помогаем выявить интересные наблюдения — даже в такой неожиданной теме как результаты забега.

Визуализация данныхПринципы визуализацииМногомерность
Отправить
Поделиться
Запинить

Комментарии

Жаль, что у вас нет фоточек участников. Вы семитысячную толпу бегунов превратили в семитысячную двухцветную массу, которая сначала толстая, а потом растягивается (вот сюрприз!). Но большинству людей важны люди, лица. Согласитесь, важно знать, что на 3‑м месте не № 8216, и не актер Андрей Смирнов, а молодой бегун Андрей Смирнов, который выглядит так‑то, он еще победил в Перми. Вы скажете, что тут не соцсеть и фоточки будут только отвлекать, но вы сами с радостью отвлекаетесь на драматичное родство Жулиных. А представляете, там в толпе в течение нескольких часов бежали 2 красивых незнакомца, но на финише потерялись и больше никогда не встретятся...

Я не преуменьшаю ваших заслуг в информативности графиков, высокой плотности, наглядности и т. п. Но внешность участников реально важна огромному числу людей (в т. ч. самим участникам), а эту грань многомерности вы как‑то упустили.

29 ноя 2023

Паша, я была бы счастлива дополнить визуализацию фотографиями, будь они где‑то в открытом доступе. Для меня самой марафон всегда был про людей, а не про цветные точки. И работа эта сделана ради бегунов, которым интересно вернуться к своей большой победе над легендарной дистанцией. Дело ведь не в информативности, наглядности и прочем, а в том, что эта визуализация рассказывает многогранную историю там, где раньше марафонцы довольствовались сухими таблицами с финишным результатом.

К сожалению, во времена публикации этого проекта, фотографии бегунов не были доступны, а собирать их вручную не представлялось возможным. Да и отдельные бегуны могут быть против. Если сейчас ситуация поменялась, и в протоколах марафона появились обязательные фотографии, конечно, круто будет их использовать.

А что касается ситуации незнакомцев, расставшихся на финише, мы тут уже сейчас можем помочь. На диаграмме финишей бегуны, которые финишировали вместе, будут стоять рядом, и дальше уже задача из 5‑10 человек подходящего пола и возраста найти нужного (соцсети в помощь!), а если вы ещё и имя запомнили, которое обычно написано на номере, то сразу найдётесь ;‑)

29 ноя 2023
Альберт

Мне интересно, давали ли участники марафона разрешение на использование их персональных данных в данной инфографике и как будет выглядеть отзыв разрешения?

Как сделать так, чтобы инфографика не потеряла ценности, даже если 50% разрешений на использование персональных данных будет отозвано?

30 апр 2024

Альберт, на этой визуализации нет никаких других данных, кроме тех, что публикуются в открытых финишных протоколах марафона. Приобретая слот на марафоне, участники дают разрешение на публикацию этих данных.

2 мая 2024
Илья Стремовский

Таня, подскажите, пожалуйста: никак не пойму, на основании каких данных и как получилось получить положения отдельных бегунов на маршруте в конкретный момент времени и сделать «удава»?
Спасибо!

24 мая 2024

Илья, запоздало отвечаю. Мы брали данные о прохождении ворот, их всегда несколько на дистанции, и рассчитывали положения участника в каждый момент времени, исходя из предположения, что между воротами он двигался более‑менее равномерно. С большой вероятностью это так и было, потому что на длинной дистанции бегуны обычно держат темп.

7 июля 2025

Рекомендуем другие советы