Разберём оси разброса и график разброса.

Впервые мощь оси разброса я увидела в книге Тафти, где он показывал, как добавление засечек на оси увеличивает информативность за счёт того, что ось показывает распределение данных по параметру и сама превращается в график.

График разброса с засечками на осях, dot‑dash‑plot в терминологии Тафти. Visual Display of Quantitative Information, стр. 133

И правда, частицы разбросанные вдоль оси можно вопринимать как самостоятельный график. Здесь сотрудники показаны вдоль оси времени, а цветом проявлена их зарплата. Некоторые закономерности уже видны (какие?):

Если на вертикальную ось положить должности, получится уже двумерный график с разбросом по возрасту внутри должностей:

Тут уже видно, что менеджеры преимущественно моложе программистов. Руководители по возрасту похожи на «старших» программистов. А бухгалтеры вообще разбросаны по совершенно разным возрастным категориям.

Но самое интересное это, конечно, совместить на графике две оси разброса. Например, расставить сотрудников по возрасту и росту:

Видно, что ни зависимости возраста от роста, ни яркой зависимости зарплаты от роста в данных нет. Что вполне ожидаемо.

А теперь перенесём на вертикальную ось зарплату, а вместо неё цвет задействуем под другой параметр, например, под должность.

Вот этот график уже интересно изучать. Теперь хорошо виден тренд — увеличение зарплаты с возрастом, но также видны отклонения от него в виде конкретных точек‑сотрудников. Мы анализируем не возраст в отдельности и не зарплату в отдельности, а взаимное «поведение» этих величин. За это я очень люблю графики разброса. За это, и за то, что они прекрасно работают на датасетах вплоть до тысячи точек. Только на графике разброса можно показать такие данные, сохраняя их детализацию, при этом проявляя тренды.

Вернёмся к сотрудникам. У нас проявился «кластер» программистов, «уголок» менеджеров с одним исключением и «потолок» из руководителей. Уже отлично, мы проявили целых 4 измерения данных и можем искать закономерности и делать выводы с учётом их всех. А при наведении покажем подробную информацию о любом сотруднике:

Теперь давайте представим, что нам нужно добавить ещё один параметр — стаж работы в компании. Как будет логичнее всего проявить его, через свойства визуально атома, или на одной из осей? Или для отображения стажа нужно добавить ещё один график? Попробуйте придумать решение самостоятельно. Свой вариант я покажу в следующем совете.

P. S. Это был совет о визуализации данных. Хотите узнать всё о таблицах, графиках, диаграммах, картах, схемах и дашбордах? Присылайте вопросы.

Визуализация данныхАлгоритм ΔλВизуальный атомКаркасФормат: график разброса
Отправить
Поделиться
Запинить

Комментарии

Решение задачи будет зависеть от характера данных, которые мы будем показывать: стаж относительный или стаж абсолютный.

Читателю скорее всего интересно узнать, кто работает в компании дольше всех, а кто меньше. Потому что абсолютный показатель (Ирина работает 7 лет) без сравнения с другими работниками общей картины не даст.

При относительном значении стаж логично сделать свойством атома, причём свойством градиентным, при котором 100% — самый большой стаж в компании, а 0% — самый малый.

Визуально это может быть шкала под (над) человечком, уровень «заполненности» или яркости (насыщенности) самого атома. Чтобы не создавать лишний шум, лучше остановиться на свойстве, встроенном в атом.

Но если мы хотим проследить взаимосвязь стажа с другими параметрами — уровнем зарплаты или возрастом, — то тогда нам лучше брать абсолютный стаж и вывести его дополнительно шкалой рядом с одной из осей.

Сначала определим для новых данных место на графике. Самое логичное — между началом оси и первыми засечками шкалы (0‑17 лет или 0‑40 тыс. ₽). Затем выберем приемлемую визуализацию. Подойдут столбики гистограммы.

Теперь график стал очень похоже на исходную картинку в теме — с засечками на графике разброса. Только теперь мы наделили засечки вторым свойства, — показывать не только разброс на шкале зарплаты, но и описывать своей длиной стаж работы в компании.

Проявятся ли какие‑то закономерности при этом или нет, не подскажу. Не вижу исходников базы данных. Поэтому сымитирую результат, при котором стаж работы прямо пропорционально влияет на уровень з/п, плюс введу аномалию — молодого программиста со средним стажем, но высокой стоимостью как обладателя уникальных знаний.

P.S.
При формальном подходе при решении задачи троечник предложит самое очевидное: указать стаж прямо на человечке. Задача решена, но взаимосвязи не выявлены.

13 ноя 2025

Александр, спасибо за ваше решение! Интересный подход. Его единственный недостаток в том, что сотрудник обозначен и пиктограммой и чёрточкой возле оси.

В следующем совете опубликую своё решение. Приходите полюбопытствовать :‑)

13 ноя 2025

Такой вариант

15 ноя 2025

Рекомендуем другие советы