Выбрать страницу

Как выбрать график для визуализации данных и инфографики?

11 июня, 2017

Визуализация данных

Когда мы работаем с данными, очень важно выбрать правильный график для визуализации. Почему? Потому что визуализация – это очень важная часть процесса анализа данных. Именно с помощью визуализации мы рассказываем историю с помощью данных и демонстрируем выводы.
Неправильный выбор графика ведет к неправильной интерпретации данных или просто не доносит нужную мысль или вывод до того, кому предназначен отчет.

Как же правильно выбрать график для визуализации? Для этого нужно ответить на следующие три вопроса:
1) Какие данные вы хотите визуализировать?
2) Какая цель визуализации?
3) И последнее: какой график соответствует этой цели.

Давайте разберем эти шаги по очереди.

Итак, какие данные необходимо визуализировать?

В 90% случаев ответ на этот вопрос очевиден: в основном визуализации подлежит числовая информация. Мы анализируем и визуализируем показатели продаж, конверсии, маркетинговые исследования – как правило, это цифры, проценты, суммы, даты.
Но иногда в центре исследования может стоять текст. Например, для социологических и политических исследований, особенно в США, часто анализируют твиты, посты в соцсетях, чтобы увидеть паттерны в настроениях народных масс.

Какая цель визуализации?

Как правило, визуализация имеют одну из следующих целей:

  • Сравнение
  • Распределение данных
  • Состав (структура)
  • Отношение или взаимосвязь между показателями

Каждая из этих целей можно конкретизировать с учетом специфики данных. Например, сравнение: мы сравниваем категории данных или изменение с течением времени? Состав данных в привязке к датам или за определенный период? Взаимосвязь показателей по двум или трем критериям? Такие уточняющие вопросы приводят нас как раз к третьему шагу – выбору конкретной диаграммы или графика с учетом цели.

Какой выбрать график для визуализации?

Цель: провести сравнение данных

Для сравнения категорий (т.е. для сравнения данных без привязки ко времени) лучше всего подходит вертикальная гистограмма (column chart) или горизонтальная гистограмма (bar chart).

Вертикальная гистограмма

Вертикальная гистограмма

Горизонтальная гистограмма

Горизонтальная гистограмма

Для одного показателя вертикальной или горизонтальной гистограммы лучше использовать один цвет, но также можно выделять другим цветом ту часть, на которой вы хотите сделать акцент.

Горизонтальная гистограмма удобна, когда нужно сравнить более 10 показателей или если какой-либо показатель слишком значительный и, следовательно, длиннее других. Ее также удобнее использовать, когда у вас есть негативные показатели.

Кроме того, для удобства чтения подписи к колонкам лучше делать горизонтальными.

Если же необходимо сравнить изменение показателей с течением времени, то можно использовалить либо вертикальную гистограмму (column chart), линейчатый график (line chart) или же каскадную диаграмму (waterfall chart).

При этом выбор между вертикальной гистограммой и линейчатым графиком зависит от количества временных единиц, которых необходимо сравнить: вертикальную гистограмму лучше использовать, когда столбцов 3-5, а линейчатый график понятнее, когда периодов 6 и более.

Каскадную диаграмму лучше всего использовать, когда вы делаете акцент на разнице показателей предыдущего и текущего периода, а не на тенденции изменения.

Для линейчатой диаграммы рекомендуется использовать только сплошные линии, а также не использовать больше 4 линий на одном графике. Также необходимо настроить ось Y так, чтобы сам график занимал значительную ее часть (около 2/3).

Горизонтальная гистограмма

Вертикальная гистограмма

Каскадная диаграмма

Каскадная диаграмма

Линейчатый график

Линейчатый график

Цель: показать распределение данных

Для распределения данных (т.е. для анализа, какие показатели встречаются чаще всего и какие реже) используются вертикальные гистограммы (column histogram) или линейчатые гистограммы (line histogram). Однако не нужно путать column chart и column histogram, несмотря на то, что обе они звучат на русском как «вертикальные гистограмм».

Давайте рассмотрим на примере.

Предположим, у нас есть простая таблица с прибылью за определенные года:

Если мы используем column chart, то увидим показатели по каждому году в виде столбцов:

Но column histogram покажет нам, какой интервал прибыли за эти года встречался чаще:

На приведенном примере мы видим, что прибыль в интервале 117 000 – 147 000 встречалась 2 раза, а интервал 207 000 – 237 000 встречался 6 раз. Этот график дает общее представление о распределении данных.

Линейчатая гистограмма несет в себе ту же функцию, только данные представлены в виде линии.

Распределение данных можно также показать с помощью точечной диаграммы, хотя чаще всего ее используют для демонстрации взаимосвязей.

Цель: показать состав (композицию) данных

Для того, чтобы визуализировать состав данных, есть большой выбор графиков и диаграмм.

Если данные изменяются с течением времени и если нам важно продемонстрировать, как меняется их вес относительно друг друга, а также как меняется сам показатель, то лучше всего использовать вертикальную гистограмму с накоплением (stacked column chart) или линейчатый график с накоплением (stacked area chart).

Вертикальная гистограмма

Линейчатый график с накоплением

Горизонтальная гистограмма

Вертикальная гистограмма с накоплением

Для линейчатого графика с накоплением лучше использовать полупрозрачные цвета, чтобы была видна сетка за ним, а также поместить то значение, которое меняется больше всего, первым. Так читать график будет проще. Кроме того, лучше не использовать больше 4 категорий для такого графика.

Для вертикальной гистограммы с накоплением лучше всего использовать контрастные цвета, а также делать ширину колонок побольше, чтобы облегчить усвоение информации.

Если же нам не важно продемонстрировать изменение показателей с течением времени, и если мы хотим показать просто состав наших данных, то для таких целей лучше всего подходит всем известная круговая диаграмма (pie chart) или менее известная древовидная диаграмма (treemap chart).

Вертикальная гистограмма

Круговая диаграмма

Горизонтальная гистограмма

Древовидная диаграмма

Чтобы подобные диаграммы были максимально говорящими необходимо использовать не слишком большое количество категорий (группируйте немногочисленные категории вместе), а также нужно обязательно убедиться, что сумма показателей составляет 100% 🙂

Кроме того, для демонстрации состава данных можно также использовать и каскадную диаграмму. В этом случае части диаграммы будут показывать, какую долю от общего показателя составляют те или иные составляющие. На примере ниже показано, какие параметры сыграли какую роль в формировании чистой прибыли, при этом голубые столбцы показывают прибыль или доход, а красные – расходы.

Каскадная диаграмма

Цель: проследить взаимосвязь данных

Мои самые любимые диаграммы и графики – это те, которые позволяют быстро увидеть взаимосвязи между переменными. Очень много инсайтов всплывают именно при анализе взаимосвязей и их визуализации.

Если мы анализируем взаимосвязь двух переменных, то для ее визуализации подойдет точечная диаграмма (scatter plot).

Точечная диаграмма

Если же нам нужно добавить третью переменную в анализ, то этого можно добиться двумя путями: либо разукрасить точки в точечной диаграмме, при этом колор кодинг введет эту третью переменную, либо использовать пузырьковую диаграмму bubble chart). В этом случае размер и цвет будут отвечать за визуализацию этой переменной. При сочетании и размера, и цвета можно даже говорить о четырех переменных.

Пузырьковая диаграмма

В случае, если необходимо визуализировать взаимосвязь данных, объединенных по разным критериям (например, в одном случае – по категориям, а в другой – по временным промежуткам), то можно использовать составные графики с единой осью X и двумя осями Y.

Составной график с двумя осями Y

Итак, мы рассмотрели основные типы графиков, которые можно использовать для визуализации очень разных типов данных. Конечно, существует огромное количество других графиков и диаграмм, которые применяются для специфичных исследований или не так хорошо известны. Например, спиралевидная диаграмма, карты местности в сочетании с данными, объединенными по географическому принципу, и многие-многие другие. Про другие методы визуализации данных мы поговорим в следующей статье. Оставайтесь на связи!

Pin It on Pinterest