Гайдлайн по визуализациям в научных публикациях
Это выдержки из статьи “Ten guidelines for effective data visualization in scientific publications” (Kelleher, C. and Wagener, T., 2011) с некоторыми моими мыслями и примерами применения. Примеры есть и в самой статье (они в самом конце), поэтому можно посмотреть на разные, чтобы лучше понять суть.
- Выбирайте самый простой и понятный график, который может отобразить нужную вам информацию. Все же цель визуализации в научных публикациях сделать его более понятным и доступным, поэтому не стоит усложнять, иногда, например, из трехмерного графика лучше сделать плоский двумерный.
2. Подбирайте графики и визуальные атрибуты под ваши данные. Через длину и положение сравнивать объекты проще, чем через оттенки или объемы.
3. Делайте фокус на чем-то одном: хотите ли вы показать паттерны или детали. Например, чтобы оценить паттерн в данных может помочь хитмап, но для более детальной оценки может понадобится барчарт.
4. Выбирайте шкалы, которые подходят под ваши данные. На барчартах ось всегда начинается с 0, на линейных графиках и скаттерплотах ось можно отодвинуть от нуля и сделать более подходящей под ваши данные, чтобы лучше представить данные.
5. Дли визуализации временных данных может понадобится дополнительная трансформация данных или перенос их на логарифмическую шкалу. Логарифмическая шкала, например, поможет, когда вам нужно на одном графике показать сильно разнящиеся друг от друга значения (например, быстрый рост заболеваемости от 5 значений для одного временного промежутка, до нескольких тысяч в конечном периоде).
6. Если точки на скаттерплоте пересекаются, используйте прозрачность или незакрашенный кружочек, чтобы показать плотные участки. Иначе все превращается в непонятную колбаску :)
7. Для временных данных пользуйтесь линейными графиками, но не объединяйте те части, где данных нет. Если данные НЕ непрерывные (например, вы сравниваете количество продаж по категориям), то линейный график брать не стоит. Линии означают что-то непрерывное и развивающиеся.
8. Агрегируйте большие объемы данных при визуализации. Например, можно использовать cycle plot, точечный график Кливленда, спарклайны Тафти и многое другое (но вот кучей пайчартов визуализировать точно не надо). Помните, что такие графики может быть сложно читать, поэтому важно сделать его максимально понятным и доступным (легенды, подписи, добавление контекста).
9. Осторожнее с двойными осями и если вам нужно сравнить графики по одной переменной, постарайтесь сделать для них схожие оси. Если вы делаете двойную ось, то не совмещайте один линейный график с другим, лучше визуализировать что-то одно столбцами, а другое линией (например, сумму и процент). Делайте прямые подписи к данным, например, по линии отобразите проценты прямо по точкам, а для столбцов оставьте ось слева. Либо можно совсем разнести это на два отдельных графика.
10. Пользуйтесь цветом эффективно. Категории можно показать разным цветов, градиентом количественные данные. Помните про цветовые ассоциации (зеленые — хорошо, красный — плохо; темнее — больше). Если у вас есть есклько графиков про что-то одно, сделайте одинаковую кодировку цветом для одних и тех же категорий. При описании можно выделять текст цветом, когда упоминаете конкретную категорию. В случае с публикациями, если она в итоге будет в чб варианте, продумайте, как ваш график будет выглядеть в чб: будет ли понятен градиент, где-то можно заменить цвет на форму, иногда может помочь также обводка.