Про важность визуализации на примере Квартета Энскомба и динозавриках

Anastasiya Kuznetsova
2 min readMar 3, 2021

--

“Graphics reveal data. Indeed graphics can be more precise and revealing than conventional statistical computations.”
- Tufte, Edward (1983). The Visual Display of Quantitative Information

Визуализация данных помогает раскрывать данные и, следуя цитате Тафти выше, графики могут быть точнее, чем некоторые статистические вычисления, а особенно, обычная summary statistics.

Есть такой набор данных — квартет Энскомба, прикол в том, что у 4х датасетов внутри него одинаковые описатльные статистики: среднее, стандартное отклонение и коэффициент корреляции. Но если эти 4 датасета визуализировать, становиться быстро понятно, что они достаточно разные по своей природе внутри. То есть 4 разных набора данных дают одинаковые статистики. И как после этого доверять средним и не рисовать графики?

Это, конечно, не значит, что такое будет происходить всегда. Для сравнения есть другой набор данных, тоже со схожими статистиками, но и с похожими друг на друга графиками.

Источник

Похожую же штуку сделал Альберто Кайро с идеей:

“ Never trust summary statistics alone; always visualize your data”

А Justin Matejka, George Fitzmaurice превратили это вthe Datasaurus Dozen”. Про то, как они этот набор данных сделали можно почитать тут, но на картинке четко видно, как динозавр, звездочка и просто всякие абстракции выглядят сильно по-разному, но имеют одинаковые средние, стандартное отклонение и корреляцию между переменными (не точь в точь, конечно, но разница идет на уровне десятичных цифр). Если не верите, вот данные (download .csv)

Источник

Вот поэтому датавиз это круто и нужно! Это не просто графики для красоты, это графики для понимания сути данных, для их наглядности и поиска паттернов и инсайтов. У меня был такой кейс с боксплотом и барчартом, описанный тут. Я всегда советую крутить данные с разных сторон, разными типами графиков и стараться смотреть на них с разных сторон, потому что датавиз может открыть то, что по базовым статистикам мы не увидим.

PS: Я накидала это в Tableau Public здесь, чтобы можно было потыкать разные датасеты самостоятельно.

--

--

Anastasiya Kuznetsova

Write about Data Visualization, BI and Tableau. Love sociology, space and urban analytics.