Первый шаг алгоритма Δλ — описать реальность данных. Давайте разберёмся, что это такое, как её описывать и, главное, какая от этого польза.

Как правило, данные представляют собой таблицы или базы данных, объединяющие множество таблиц. И если мы анализируем и визуализируем данные, то таблицы — это то, с чем мы имеем дело.

Вообще говоря, таблица — это великое изобретение человечества, формат, который абсолютно любые данные «упаковывает» в предсказуемую текстовую структуру. Не случайно, таблицы повсеместно используются для работы с данными. Они универсальны!

Но та самая универсальность, которая помогает хранить и обрабатывать данные, создавать единые вычислительные алгоритмы, разрабатывать ПО и инфраструктуру, —мешает, когда дело доходит до визуализации данных. Потому что все данные в таблицах похожи друг на друга, строки и столбики выглядят одинаковыми.

Но за ними стоят уникальные, абсолютно разные данные. Чтобы создать качественную визуализацию — многомерную, наглядную, с интуитивно понятными метафорами и строгой внутренней логикой — нужно смотреть шире, чем строки и столбцы таблицы. Нужно вообразить реальность данных.

Реальность данных — это совокупность процессов, которые порождают данные. По сути, это контекст, который полностью остаётся за кадром в тот момент, когда мы упаковываем данные в универсальную таблицу.

Описание реальности данных

Мы не просто делаем шаг назад от табличного представления и знакомимся с природой данных, их уникальной «средой обитания». Мы должны описать реальность данных, и работа с текстом здесь — важный инструмент погружения в контекст.

Описание реальности данных представляет собой последовательный и лаконичный текст, в котором фигурируют все сущности, важные характеристики данных и обязательно присутствуют глаголы действия. Без глаголов действия мы рискуем скатиться в описание таблицы; их наличие гарантирует, что мы описываем именно процессы.

Разберём несколько примеров таких описаний. «Квартиры имеют разное количество комнат, площадь, планировку, исходную стоимость и цену продажи» — плохо, нет глаголов действия. «Менеджеры продают квартиры разной комнатности, площади и планировки — по разным ценам. Размер скидки определяет менеджер.» — хорошо!

Обратите внимание, как при описании процессов сами собой возникают вопросы. Формулировка «Скидку определяет менеджер» не кажется полной и удовлетворительной, нам хочется разобраться как и исходя из каких правил/инструкций менеджер принимает решение о скидке. То есть составляя текст, описывающий реальность данных, мы встречаемся с пробелами в знании, можем пойти к заказчику и задать уточняющие вопросы, которые просто не пришли бы в голову при работе с таблицой.

Опишем реальность данных для уже знакомого нам примера, карты землетрясений:

Землетрясения с 1898 года. Джон Нельсон, IDV Solutions. Фликр

РД: «В разных точках нашей планеты в разное время происходят землетрясения разной силы. Они приносят материальный ущерб и человеческие жертвы.»

Здесь обратите внимание, как в описании реальности данных проникли жертвы и материальный ущерб, даже если в исходном датасете были только дата, локация и сила землетрясения. Вообразив контекст, мы просто не можем отмахнуться от таких значимых (с точки зрения человечества) параметров. Решение, использовать эти дополнительные параметры или нет, остаётся за нами. Важно то, что реальность данных позволяет обогатить датасет актуальными по контексту данными, которые дадут в результате более многомерную и интересную для анализа визуализацию.

И ещё один уже знакомый пример, датасет об ошибках на тренажёре ПДД.

РД: «Пользователи на тренажёре ПДД отвечают на вопросы экзамена в одном из двух режимов: по билетам или по темам. В каждом вопросе 4 варианта ответов, и только один из них правильный. Каждая попытка ответа пользователем на конкретный вопрос конкретного билета даёт результат — правильный ответ или ошибка. Количество попыток неограничено. В режиме тестирования по билетам дополнительно оценивается прохождение билета в целом: он считается сданным, если в нём допущено 2 и менее ошибок.»

Тут важно, что всем сущностям в тексте нашлось своё место, ничего не осталось за кадром. Мы последовательно описали процесс тестирования и его результат. Описание полное, но лаконичное, понятное даже человеку, который не погружен в предметную область. Чистота и ясность описания равноценна ясности мыслей, которая особенно важна в работе со сложными данными.

Резюме

Реальность данных — это совокупность процессов, порождающих данные. Обращаясь к ней, мы встречаемся с контекстом и природой данных, формируем у себя в голове цельную картину происходящего. В этой картине все сущности и ключевые характеристики наделены смыслом и связаны между собой, а не являются безликими строками и столбиками в таблице.

Мы описываем реальность данных последовательным и лаконичным текстом, в котором все сущности и ключевые характеристики объединены по смыслу глаголами действия. В процессе написания этого текста мы сталкиваемся с пробелами в понимании данных. Все недосказанности и обтекаемые формулировки мы искореняем, задавая открытые вопросы заказчику. Текст описания должен быть кристально ясен даже человеку со стороны.

Кроме того, в описании реальности данных могут проявиться важные свойства и аспекты данных, которые не вошли в исходный датасет. Благодаря этому мы можем обогатить данные и получить более осмысленный и классный результат.

Буду рада ответить на вопросы уважаемых советчиков и прояснить то, что осталось непонятным.

Визуализация данныхАлгоритм ΔλРеальность данных
Отправить
Поделиться
Запинить

Рекомендуем другие советы