В прошлый раз мы познакомились с концептуальным смыслом частицы данных. Сегодня я дам формальное определение и расскажу как искать частицу данных.

Частица данных — это сущность с таким набором свойств, из которых складываются все верхнеуровневые параметры данных.

Обратите внимание, что частица данных всегда сущность — объект или событие в реальности данных, — но не свойство. Сила землетрясения, время финиша, пол, возраст, координаты бегуна на дистанции не могут быть частицей данных. Это хоть и существительные, но по природе своей они являются характеристиками объектов — землетрясения и бегуна.

Разберём пример с тренажёром ПДД:

Частота ошибок в ответах на экзамене по ПДД. Лаборатория данных

Для начала перечислим все сущности, которые относятся к самому экзамену:

Добавим на схему их свойства:

Заметим, что в свойствах вопроса проявилась ещё одна сущность — тема. Мы считаем тему сущностью, потому что это не просто свойство, по которому мы можем выделить совокупность вопросов. Тема — это объективно существующий раздел знания, привязанный к ситуации на дороге, требующей определённых навыков автомобилиста: движение на проезжей части, обгон, остановка, проезд перекрёстков, чтение знаков и разметки и т. п.

Добавим тему:

Сформируем схему, на которой сущности будут показаны прямоугольниками, внутри которых перечислены их свойства. Покажем связи между сущностями стрелками.

На схеме проявилась иерархия объектов. Каждый билет и каждая тема включают в себя набор вопросов, каждый вопрос — несколько вариантов ответа. Может показаться, что вариант ответа и будет частицей данных, но это не так. На схеме сейчас не хватает важнейшей сущности из нашей реальности данных, а именно, пользователя тренажёра!

Формулировка «история прохождения» намеренно размытая. Уточним её на следующем шаге, а пока добавим пользователя на общую схему:

Обратите внимание, что пользователь и экзамен пока никак не связаны. Нам нужно найти сущность, которая станет «общим знаменателем» для всех других сущностей в этой реальности данных.

Что за загадочная сущность объединяет пользователя, билет, вопрос и вариант ответа? Мне нравится, когда для описания частицы данных получается найти лаконичное слово. В данном случае, мой выбор — «попытка». Попытка конкретного пользователя ответить на конкретный вопрос конкретного билета в конкретный момент времени, выбранный вариант ответа, сколько времени потрачено на этот вопрос, каков результат  — правильный ответ или ошибка. Сравните с формулировкой «ответ», в которую можно вложить тот же смысл, но в то же время она может означать «вариант ответа» и запутает нас. «Ответ» несёт единичный оттенок смысла, а про «попытки» сразу понятно, что их может быть несколько. И действительно, на тренажёре на один и тот же вопрос пользователь может ответить несколько раз, и это будут разные ответы.

Добавим попытку на схему:

Теперь на ней перечислены все сущности реальности данных, и все они связаны между собой через «попытку». «Попытка» и будет частицей данных.

В этой задаче выделение частицы данных сыграло ключевую роль. В тот момент, когда в моей голове прозвучало слово «попытка», стало понятно, как визуализировать данные: сгруппировать их по номеру попытки и дать возможность сравнить результаты разных попыток между собой.

В общем случае, выделение частицы данных превращает реальность данных из целостной картины в управляемую целостную картину, в которой каждый срез и ответ на каждый вопрос может быть выстроен через операции на множестве частиц данных. При таком подходе, целое и отдельные срезы можно выстроить из одних «кирпичиков», при этом каждый срез будет понятной частью целого.

Чтобы найти частицу данных, нарисуйте схему, на которой показаны все сущности из реальности данных с их свойствами и связями между ними. Объект на схеме, через который связаны все прочие объекты, и будет частицей данных.

P. S. Это был совет о визуализации данных. Хотите узнать всё о таблицах, графиках, диаграммах, картах, схемах и дашбордах? Присылайте вопросы.

Визуализация данныхАлгоритм ΔλЧастица данных
Отправить
Поделиться
Запинить

Рекомендуем другие советы