Вернёмся к бизнес‑кейсу с банковскими отделениями. И попробуем для этого датасета выделить частицу данных.
Вспомним, как звучало описание реальности данных для этой задачи.
В отделениях банка в Москве установлена система электронной очереди. Посетители обращаются в удобное для них отделение банка, чтобы открыть счёт, взять кредит, обменять валюту или получить другую банковскую услугу. Каждому посетителю система выдаёт талон на тип услуг (счета и вклады, кредиты, касса) и потом приглашает его в конкретное окно к оператору. Часть клиентов уходит, не дождавшись своей очереди.
В описании реальности данных фигурируют следующие сущности: «отделение», «посетитель», «услуга», «талон», «окно», «оператор». Какая из них будет единицей смысла в нашей задаче?
Разберёмся в связях между сущностями. Отделение — это помещение с окошками, набором услуг, сотрудниками, которые оказывают услуги в окошках, и системой электронной очереди, выдающей талоны. Посетитель — человек, клиент банка или просто прохожий, который заходит в любое из отделений для получения услуги или набора услуг. «Отделение» и «посетитель» — две максимально независимые сущности.
Какая сущность будет здесь связующим звеном?
Догадались? Конечно, талон!
И действительно, на основе свойств талона можно вычислить любую интересную нам информацию об обслуживании и очередях в отделениях банка. Например, мы можем взять талоны, выданные во всех отделениях банка за последние полгода, и вычислить среднее время ожидания по всем отделениям банка. Толку от этого показателя будет мало — та самая «средняя температура по больнице», — но сделать мы это можем.
Мы также можем взять все талоны, выданные в конкретном отделении, сгруппировать их по часам и посчитать количество талонов и ср. время ожидания внутри каждого часа. Таким образом можно понять пиковое время нагрузки на конкретное отделение, и как эта нагрузка влияет на размер очередей.
Ещё можно разделить талоны по виду услуги и посмотреть востребованность услуг в разных отделениях и опять же очереди в зависимости от типа услуги.
Или сгруппировать талоны по сотрудникам отделения и проанализировать, как быстро операторы работают и к кому чаще всего стоят очереди. Нет такого вопроса в реальности данных, на который нельзя ответить в «талонах».
Обратимся к датасету, который мы уточнили на предыдущем шаге:
В датасете нет разбивки по талонам, только усреднённые значения. Так часто бывает с исходными датасетами, и тут возможны два варианта развития событий. Простой: когда мы запрашиваем и получаем от заказчика датасет с нужной гранулярностью, в данном случае, это будет датасет со строками‑талонами и столбцами — свойствами талона. И сложный: когда датасет нужной грануляции недоступен или слишком «тяжёл» для выгрузки и экспериментов с ним.
В этой задаче мы пойдём сложным путём и представим, что в наших отделениях огромное количество посетителей и талонов, и что мы можем запрашивать только сводные предрасчитанные таблицы. Но даже в этом случае, выделенная частица данных очень поможет нам при конструировании визуализаций и создании дашборда — на следующих шагах алгоритма Δλ.
P. S. Это был совет о визуализации данных. Хотите узнать всё о таблицах, графиках, диаграммах, картах, схемах и дашбордах? Присылайте вопросы.