Прогнозирование. Начало

Привет. Это один из уроков платной рассылки про аналитику. Пожалуйста, не пересылайте его друзьям и не публикуйте.

О прогнозировании

Все прогнозы делаются одинаково: аналитики наблюдают за какими-то явлениями, находят закономерности и на их основе делают выводы о возможном будущем. Прогнозы бывают неформальными (экспертными, житейскими) и формальными (математическими).

Неформальные прогнозы основываются на опыте и интуиции. К ним относятся народные приметы, экспертные оценки и предсказания экстрасенсов.

Птица на крышу садится — к непогоде.

Менеджер по продажам с 10-летним опытом заявил, что план в этом году компания не выполнит.

Ванга предсказала, что скоро у Киркорова родится дочь, а потом мы все умрём.

Экспертные делатются быстро и просто. Не нужно копить данные и думать об оптимизации модели. Но прогноз попадает в цель, только если сделан настоящим экспертом, а проверить его точность заранее практически невозможно.

Формальные модели основаны на данных. Если по-простому, то формальная модель — это математическая формула или алгоритм, в который вы загружаете данные, а на выходе получаете прогноз. Главное достоинство формальных моделей — вы можете измерить её точность, а значит улучшать модель, чтобы она становилась ещё точнее.

Обратите внимание на график слева. Красные точки — это входные данные, а синяя линия — и есть модель, построенная на этих данных.

Формальные модели разделяют на регрессии и классификаторы — по типу задач, которые они решают.

Регрессии прогнозируют количественный результат, например, температуру воздуха или LTV.

Классификаторы прогнозируют качественные (категорийные) показатели, например, пойдёт ли завтра дождь или выплатит ли клиент задолженность по кредиту.

Работа с моделью состоит из трёх шагов: подготовки модели, оценки её точности и использования для прогнозирования на новых данных.

Разберём каждый шаг подробнее, а чтобы было нагляднее, решим задачу.

Задача

Вспомните задачу про прогноз LTV из урока про когорты. Представьте, что запустили рекламную кампанию, за неделю она окупилась на 10%. Нужно решить, продолжать её или выключать.

У нас есть данные о прошлых рекламных каналах.

В прошлом компания брала среднюю окупаемость каналов за год и делала вывод, что новые каналы окупятся точно так же.

Окупаемость — количественный показатель, поэтому мы используем регрессию, сравним её точность со старым методом и выберем лучший. Начнём с подготовки данных.

Готовим данные

Чтобы оценить точность моделей, создадим тестовую выборку — часть данных, которые мы отложим в сторону и не используем при построении моделей. Тестовую выборку нужно выбирать случайно, но для наглядности уберём чётную половину рекламных каналов.

Оставшиеся записи называются обучающей выборкой.

Теперь обучим обе модели.

Обучаем модели

Старая модель простая, потому что основывается только на одном признаке — годовой окупаемости.

Прогноз равен среднему арифметическому от годовой окупаемости. Возьмём данные из обучающей выборки и посчитаем: ROI_год = (74+75+101+105+22) ÷ 5 = 75%

Модель 1: ROI_год = 75%

Новая модель чуть сложнее, потому что учитывает не только годовой, но и недельный ROI. Перед тем, как писать формулы, построим график.

Точки на графике — это рекламные каналы. На горизонтальной оси отложена недельная окупаемость, на вертикальной оси — годовая.

На графике видна зависимость: чем больше ROI на первой неделе, тем он больше и за год. Чтобы зависимость выглядела нагляднее, добавим линию тренда.

Вспоминаем уравнение прямой из школьного курса математики: y = a×x + b. В нашем случае y — это годовой ROI, а x — недельный. Это и есть формула, описывающая взаимосвязь недельной и годовой окупаемости. Осталось найти a и b.

Эксель и Гугл Таблицы умеют автоматически подбирать прямую, которая лучше всего описывает имеющиеся данные. В нашем случае уравнение линии тренда выглядит так: y = 8.72x + 0.06.

Модель 2: ROI_год = 8.72 × ROI_неделя + 0.06

Если мы подставим в формулу значение нового канала, то получим прогноз его окупаемости за год.

Но посмотрите ещё раз на график: хотя все точки и лежат около линии тренда, ни одна из них не находится непосредственно на ней.

То есть, прогноз с помощью полученной формулы будет не на 100% точным. Это нормально. Cледующая задача: оценить погрешность старой и новой моделей и выбрать более точную.

Оцениваем точность моделей

Возвращаемся к тестовой выборке, которую мы отложили в сторону. Чтобы оценить точность моделей, спрогнозируем годовой ROI для новых данных.

Прогноз первой модели одинаков для каждого канала и равен 75%. Прогноз второй модели зависит от недельной окупаемости и рассчитан по формуле y = 8.72x + 0.06.

Посмотрим на разницу реальных и предсказанных значений:

Синие точки — это фактические данные. Жёлтая линия — прогноз первой модели. Синяя линия — прогноз регрессии. Похоже, что синяя линия гораздо ближе к реальным значениям.

Сравнивать модели на графике не всегда удобно. Чаще в статистике используют показатель MSE (от английского mean squared error — среднеквадратичная ошибка).

Каждое отклонение прогноза от реального значения — это ошибка.

MSE показывает, как сильно ошибается модель. Иногда ошибки бывают в меньшую сторону, а иногда — в большую. Просто сложить их не получится. Чтобы привести все ошибки к положительному значению, в формуле их возводят в квадрат (поэтому mean squared error).

Чем меньше MSE — тем точнее модель.

Посчитаем ошибки для обеих моделей.

MSE_{модель 1} = (56² + (−19)² + 29² + 30² + 58²) ÷ 5 = 0.17

MSE_{модель 2} = (12² + 15² + 20² + (−6)² + 31²) ÷ 5 = 0.03

Eсли будете считать на калькуляторе, не забудьте, что мы складываем и умножаем проценты.

MSE линейной регрессии в пять раз меньше старой модели. Очевидно, что лучше использовать её.

Решаем задачу

Возвращаемся к новому рекламному источнику. За неделю он окупился на 10%. Спрогнозируем окупаемость за год:

ROI за год = 8.72 × 10% + 0.06 = 93.2%

Ожидаемая окупаемость за год меньше 100%. Похоже, что канал всё-таки будет убыточным. Надо останавливать.

Читайте также: Прогнозируем LTV в. Экселе.

Теперь вы узнали, как выбирать, обучать, сравнивать и использовать модели. Давайте повторим основные мысли.

Основные мысли урока

Прогнозы бывают экспертными и формальными.
У формальных прогнозов можно измерять и улучшать точность.
Формальные модели разделяют на регрессии и классификаторы.
Регрессии прогнозируют количественные значения.
Классификаторы — качественные значения.
Работа с моделью состоит из обучения, оценки точности и использования на новых данных
Точность модели оценивают с помощью MSE

В следующий раз

На следующем уроке мы подробнее разберем линейную регрессию и научимся строить прогноз самостоятельно в Гугл Таблицах.

Успехов,
Куличевский.