Давайте поговорим чуть больше о прогнозировании. Помните, я вам показывал в одной из презентаций про то, как считать 30‑дневный ROI вперёд? Мы говорили о Деливери‑клабе, который прогнозировал эффективность рекламной кампании по первым нескольким дням.
И в практике по когортному у нас было примерно такое же задание. Естественно, на практике такое примерное прогнозирование — вот когорта примерно такая, и, значит, дальше будет такой — это не очень хорошо: хотелось бы чего‑нибудь более точного. Сейчас я вам покажу, как это более точное делать. Конкретно покажу вам, как делать с помощью линейной регрессии.
Кто знает, что такое регрессии и как они работают? Хорошо. Собственно, регрессия — это статистический метод прогнозирования каких‑то данных по другим данным. Фишка в том, что ты прогнозируешь здесь количественный параметр. Методы прогнозирования качественных параметров — это классификаторы. Например, спам‑фильтр — это классификатор: он получает какие‑то параметры, на основе которых определяет, это письмо — спам или не спам. Скоринговая система в банке, которая определяет, давать человеку кредит или не давать, — тоже классификатор.
Регрессия. У нас есть когортные данные — только в другом виде — за несколько месяцев (за 35 месяцев, считайте, за три года). Так же метод будет работать, если когорты будут не месячные, а недельные или дневные, — если данных за три года нет. Мы знаем, сколько людей в каждой когорте: столько‑то юзеров, столько‑то юзеров, столько‑то юзеров. И дальше есть последовательная цепь измерений — сколько денег принесла нам эта когорта на второй день своего существования, на седьмой, на тридцатый, на шестидесятый и на 365‑й. То есть такие последовательные срезы (не обязательно всегда строить косынку). Наша задача: например, пришла новая когорта без номера, в ней было 10 000 человек, и за первые два дня эти люди принесли 1600 рублей (или долларов). Вопрос: сколько они принесут нам за год? Нужна конкретная цифра. Сначала расскажу принцип, а потом покажу, как это делать.
Принцип очень простой. На самом деле вы тыщу раз наверняка строили линейную регрессию в экселе. То есть давайте построим график под названием скатерплот. Скатерплот — это тот график, который вы строили в школе. Есть ось Х, ось Y, и вы вот смотрите координаты точки и размещаете её на графике. То, что вы видите явно на картинке, называется корреляция: два показателя связаны. Чем больше у вас юзеров — тем больше у вас выручка. Это весьма логичная корреляция: чем больше денег у людей, тем больше вы зарабатываете. Можно посчитать в среднем, сколько денег вам приносит за год один юзер, построив этот график. Давайте это сделаем. Другое название линейной регрессии в графиках — линия тренда. Трендлайн в экселе вы наверняка строили. Добавляем трендлинию. А гугль‑таблицы автоматически построили линию, которая лучше всего описывает текущие данные, — она составлена таким образом, чтобы суммарное расстояние от каждой точки до линии было минимальным. И так как это линия — у неё есть уравнение прямой y = 1544x + 2222, где y — это выручка за год, а x — это количество юзеров.