Проверка гипотез

Представьте, что мы работаем в интернет-магазине. Нам завезли партию товара — теперь нужно всё продать. Для этого мы делаем проморассылку по базе клиентов.

Разработчики только что вернулись с семинара по искусственному интеллекту и предлагают создать алгоритм, который сам выберет только тех подписчиков, кто с большой вероятностью что-то купит.

Так и сделали. Теперь проанализируем, что получилось.

В прошлом году уже делали подобную акцию. В тот раз письма отправили всем. Допустим, конверсия прошлогодней рассылки была 10%. В этом году 12% получателей что-то купили. Прирост составил два процентных пункта или 20%. Маркетологи обрадовались — теперь можно автоматизировать составление списков рассылки и больше времени посвятить другим делам. Но прежде чем использовать алгоритм для всех писем, они хотят убедиться, что результат произошёл не случайно и разница в конверсии статистически значима.

Давайте разберёмся, как это сделать. Начнём с пятиминутки математической статистики.

Пятиминутка математической статистики

Представьте, что у вас есть симметричная монета (падает на обе стороны с одинаковой вероятностью). Какова вероятность, что если вы одинаково подбросите эту монету пять раз, четыре раза выпадет решка?

Чтобы ответить на вопрос, посмотрим, какие вообще могут быть варианты исхода эксперимента.

Вариант первый. Орёл может выпасть пять раз:

Вариант второй. Решка может выпасть один раз: при первом броске, при втором и так далее. Вы бросаете монету пять раз, значит возможны 5 вариантов:

Продолжаем. Решка может выпасть два раза. Бывает 10 возможных вариантов получения такого результата:

Есть 10 возможных вариантов, когда решка выпадает три раза:

Ещё пять вариантов с четырьмя решками:

И последний вариант — все пять монет упали решкой вверх:

Всего 1+5+10+10+5+1 = 32 возможных исхода эксперимента. Из них нас интересуют те, при которых мы получили четыре решки. Таких вариантов пять. Получается, что вероятность получить четыре решки при пяти подбрасываниях симметричной монеты = 5/32 или примерно 16%.

В статистике такой эксперимент называют биномиальным.

Биномиальный эксперимент состоит из n испытаний, каждое из которых может принимать одно из двух значений: «успех» или «неудача».

Каждое испытание должно быть независимым — исход предыдущего испытания не влияет на результат следующего. Вероятность успеха одинакова для каждого испытания.

В примере с монетами каждое испытание — подбрасывание монеты. Успехом мы считаем выпадение решки. Неудачей — выпадение орла.

Исход биномиального эксперимента называют биномиальной случайной величиной, а распределение вероятностей значений этой величины — биномиальным распределением. Если отобразить биномиальное распределение пяти бросков монеты, получится такой график:

На горизонтальной оси X отложены возможные значения исхода эксперимента, на вертикальной оси Y — вероятность соответствующего исхода.

Вероятнее всего, из пяти монет либо две, либо три упадут на решку. Это подтверждает наше знание, что монета симметричная, и вероятность выпадения орла или решки одинакова.

Если вы продолжите подбрасывать монету и замерять результат, график будет всё больше сглаживаться и собираться вокруг среднего значения. Например, вот так он будет выглядеть после 50 подбрасываний:

Теперь представьте, что вам на день рождения подарили ещё одну монету, и вы хотите узнать, не смещён ли у неё центр тяжести. Чтобы проверить, вы проводите эксперимент: подбрасываете монету 50 раз и считаете, сколько раз она упадёт решкой вверх.

Допустим, решка выпала 18 раз из 50 подбрасываний. Можете ли вы сделать вывод, что у монеты смещён центр тяжести, и в будущем решка будет выпадать реже, чем орёл?

Предположим, что монета симметрична — посчитаем вероятность получить 18 или меньше решек из 50 подбрасываний. Я подготовил таблицу распределения вероятностей эксперимента. Чтобы рассчитать нужное значение, сложим вероятности получения нуля решек, одной, двух, трёх и так далее до 18. Эта вероятность равна 3.25%. Это мало.

Значит, гипотезу о том, что монета симметричная нужно признать ложной. Следовательно у монеты смещён центр тяжести.

Эта техника называется проверкой статистических гипотез.

Как проверять статистические гипотезы

  1. Формулируете основную гипотезу («монета симметрична»).
  2. Формулируете альтернативную гипотезу, противоречащую основной («у монеты смещён центр тяжести»).
  3. Проводите эксперимент — подбрасываете монету 50 раз и считаете, сколько раз она упадёт решкой вверх.
  4. Считаете вероятность получения результата при условии, что основная гипотеза истинна.
  5. Если вероятность ниже 5%, отвергаете основную гипотезу и подтверждаете альтернативную.

Порог в 5% называют уровнем статистической значимости. Почему именно 5% никто не знает. Видимо, когда-то один из учёных подумал, что 5% — подходящий порог, а остальные с ним согласились.

На самом деле там может быть любое значение. Чем оно больше, тем больше вероятность того, что вы ошибочно подтвердите основную гипотезу.

Вероятность получения результата для четвёртого пункта считают по формуле:

Вам не нужно её запоминать, потому что я сделал для вас калькулятор. Вводите в него количество успешных испытаний, итоговое количество испытаний и вероятность успеха в каждом испытании. Калькулятор посчитает вероятность получения такого результата.

Теперь вы знаете, что такое биномиальное распределение, как оценивать вероятность исхода эксперимента, формулировать и проверять гипотезы. Вооружившись этими знаниями, вернёмся к задаче из начала урока.

Решаем задачу

В прошлом году вы отправили рассылку 1 000 людям и получили 100 заказов — конверсия составила 10%. В этом году получателей столько же, но покупателей на 20 больше.

Можно ли считать, что рассылка по листу, собранному с помощью машинного обучения, даёт лучший результат, чем в прошлом году?

Рассылка — такой же биномиальный эксперимент, как подбрасывание монеты: она состоит из n испытаний (человек получил письмо), каждое из которых может закончиться либо успехом (получатель стал покупателем) или неудачей. Каждое испытание независимо, то есть на решение о покупке каждого подписчика не влияют решения остальных.

Тут, конечно, можно придумать гипотетическую ситуацию, что подписчики знакомы и принимают решение сообща, но это очень маловероятно. Мы всё-таки продаем шерстяные носки, а не билеты в кино.

Значит для решения задачи можно использовать аналогичный подход. Сформулируем основную гипотезу: новая и старая рассылка одинаковы по эффективности. Альтернативная гипотеза: новая рассылка более эффективна.

Допустим, основная гипотеза верна. То есть, настоящая конверсия новой рассылки 10%, а 12% мы получили случайно. Посчитаем, насколько вероятна эта случайность.

Вероятность того, что конверсии будет больше 12% равна 1.7%. Это меньше уровня статистической значимости в 5%, следовательно основная гипотеза неверна.

Тут мы по идее должны заключить, что новый алгоритм и правда работает лучше. Но не всё так просто. Мы выяснили, что новая рассылка эффективнее старой. Но мы не выяснили почему.

Может быть это алгоритм, а может — то, что за год бренд магазина стал более известным, обанкротились конкуренты или в течение года в базу подписчиков попали более платёжеспособные клиенты.

Чтобы узнать наверняка, нужно провести А/Б-тестирование, то есть собрать две группы подписчиков, одну случайным образом (как мы делали в прошлом году), другую — с помощью алгоритма, одновременно послать им идентичное письмо и замерить результат. Если в этот раз конверсия окажется выше, тогда можно будет признать, что новый алгоритм работает.

Про А/Б-тестирования я подробнее расскажу в следующем уроке.

До скорого,
Куличевский.