Математическая статистика

Привет. Это один из уроков платной рассылки про аналитику.
Пожалуйста, не пересылайте его друзьям и не публикуйте.

Чтобы правильно планировать и проводить А/Б-тестирования, нужно понимать, что такое случайные величины, генеральные совокупности и доверительные интервалы. Так что сегодня учимся математическому языку, а к А/Б-тестам вернёмся в следующий раз.

Условно математическую статистику можно разделить на два раздела: описательную и доказательную. Расскажу, чем они различаются и как помогают аналитикам.

Описательная статистика

Представьте, что рассказываете другу о компании, в которой работаете. Друг спросил, сколько зарабатывают в фирме. Вы можете перечислить все зарплаты или сказать: «В среднем сотрудники моей компании зарабатывают Х рублей в месяц». Усреднение — это приём описательной статистики.

Описательная статистика выделяет набор характеристик совокупности объектов. Как ни странно, это нужно, чтобы их было проще описывать и сравнивать между собой.

Чаще всего для описания используют четыре характеристики: математическое ожидание, дисперсию, стандартное отклонение и закон распределения.

Математическое ожидание — это среднее арифметическое значение случайной величины.

В примере с зарплатами, математическое ожидание — это средняя зарплата. Оно упаковывает информацию обо всей совокупности в одно число. Мы пользуемся им постоянно, говоря о средней продолжительности жизни, среднем количестве осадков и среднем чеке в магазине.

Иногда матожидания для описания совокупности мало. Например, сравните зарплаты в двух компаниях:

Средняя зарплата в компаниях одинаковая, 80 тысяч рублей, но разброс зарплат во второй компании значительно шире.

Представьте соискателя, выбирающего, куда пойти работать. В первой компании его зарплата, скорее всего, и правда будет в районе 80 тысяч. Во второй можно получать сильно меньше и сильно больше.

Информация о разбросе зарплат поможет человеку принять решение, куда пойти работать. Чтобы описать этот разброс, нужен ещё один показатель — дисперсия.

Дисперсия описывает расстояние, на которое значения случайной величины рассеиваются вокруг его математического ожидания.

Дисперсию считают в два этапа: сначала с помощью теоремы Пифагора считают квадрат расстояния от математического ожидания до каждого элемента совокупности, а затем берут среднее значение.

Чем меньше дисперсия, тем ближе элементы расположены к «центру» совокупности.

Посчитаем дисперсию зарплат в первой компании: ((80 − 30)2 + (80 − 70)2 + (80 − 50)2 + (80 − 170)2) / 4 = 2 900.

И во второй: ((80 − 75)2 + (80 − 85)2 + (80 − 85)2 + (80 − 75)2) / 4 = 25.

Дисперсия — среднее значение от квадрата расстояний, поэтому она измеряется в квадратных единицах, например, в квадратных рублях. Чтобы измерить рассеяние в обычных единицах (в нашем случае — в обычных рублях), от дисперсии извлекают квадратный корень. Получившийся показатель называют стандартным отклонением. Мы ещё вспомним о нём дальше.

Стандартное отклонение — это квадратный корень от дисперсии.

Стандартное отклонение зарплат первой компании √2900 = 53.8 тысяч рублей, во второй — √25 = 5 тысяч рублей.

Помните, мы оценивали MSE и RMSE в уроке про регрессию? По сути, мы считали дисперсию и стандартное отклонение прогноза.

Случайные величины принимают различные значения с разной вероятностью. Описание этих вероятностей называют законом распределения.

Закон распределения — это функция, таблица или график, определяющая вероятность принятия случайной величиной того или иного значения.

Например, на прошлом уроке мы изучали возможные исходы эксперимента по подбрасыванию монеты пять раз и составили таблицу с возможными значениями и вероятностью появления. Другими словами, мы составили закон распределения той случайной величины.

Чаще других в природе встречается нормальное распределение. Нормально распределены, например, рост и вес людей. График распределения похож на колокол.

График распределения роста взрослых мужчин в Европе. Средний рост — 178 см. Источник: исследование в Оксфорд Экономик Пейперс.

На графике видно, что большая часть значений случайной величины сосредоточена симметрично относительно её центра. Это важное свойство нормального распределения: 95% всех значений находятся в диапазоне двух стандартных отклонений вокруг его математического ожидания.

Это свойство нам пригодится при решении задач доказательной статистики. Поговорим о ней.

Доказательная статистика

Допустим, нам нужно узнать средний рост мужчин в России. Получается, нам нужно измерить рост 65 миллионов мужчин — согласитесь, это странная идея.

Чтобы не отдавать жизнь исследованию среднего роста россиян, можно случайным образом выбрать тысячу мужчин разных возрастов, измерить их рост, и на основе результатов этой выборки сделать вывод о среднем росте всех мужчин в России. Делать вывод о большей популяции на основании данных небольшой группы — пример задачи доказательной статистики.

Большую популяцию (в нашем случае — рост всех мужчин в России) называют генеральной совокупностью. Группу мужчин, рост которых мы измерим, называют выборочной совокупностью или просто выборкой.

Задача доказательной статистики — оценить характеристики генеральной совокупности с помощью выборок.

У генеральных совокупностей и выборок есть математические ожидания (средний рост), дисперсии и стандартные отклонения. Чтобы их не путать, параметры генеральной совокупности принято обозначать греческими буквами, а параметры выборок — латинскими.

Математическое ожидание генеральной совокупности обычно обозначают буквой μ («мю»), дисперсию — σ2 («сигма в квадрате»), а стандартное отклонение — σ («сигма»).

Матожидание выборки обозначают M, дисперсию — S2, а стандартное отклонение — S.

M, S2 и S — известны, потому что мы измерили мужчин в выборке. μ, σ2 и σ неизвестны — их и нужно оценить. В этом нам поможет центральная предельная теорема.

Центральная предельная теорема

Есть генеральная совокупность с неизвестными матожиданием μ и дисперсией σ2.

Допустим, мы возьмём бесконечно много случайных выборок размера n из этой совокупности и посчитаем среднее арифметическое от значений каждой выборки.

Каждый раз выборка новая, значит и среднее тоже будет новым. Мы его не знаем заранее, поэтому можно сказать, что среднее значение выборки — это случайная величина.

Более того:

  1. Эта случайная величина подчиняется нормальному распределению.
  2. Её математическое ожидание равно матожиданию генеральной совокупности (M = μ).
  3. Её дисперсия равна дисперсии генеральной совокупности, делённой на количество элементов в каждой выборке (S2 = σ2 ÷ n).

Бесконечно много выборок бывают только в воображении математиков, поэтому на практике распределение стремится к нормальному, а матожидание выборки — к матожиданию генеральной совокупности. Для решения задач такого приближения достаточно.

Из того, что средние значения образуют нормальное распределение следует, что с 95% вероятностью матожидание генеральной совокупности μ будет находится в интервале M ± 2 × S. Этот интервал называется 95-процентным доверительным интервалом.

Звучит пока непонятно. Я записал короткое видео с демонстрацией, чтобы объяснить, как это работает.

Вооружившись знанием о центральной предельной теореме и 95% доверительном интервале, решим задачу.

Решаем задачу

Представьте владельца лавки на базаре в средневековом Багдаде.

Как-то утром к нему приехали два фермера, каждый привёз по телеге яблок и предложил купить. Оба просят за товар по сто монет. Две телеги хранить негде, да и продать столько яблок сложно. Нужно выбрать одну.

Торговцу выгоднее, чтобы яблоки были крупнее — они стоят дороже. Крупнее — тяжелее. Следовательно, нужно выбрать ту телегу, в которой средний вес яблока больше.

Взвесить всю телегу не получится — достаточно больших весов пока не придумали. Но владелец лавки решил оценить средний вес яблок. Он взял из каждой телеги по яблоку, взвесил их и записал вес в журнал:

Затем он достал ещё по одному яблоку и повторил процедуру. Десять взвешиваний спустя, получилась такая таблица:

Теперь посчитаем средние значения. Средний вес яблока из первой телеги: (171 + 145 + 176 + 180 + 168 + 168 + 176 + 153 + 155 + 164) ÷ 10 = 165.6 грамм. Средний вес яблока из второй телеги: (175 + 200 + 171 + 187 + 176 + 197 + 200 + 163 + 180 + 186) ÷ 10 = 183.5 грамм.

Похоже, что яблоки во второй телеге крупнее, но лавочник сомневается: может быть, он просто случайно выбрал самые маленькие яблоки из первой телеги и самые крупные из второй.

Торговец отложил на графике, сколько раз в каждой выборке попалось яблоко каждого веса и увидел, что выборки сильно пересекаются: случайное яблоко из второй телеги вполне может весить меньше, чем случайное яблоко из первой. То есть, пока нельзя однозначно сказать, яблоки из какой телеги стоит купить.

Чтобы принять решение, торговец проявил настоящее мастерство аналитика и накопил ещё данных. Но в этот раз он взял не по одному яблоку, а по десять, и посчитал средний вес в каждом десятке.

Вот что получилось после 20 подходов:

Средний вес всех выборок (в статистике это называется матожиданием среднего) яблок из первой телеги — 165 грамм. Из второй — 179. Если отобразить веса на графике, видно, что графики ужались и разошлись.

Торговец заметил, что почти всегда средний вес десяти яблок из первой телеги находился в интервале от 160 до 171 грамма, а средний вес яблок из второй телеги — в интервале от 173 до 186. На основании этой информации, он решил, что яблоки во второй телеге тяжелее и отдал сто монет второму фермеру.

Рассмотрим задачу с точки зрения статистики

Телеги с яблоками — две генеральные совокупности. Назовём их T1 и T2 (от «телега 1» и «телега 2»). Средний вес яблок в каждой телеге — это математическое ожидание совокупности. Назовём матожидание первой телеги μ1, а второй — μ2. Чтобы решить, какую телегу покупать, нужно оценить μ1 и μ2.

Провели 20 экспериментов: из каждой телеги доставали выборки размера n = 10 яблок и измеряли среднее.

Получились два набора случайных величин. Первый с матожиданием M1 = 165 грамм, второй — с матожиданием M2 = 179 грамм. Стандартное отклонение первого набора S1 = 3.2 грамма, второго — S2 = 3.5 грамма.

В соответствии с центральной предельной теоремой, мы знаем, что оба набора подчиняются нормальному распределению и что их матожидания стремятся к матожиданиям генеральной совокупности. Используя средний вес яблок в обеих выборках, можно оценить средний вес яблок в телегах.

Мы можем заявить, что на 95% уверены, что матожидание генеральной совокупности T1 находится в диапазоне от 165 − 2 × 3.2 = 158.6 по 165 + 2 × 3.2 = 171.4 граммов. Матожидание генеральной совокупности T2 — в диапазоне с 179 − 2 × 3.5 = 172 по 179 + 2 × 3.5 = 186 граммов.

То есть, средний вес одного яблока в первой телеге находится в интервале от 158.6 до 171.4 граммов, а средний вес одного яблока во второй телеге — в интервале от 172 до 186 граммов.

Доверительные интервалы не пересекаются — теперь мы точно уверены, что яблоки во второй телеге крупнее, чем в первой.

* * *

Анализ результатов А/Б-теста работает по такой же логике. Генеральные совокупности — это конверсии всех людей на планете. Единственный способ узнать на 100% точную конверсию — послать рассылку всем.

Это невозможно, поэтому вы проводите тест — шлёте письма небольшому списку людей. Эти люди — ваша выборка. Измеренная конверсия — измеренное матожидание. Вам осталось только построить доверительные интервалы и сравнить их. Но об этом в следующий раз.

Запомнить

  1. Описательная статистика выделяет набор характеристик совокупности, чтобы было проще о ней рассказывать и сравнивать с другими совокупностями.
  2. Доказательная статистика оценивает характеристики генеральных совокупностей с помощью выборок.
  3. Чтобы описать «центр» распределения, считают математическое ожидание — это среднее арифметическое значение совокупности.
  4. Чтобы оценить, как далеко элементы совокупности рассеяны от центра, считают дисперсию и стандартное отклонение.
  5. Важное свойство нормального распределения — 95% его элементов расположены на расстоянии двух стандартных отклонений вокруг его матожидания.
  6. В соответствии с центральной предельной теоремой, если взять из генеральной совокупности бесконечное число выборок и посчитать среднее значение каждой, эти средние значения образуют нормальное распределение с центром в матожидании генеральной совокупности.
Гуд лак,
В прошлой жизни — торговец из Багдада
Алексей ибн Куличевский