Математическая статистика
|
|
Привет. Это один из уроков платной рассылки про аналитику.
Пожалуйста, не пересылайте его друзьям и не публикуйте.
|
|
|
Чтобы правильно планировать и проводить А/Б-тестирования, нужно понимать, что такое случайные величины, генеральные совокупности и доверительные интервалы. Так что сегодня учимся математическому языку, а к А/Б-тестам вернёмся в следующий раз.
|
|
Условно математическую статистику можно разделить на два раздела: описательную и доказательную. Расскажу, чем они различаются и как помогают аналитикам.
Описательная статистика
Представьте, что рассказываете другу о компании, в которой работаете. Друг спросил, сколько зарабатывают в фирме. Вы можете перечислить все зарплаты или сказать: «В среднем сотрудники моей компании зарабатывают Х рублей в месяц». Усреднение — это приём описательной статистики.
Описательная статистика выделяет набор характеристик совокупности объектов. Как ни странно, это нужно, чтобы их было проще описывать и сравнивать между собой.
Чаще всего для описания используют четыре характеристики: математическое ожидание, дисперсию, стандартное отклонение и закон распределения.
Математическое ожидание — это среднее арифметическое значение случайной величины.
В примере с зарплатами, математическое ожидание — это средняя зарплата. Оно упаковывает информацию обо всей совокупности в одно число. Мы пользуемся им постоянно, говоря о средней продолжительности жизни, среднем количестве осадков и среднем чеке в магазине.
Иногда матожидания для описания совокупности мало. Например, сравните зарплаты в двух компаниях:
|
|
Средняя зарплата в компаниях одинаковая, 80 тысяч рублей, но разброс зарплат во второй компании значительно шире.
Представьте соискателя, выбирающего, куда пойти работать. В первой компании его зарплата, скорее всего, и правда будет в районе 80 тысяч. Во второй можно получать сильно меньше и сильно больше.
Информация о разбросе зарплат поможет человеку принять решение, куда пойти работать. Чтобы описать этот разброс, нужен ещё один показатель — дисперсия.
Дисперсия описывает расстояние, на которое значения случайной величины рассеиваются вокруг его математического ожидания.
Дисперсию считают в два этапа: сначала с помощью теоремы Пифагора считают квадрат расстояния от математического ожидания до каждого элемента совокупности, а затем берут среднее значение.
Чем меньше дисперсия, тем ближе элементы расположены к «центру» совокупности.
Посчитаем дисперсию зарплат в первой компании: ((80 − 30)2 + (80 − 70)2 + (80 − 50)2 + (80 − 170)2) / 4 = 2 900.
И во второй: ((80 − 75)2 + (80 − 85)2 + (80 − 85)2 + (80 − 75)2) / 4 = 25.
Дисперсия — среднее значение от квадрата расстояний, поэтому она измеряется в квадратных единицах, например, в квадратных рублях. Чтобы измерить рассеяние в обычных единицах (в нашем случае — в обычных рублях), от дисперсии извлекают квадратный корень. Получившийся показатель называют стандартным отклонением. Мы ещё вспомним о нём дальше.
Стандартное отклонение — это квадратный корень от дисперсии.
Стандартное отклонение зарплат первой компании √2900 = 53.8 тысяч рублей, во второй — √25 = 5 тысяч рублей.
Помните, мы оценивали MSE и RMSE в уроке про регрессию? По сути, мы считали дисперсию и стандартное отклонение прогноза.
Случайные величины принимают различные значения с разной вероятностью. Описание этих вероятностей называют законом распределения.
Закон распределения — это функция, таблица или график, определяющая вероятность принятия случайной величиной того или иного значения.
Например, на прошлом уроке мы изучали возможные исходы эксперимента по подбрасыванию монеты пять раз и составили таблицу с возможными значениями и вероятностью появления. Другими словами, мы составили закон распределения той случайной величины.
Чаще других в природе встречается нормальное распределение. Нормально распределены, например, рост и вес людей. График распределения похож на колокол.
|
|
На графике видно, что большая часть значений случайной величины сосредоточена симметрично относительно её центра. Это важное свойство нормального распределения: 95% всех значений находятся в диапазоне двух стандартных отклонений вокруг его математического ожидания.
Это свойство нам пригодится при решении задач доказательной статистики. Поговорим о ней.
Доказательная статистика
Допустим, нам нужно узнать средний рост мужчин в России. Получается, нам нужно измерить рост 65 миллионов мужчин — согласитесь, это странная идея.
Чтобы не отдавать жизнь исследованию среднего роста россиян, можно случайным образом выбрать тысячу мужчин разных возрастов, измерить их рост, и на основе результатов этой выборки сделать вывод о среднем росте всех мужчин в России. Делать вывод о большей популяции на основании данных небольшой группы — пример задачи доказательной статистики.
Большую популяцию (в нашем случае — рост всех мужчин в России) называют генеральной совокупностью. Группу мужчин, рост которых мы измерим, называют выборочной совокупностью или просто выборкой.
Задача доказательной статистики — оценить характеристики генеральной совокупности с помощью выборок.
У генеральных совокупностей и выборок есть математические ожидания (средний рост), дисперсии и стандартные отклонения. Чтобы их не путать, параметры генеральной совокупности принято обозначать греческими буквами, а параметры выборок — латинскими.
Математическое ожидание генеральной совокупности обычно обозначают буквой μ («мю»), дисперсию — σ2 («сигма в квадрате»), а стандартное отклонение — σ («сигма»).
Матожидание выборки обозначают M, дисперсию — S2, а стандартное отклонение — S.
M, S2 и S — известны, потому что мы измерили мужчин в выборке. μ, σ2 и σ неизвестны — их и нужно оценить. В этом нам поможет центральная предельная теорема.
Центральная предельная теорема
Есть генеральная совокупность с неизвестными матожиданием μ и дисперсией σ2.
Допустим, мы возьмём бесконечно много случайных выборок размера n из этой совокупности и посчитаем среднее арифметическое от значений каждой выборки.
Каждый раз выборка новая, значит и среднее тоже будет новым. Мы его не знаем заранее, поэтому можно сказать, что среднее значение выборки — это случайная величина.
Более того:
- Эта случайная величина подчиняется нормальному распределению.
- Её математическое ожидание равно матожиданию генеральной совокупности (M = μ).
- Её дисперсия равна дисперсии генеральной совокупности, делённой на количество элементов в каждой выборке (S2 = σ2 ÷ n).
Бесконечно много выборок бывают только в воображении математиков, поэтому на практике распределение стремится к нормальному, а матожидание выборки — к матожиданию генеральной совокупности. Для решения задач такого приближения достаточно.
Из того, что средние значения образуют нормальное распределение следует, что с 95% вероятностью матожидание генеральной совокупности μ будет находится в интервале M ± 2 × S.
Этот интервал называется 95-процентным доверительным интервалом.
Звучит пока непонятно. Я записал короткое видео с демонстрацией, чтобы объяснить, как это работает.
|
|
Вооружившись знанием о центральной предельной теореме и 95% доверительном интервале, решим задачу.
Решаем задачу
Представьте владельца лавки на базаре в средневековом Багдаде.
Как-то утром к нему приехали два фермера, каждый привёз по телеге яблок и предложил купить. Оба просят за товар по сто монет. Две телеги хранить негде, да и продать столько яблок сложно. Нужно выбрать одну.
Торговцу выгоднее, чтобы яблоки были крупнее — они стоят дороже. Крупнее — тяжелее. Следовательно, нужно выбрать ту телегу, в которой средний вес яблока больше.
Взвесить всю телегу не получится — достаточно больших весов пока не придумали. Но владелец лавки решил оценить средний вес яблок. Он взял из каждой телеги по яблоку, взвесил их и записал вес в журнал:
|
|
Затем он достал ещё по одному яблоку и повторил процедуру. Десять взвешиваний спустя, получилась такая таблица:
|
|
Теперь посчитаем средние значения. Средний вес яблока из первой телеги: (171 + 145 + 176 + 180 + 168 + 168 + 176 + 153 + 155 + 164) ÷ 10 = 165.6 грамм. Средний вес яблока из второй телеги: (175 + 200 + 171 + 187 + 176 + 197 + 200 + 163 + 180 + 186) ÷ 10 = 183.5 грамм.
Похоже, что яблоки во второй телеге крупнее, но лавочник сомневается: может быть, он просто случайно выбрал самые маленькие яблоки из первой телеги и самые крупные из второй.
Торговец отложил на графике, сколько раз в каждой выборке попалось яблоко каждого веса и увидел, что выборки сильно пересекаются: случайное яблоко из второй телеги вполне может весить меньше, чем случайное яблоко из первой. То есть, пока нельзя однозначно сказать, яблоки из какой телеги стоит купить.
|
|
Чтобы принять решение, торговец проявил настоящее мастерство аналитика и накопил ещё данных. Но в этот раз он взял не по одному яблоку, а по десять, и посчитал средний вес в каждом десятке.
Вот что получилось после 20 подходов:
|
|
Средний вес всех выборок (в статистике это называется матожиданием среднего) яблок из первой телеги — 165 грамм. Из второй — 179. Если отобразить веса на графике, видно, что графики ужались и разошлись.
|
|
Торговец заметил, что почти всегда средний вес десяти яблок из первой телеги находился в интервале от 160 до 171 грамма, а средний вес яблок из второй телеги — в интервале от 173 до 186. На основании этой информации, он решил, что яблоки во второй телеге тяжелее и отдал сто монет второму фермеру.
Рассмотрим задачу с точки зрения статистики
Телеги с яблоками — две генеральные совокупности. Назовём их T1 и T2 (от «телега 1» и «телега 2»). Средний вес яблок в каждой телеге — это математическое ожидание совокупности. Назовём матожидание первой телеги μ1, а второй — μ2. Чтобы решить, какую телегу покупать, нужно оценить μ1 и μ2.
Провели 20 экспериментов: из каждой телеги доставали выборки размера n = 10 яблок и измеряли среднее.
Получились два набора случайных величин. Первый с матожиданием M1 = 165 грамм, второй — с матожиданием M2 = 179 грамм. Стандартное отклонение первого набора S1 = 3.2 грамма, второго — S2 = 3.5 грамма.
В соответствии с центральной предельной теоремой, мы знаем, что оба набора подчиняются нормальному распределению и что их матожидания стремятся к матожиданиям генеральной совокупности. Используя средний вес яблок в обеих выборках, можно оценить средний вес яблок в телегах.
Мы можем заявить, что на 95% уверены, что матожидание генеральной совокупности T1 находится в диапазоне от 165 − 2 × 3.2 = 158.6 по 165 + 2 × 3.2 = 171.4 граммов. Матожидание генеральной совокупности T2 — в диапазоне с 179 − 2 × 3.5 = 172 по 179 + 2 × 3.5 = 186 граммов.
То есть, средний вес одного яблока в первой телеге находится в интервале от 158.6 до 171.4 граммов, а средний вес одного яблока во второй телеге — в интервале от 172 до 186 граммов.
Доверительные интервалы не пересекаются — теперь мы точно уверены, что яблоки во второй телеге крупнее, чем в первой.
* * *
Анализ результатов А/Б-теста работает по такой же логике. Генеральные совокупности — это конверсии всех людей на планете. Единственный способ узнать на 100% точную конверсию — послать рассылку всем.
Это невозможно, поэтому вы проводите тест — шлёте письма небольшому списку людей. Эти люди — ваша выборка. Измеренная конверсия — измеренное матожидание. Вам осталось только построить доверительные интервалы и сравнить их. Но об этом в следующий раз.
Запомнить
- Описательная статистика выделяет набор характеристик совокупности, чтобы было проще о ней рассказывать и сравнивать с другими совокупностями.
- Доказательная статистика оценивает характеристики генеральных совокупностей с помощью выборок.
- Чтобы описать «центр» распределения, считают математическое ожидание — это среднее арифметическое значение совокупности.
- Чтобы оценить, как далеко элементы совокупности рассеяны от центра, считают дисперсию и стандартное отклонение.
- Важное свойство нормального распределения — 95% его элементов расположены на расстоянии двух стандартных отклонений вокруг его матожидания.
- В соответствии с центральной предельной теоремой, если взять из генеральной совокупности бесконечное число выборок и посчитать среднее значение каждой, эти средние значения образуют нормальное распределение с центром в матожидании генеральной совокупности.
|
|
Гуд лак,
В прошлой жизни — торговец из Багдада
Алексей ибн Куличевский
|
|
|
|