Вся аналитика, все прогнозы — классные. Они используются для понимания того, что делать с вашим бизнесом. Вы посмотрели когорты, спрогнозировали LTV или не LTV и подумали: «О! Вот это именно то, что нам нужно сделать».
Когда вы отлаживаете прогностические модели, вы можете просчитать их точность, просчитать, что мы, например, на 95% уверены, что будет именно так. Но единственный способ по‑настоящему узнать, как оно будет, — это взять и сделать. Соответственно, если вы делаете новый дизайн и хотите узнать, лучше он или хуже, или же если у вас есть идея нового заголовка в рассылке, то нет никакого смысла гадать — надо просто пробовать.
А/Б‑тестирование — это отличный инструмент, который помогает вам узнать наверняка, что работает, а что нет.
Берёте выбираете продукт А и продукт Б, сравниваете их, пускаете их одновременно, где конверсия выше, тот и победитель. Очень простой и понятный инструмент.
Однако у А/Б‑тестирования есть одна проблема — принцип «улучшать сложно», так как вокруг этих тестов выросло огромное количество платных и бесплатных инструментов, которые позволяют делать быстро и просто. Отсюда сложился миф, что А/Б‑тесты — это панацея, их надо везде делать и всё ими а‑б‑тестировать, и будет счастье, конверсия будет взлетать до небес, CTR‑ы будут огромными, а клиенты бесплатными. Но так не получается по одной простой причине: улучшать ваш продукт сложно.
Из всей бесконечности возможностей фич и вещей, которые можно прикрутить, эффект будут иметь только единицы. Вы можете их все протестировать. И даже если вы всё сделаете правильно, то 9 из 10 тестов дадут вам результат, что нет никакой разницы. Оставшиеся проценты скажут вам, что вы ухудшите (ухудшить как раз просто, а улучшить — сложно). И только крупицы дадут вам улучшение.
Конечно, может так произойти, что вы сорвёте джекпот и у вас будет улучшение двукратное, трёхкратное, четырёхкратное. Это значит, что у вас до этого всё было хреново. Обычно дальше следует этап проб и ошибок. И раз такое низкое ожидание результата, было бы обидно принять неправильное решение из‑за неверной интерпретации результатов. И вот о чём я хочу поговорить и как интерпретировать их результаты.
Самое основное — это то, что А/Б‑тест — научный эксперимент. Это новый термин, который появился в двухтысячных годах и набрал популярность с развитием интернета.
Что такое научный эксперимент? Это исследование в управляемых условиях. Например, есть в науке способ познания под названием «наблюдение», когда вы идёте в природу и смотрите, не влияя на среду. Вы просто наблюдаете и замечаете закономерности. Но есть эксперимент, где вы сами создаёте среду и сами контролируете если не всё, то максимальное количество факторов. Делается это для того, чтобы максимально чётко выявить влияние конкретного фактора на явление.
Например, вы хотите увеличить конверсию на вашей посадочной странице. Есть куча факторов, влияющих на конверсию: что за люди, куда они пришли, откуда они пришли, зачем они пришли. Во‑первых, это могут быть люди с порносайтов, школьники, ваша целевая аудитория или ещё кто‑то. Во‑вторых, на это также может влиять дизайн сайта. В‑третьих, на это могут влиять ещё какие‑то дополнительные факторы, о которых вы даже не могли подумать, типа экономической ситуации в стране: доллар подорожал — люди стали покупать меньше. И если ваша задача узнать, как влияет именно дизайн, то вы проектируете эксперимент, в котором фиксируете влияние всех факторов, кроме нужного вам, потом проводите измерения и замеряете влияние данного фактора на результат.
То, насколько ваш эксперимент отображает реальность, называется валидностью. Валидность бывает двух типов: внутренняя или внешняя.
Например, задача эксперимента — отобразить влияние фактора на явление. Если ваш эксперимент не показывает этого влияния — это бесполезный эксперимент. Отображение этой связи называется «внутренняя валидность». Если вы в эксперименте увидели взаимосвязь, но нет уверенности, что дальше взаимосвязь будет такой же, — тоже бесполезный эксперимент. Внешняя валидность — это если ваш новый лендинг показал прирост конверсии в 20%, то он и дальше будет показывать этот же рост. Вам всё равно, сколько было конверсии в прошлом, вас интересует только то, сколько будет дальше в будущем. И если вы не можете провести эту взаимосвязь, то смысла нет.
Пример:
Вы тестируете два варианта посадочных страниц — на какой больше конверсия?
Внутренняя валидность: различия в конверсии вызваны именно дизайном.
Внешняя валидность: победитель и дальше будет показывать более высокую конверсию.
Как же обеспечить внутреннюю валидность? С этим относительно просто. Для того чтобы эксперимент был валидным, следует исключить все факторы. Есть две вещи, которые решают 99% внутренней валидности.
Проведение теста параллельно. Казалось бы, здравый смысл, но не все это делают. Параллельно — значит вы одновременно показываете двум группам два дизайна. Или, если вы хотите протестировать новый заголовок письма, вы одновременно двум группам посылаете два письма, которые различаются этим заголовком. Почему это важно? Потому что если вы пошлёте подряд, то у вас появится фактор, который вы не контролируете, — время. Например, вчера доллар стоил одно количество денег, сегодня стоит другое количество денег. Всё, у вас уже разница в конверсии может быть вызвана чем угодно — долларом, или там новости какие‑то в интернете появились. Если вы их отправляете одновременно, то изменение доллара, изменение новостей в интернете, что угодно — оно, теоретически, равномерно повлияет на обе группы. Если оно одновременно повлияет на обе группы, то это влияние можно будет нивелировать.
Распределение клиентов на группы в случайном порядке (избежание систематических ошибок: если мы хотим измерить средний рост мужчин в стране, мы берём выборку случайных мужчин/парней/стариков, меряем их и делаем вывод, что все мужчины примерно такие же). Особо важно, чтобы выборка была репрезентативной (представляющей каждый отдельный слой общества).
Как проверить внутреннюю валидность? Она проверяется с помощью А/А‑тестов. А/А‑тест — это то же самое, что и А/Б‑тест, только показываются два одинаковых дизайна:
Все люди делятся на некоторое количество групп, и им всем показывается одно и то же. Вы ожидаете увидеть, что А/А‑тест даст одни и те же результаты: одни и те же люди, один и тот же дизайн — значит, одна и та же конверсия. Но так, конечно же, не бывает, так как есть множество других факторов, которые на это влияют. Для правильных результатов нужно делать не один А/А‑тест, а сотню. Если вы на 95% уверены, то у вас 95% А/А‑тестов должны сойтись, то есть дать одинаковые результаты. А 5% — могут ошибиться.
Внешняя валидность. Тут интереснее:
Вам нужно убедиться, что та закономерность, которую вы увидели (или не увидели), — вы её получили не случайно. В А/Б‑тестах часто слышишь фразу: «Мы провели А/Б‑тест, и новый лендинг показал конверсию на 17% лучше старого». Эта фраза не имеет смысла, так как вам всё равно, насколько в ходе эксперимента была выше конверсия. Единственное, что вас должно интересовать, — это то, с какой вероятностью мы можем заявить, что новый вариант лучше старого. Важно, что он лучше.
Любой тест ошибается, нет ни одного на 100% точного прогноза. У всех тестов, даже у тестов на беременность, есть два типа ошибок: ошибка первого рода и ошибка второго рода.
Допустим, мы проверяем какую‑то бинарную вещь (да или нет). Он может сказать «да», может сказать «нет». То есть он может быть прав или может быть не прав. Когда он говорит «да» по ошибке — это ошибка первого рода (false positive). По‑русски можно назвать «ложная тревога» (начинают бить пожарную тревогу, когда пожара на самом деле нет). Когда тест говорит «нет» — это ошибка второго рода (когда пожар на самом деле есть, а тревога не позвонила).
Поэтому, когда вы планируете А/Б‑тест, вы должны заранее спрогнозировать значимость той или иной ошибки, какая ошибка для вас важнее и насколько вы готовы ошибаться. Конечно, в идеальном мире вы не хотите ошибок, чтобы тут и там у вас была точность 99,999%. Вы можете так сделать, но, скорее всего, тогда у вас никакие А/Б‑тесты не будут давать информацию — недостаточно данных. Объясню почему.
Например, я могу прямо сейчас суперточно спрогнозировать погоду на завтра. Я буду абсолютно уверен, что попаду с вероятностью 99,999%, что завтра будет температура от –100 до +100 градусов по Цельсию. И кто скажет, что я не прав? Аналогично, я могу спрогнозировать, скажем, сколько я проживу. Я буду точно знать, что проживу где‑то от моего текущего возраста + одну секунду до миллиона лет. Это будет очень точный и очень бесполезный прогноз.
И с помощью этого тоже можно делать очень точные и очень бесполезные прогнозы. У вас будут варианты расходиться. И с точки зрения веба вам нужно будет очень много трафика для статистически значимых результатов.
Есть такой классический пример, который называется «40 оттенков синего». Гугль в начале двухтысячных решил найти идеальный оттенок синего для цвета ссылок. Они протестировали 40 оттенков голубого и нашли тот, у которого CTR был наилучшим (он был на 0,0001% выше, чем у всех остальных). Это был статистически важный результат для Гугля, так как они пропустили через это несколько миллиардов человек, которые принесли несколько миллионов долларов выручки из ничего. Но то, что может делать Гугль, не может делать больше никто, так как такого количества трафика, как у них, нет больше ни у кого.
Поэтому вам нужно заранее решать, какую точность вы будете использовать. Какая вероятность будет у ошибок первого и второго родов.
По умолчанию, все тулзы, которые я знаю в интернете, работают с 90% точностью. Это значит, что у них 5% вероятность ошибки первого рода и 5% — ошибки второго рода. И это окей, если не заморачиваться. Потому что часто на тестах лендингов у вас ошибка второго рода менее значима, чем ошибка первого рода. Если вы по ошибке скажете, что «о, этот лендинг классный, ставьте его!», а он на самом деле не классный, то для вас это будет хуже, чем то, что для вас этот лендинг был классный, а его не поставили. Поэтому там повышают вероятность ошибки, например, с 5% до 20%. Таким образом, у них снижается количество трафика, которое им нужно, чтобы получить статистически важный результат.
В общем, всё сводится к тому, что вы задаёте приемлемую точность и при проведении теста вы строите 95% интервалами (то, что вы делали с MSE, — то значение «от‑до», в котором оно может изменяться). Если они пересекаются, то формально, с точки зрения статистики и голой математики, вы не можете заявить, что один лучше второго: статистически значимой разницы нет. И вот именно поэтому 9 из 10 тестов показывают, что разницы нет: доверительные интервалы не расходятся. И в одном из десяти случаев они действительно расходятся, и тогда у вас есть победитель.