Почему A / B-тестирование – не панацея, и что нужно знать о таких тесты разработчикам

Сегодня все продакт-менеджеры знают о A / B тестирование, а вот чего они не хотят признавать – так это того, что подавляющее большинство таких тестов не имеет никакой практической пользы. Они исследуют ненужные показатели, выдают неубедительные результаты и никак не влияют на рабочий процесс в команде, считают в компании Mixpanel.

Конечно, есть тестирование по соответствующим содержательным нагрузкой и практическими результатами. О них все знают, на основе таких тестов пишут обзоры и аналитические статьи, составляют целые курсы для будущих тестировщиков. Однако за яркими историями успеха скрывается неприметный «лес» из провалившихся тестов, которых значительно больше. Анализ этих кампаний может помочь вам в понимании того, зачем вообще проводить A / B-тестирования.

 

Сначала – немного статистики


Как свидетельствуют данные компании AppSumo, только 1 из 8 тестов выдает продуктивный результат. Исследование от Kaiser Fung свидетельствуют, что от 80% до 90% их A / B-тестов демонстрируют статистически незначимы показатели, которые невозможно использовать на практике в дальнейшей работе.
Но новые и новые команды тестировщиков запускают A / B-тесты для программ и рассчитывают быстро и легко получить желаемый результат. Полные решительного оптимизма, они проводят несколько тестов, чтобы моментально определить лучший цвет для текстового блока, оптимальное размещение кнопки или дизайн корзины заказов на сайте (ведь это поможет увеличить продажи на сайте в несколько раз, уверены они).

Однако после запуска тестов для приложения или сайта их ждет суровая реальность: результаты неточные и обобщены, во время проведения тестирования не было выявлено ни одного действительно важного для оптимизации сайта показателя. Команда удивлена и разочарована: где обещанное улучшение?


Все настолько плохо?


Не стоит сразу полностью отказываться от тестирования. Как было сказано выше, каждые 7 тестов по каждой восьмерки неудачные и ни на что не годны, но об этом мало кто говорит. Перед запуском A / B-тестов следует подробнее ознакомиться со статистикой и усвоить, что большинство тестов таки оказываются провалившимися. Но не менее важно помнить, что тот 8-й, или скорее – первый и единственный полезный – тест предоставит разработчикам нужную информацию.
На самом деле соотношение успешности тестов 1 до 8 не такое уж и плохое, но неудовлетворительный результат почти всегда становится неожиданностью для заказчиков. Мало кто из специалистов посвящает свое время написанию статьи о том, как он занимался A / B тестами, не принесли пользы. И факты вещь упрямая: большинство тестов выдают настолько незначительный статистический результат, его нельзя применять для построения выводов. Сразу же возникает вопрос: как можно улучшить систему тестов, чтобы выявить закономерности для дифференциации тех же A и B?

Читайте еще:  Для чего Вашему бизнесу нужны социальные сети?

Почему A / B-тестирование - не панацея, и что нужно знать о таких тесты разработчикам

Эксперимент с монеткой


Представьте, что есть монета A и монета B, вы подбросили их обе в гору по 20 раз и первая упала цифрой вверх 12 раз, а вторая – 9 раз. Это не дает вам повода заявлять, что вы нашли монету, которая на 33% качественнее падает гербом вниз, правильно? Потому что все понимают: приземления полностью зависит от случая. Результаты ваших манипуляций с монетами нельзя считать статистически достоверными.
А потом вы решили еще немного поиграть с мелочью – и подбросили монеты не по 20, а по 200 раз. На этот раз монета А показала вам цифру вверх 120 раз, а монета В – 90. Теперь по сравнению с первой серией подбрасываний мы замечаем определенную закономерность. Но мы точно знаем, что в случае с монетами такая ситуация просто невозможна: на 200 подбрасываний не представится одинаковое количество приземлений определенной стороной (наши мнимые 120 и 90 раз), что даст нам право на построение определенному выводу. Поэтому весь этот пример может показаться нелепым, однако он раз и демонстрирует проблему, возникающую в большинстве A / B-тестов.

Мы тратим массу времени на виртуальное подбрасывания монетки, передвигаем по интерфейсу кнопку, меняем цвет – и в конце получаем кипу отчетов с данными о такие мизерные статистические изменения, даже печатать о них этот абзац кажется бесполезным занятием. Потрачено время, деньги, потеряно вдохновение и рабочее настроение. И вряд ли в этом виновата и сама кнопка на сайте.

Кстати, тест цвета кнопки покупки на сайте является своеобразным вступительным словом ко всему процессу A / B-тестов. Простой пример, который прекрасно демонстрирует суть и часто используется в учебном процессе. Для тестов берут две веб-страницы, на одной из которых кнопка покупки имеет красный цвет, а на другой – зеленый. Больше никаких разногласий между элементами сайта нет. Задача: выявить, какая из кнопок получает большую конверсию от покупателей.

Некоторые компании действительно получали полезные для их бизнеса результаты тестирования цвета кнопки, однако для большинства тест заканчивается провалом. Хотя он и прекрасно демонстрирует работу A / B-тестирование в теории, на практике редко бывает достаточно информативным. Тестировщики продолжают упорно проводить многочисленные A / B-тесты, – потому что это простое решение (на первый взгляд).


Проверка гипотез на практике


Редакция блога Mixpanel решила и себе провести эксперимент с собственными читателями. Подписчикам портала было отправлено очередную рассылку новостей с двумя вариантами названия письма: «Почему мобильном приложении мало 15 млн пользователей» и «Mixpanel – Почему мобильном приложении мало 15 млн пользователей». Сделали они это, потому что редактор прочитал в интернете, что название компании в начале текста увеличивает заинтересованность читателей.
Сотни тысяч пользователей получили один из двух электронных писем – и редакция начала отслеживать переходы по ссылке и количество просмотров материала. Результат наилучшим образом продемонстрировал понятие «статистически недостаточный»: письма с названием Mixpanel имели коэффициент конверсии 22,75%, а послание без названия издания – 22,73%. Разница составляет 0,02%. Среди сотен тысяч отправлений тестовая разница составила около 20 просмотров. Редакция фактически бесполезно подбрасывала монетку и считала «цифры» и «гербы».

Читайте еще:  Что нужно знать о мобильную аудиторию в Украине — новое исследование от TNS Kantar


Что нужно изменить в ваших А / В-тестах


Как сделать подобные тестирования более эффективными и информативными? Возможно, стоило изменить название статьи на более категорический? Возможно, провести еще несколько рассылок, чтобы собрать дополнительные отчеты? На самом деле, тест провалился из-за непродуманности и отсутствие стратегии. Каждый отдельный тест, чтобы достичь лучшего результата, должен быть частью глобальной концепции. Так, изменить одно слово в названии рассылки было легко и просто, но и результаты теста оказались слишком легкими – и не принесли пользы бизнеса.
В A / B-тестировании, – как и в других областях профессиональной деятельности, – чтобы достичь результата нужно приложить определенные усилия. Одни тестировщики придумывают различные пути взаимодействия пользователя с веб-страницей и определяют наиболее эффективный из них. Другие – переписывают призыв к действию и экспериментируют с иллюстрациями на сайте, находя новые форматы интерфейса. Оба процесса требуют пристального добросовестной работы, зато гарантируют производительную A / B проверку.

Например, команда одного онлайн-магазина проводила тестирование различных обновлений как интерфейса, так и функциональной составляющей. В многочисленных A / B тестах они не нашли характеристики, которая бы существенно повлияла на пользовательскую аудиторию. Однако в процессе они увидели корреляцию изменения отдельных настроек и нашли комбинацию, которая наиболее успешно привлекала внимание аудитории. В результате изменение яркости фона сайта и сокращение количества действий пользователя повысили конверсию с 55% до 76%.

Разрабатывая тесты, команда стремилась выявить значимые для пользователя характеристики магазина: те функции, которые он использует чаще всего. Тестировщики не имели задачу провести как можно большее количество проверок, в то же время, провели их достаточно, чтобы верифицировать выводы.

Все приведенные выше примеры лишний раз доказывают: к любому процессу следует тщательно готовиться, даже если преподаватель на курсах по тестированию так убедительно рассказывал о тесте цвета кнопок. Лучше потратить свое время на подготовку эффективной стратегии A / B-тестирование, чем на «пустые» тесты без пользы для проекта.

Источник: Mixpanel

Поделиться: