Как подготовиться к А/В-тестированию и получить корректные результаты

Поиск гипотезы

Чтобы эксперимент имел смысл, нужна четкая формулировка проблемы и вероятный вариант ее решения. Где брать идеи для эксперимента?

Первый источник гипотез — наш опыт. Например, мы выяснили, что для электроники лучше работают рекомендации с похожими товарами: примерно 60—90% пользователей интересуют аналоги выбранной техники. А для аптек удачным вариантом будет размещение сопутствующих товаров, потому что 75% людей, покупающих лекарства, заинтересуют пластыри, шприцы и другие препараты для домашней аптечки.

Второй источник идей — это обратная связь от клиентов. Мы анализируем прямые вопросы в техподдержку и фидбек от аккаунт-менеджеров, собираем запросы пользователей и выявляем появление каких-то потребностей. Когда у нас есть какие-то данные, продакт-менеджеры напрямую общаются с клиентами в ходе интервью. Так мы понимаем, какой функционал интересен нашим пользователям и что мы можем улучшить.

Наконец, исследования рынка. Мы регулярно анализируем кейсы конкурентов, выясняем, что они делают и какие товары хорошо продаются. Эту информацию несложно искать, но ее нужно фильтровать: иногда функционал, который работает у конкурентов, для нас неэффективен.

Предварительное исследование

Чтобы проверить как можно больше гипотез в единицу времени и сразу откинуть очевидно неэффективные, перед запуском А/В-теста мы обязательно проводим предварительное исследование. Это позволяет определить конфигурацию А/В-теста и существенно сэкономить ресурсы. На этом этапе мы оцениваем, сколько денег может принести гипотеза, на какой доле клиентов она будет работать, сколько будет стоить ее разработка и внедрение.

Например, мы хотим увеличить выручку интернет-магазина с помощью категорийного мерчендайзинга. Мы предполагаем, что формирование выдачи товаров разных категорий по различным математическим алгоритмам повысит эффективность. Чтобы это проверить, мы исследовали 20 прошедших ранее А/В-тестов на страницах категорий и карточек товаров, сегменты которых отличались версиями показанных рекомендаций. Затем в каждом из сегментов сделали срез по результатам в каждой категории.

Результаты теста в целом по магазину

Результаты теста по одной из категорий

На основе этих данных мы сформировали конфигурацию А/В-тестов:

  • подобрали 9 магазинов и выбрали категории для эксперимента;
  • выбрали базовую механику для всех магазинов на основе предыдущих А/В-тестов;
  • выбрали алгоритмы для категорий, в которых результаты отличались от результатов по всему магазину (не больше 4 для каждого магазина).

А/А-тесты

На следующем этапе мы рекомендуем обязательно проводить А/А-тесты. Это поможет в трафике интернет-магазина найти аномальные группы пользователей, которые могут исказить конечные результаты.

Глобально аномалии можно разделить на группы:

  • Пользователи, которые перемещались между сегментами. Обычно их доля небольшая, но их заказы могут повлиять на результаты теста, поэтому мы рекомендуем их убирать.
  • Боты. Обычно с поисковыми ботами проблем нет: они генерируют одного-двух пользователей, посещают страницы, но не осуществляют заказов. Но иногда в некоторых сегментах их может быть много, поэтому их нужно исключать.
  • Всплески активности. Во время акций уровень конверсии обычно выше среднего по сайту, что искажает результаты тестов. Иногда такие всплески можно не учитывать, но если магазин проводит регулярные рассылки и распродажи, всплески тоже регулярны. Поэтому мы рекомендуем наряду с обычными днями анализировали дни всплесков активности. В этом случае вы получите два знания сразу: как ведут себя покупатели в среднем, и как они ведут себя в необычные дни.
  • Заказы call-центра. Некоторым пользователям удобнее оформить заказ по телефону, но в этом случае все заказы оформляются с ID оператора, что создает недостоверную картину.

А/В-тесты

По нашему опыту, оптимальный период проведения тестов — от 2 до 4 недель. Меньше этого срока проводить эксперименты нельзя из-за сильных колебаний трафика интернет-магазина, при большем времени на результаты влияют акции, распродажи, сезонность и т.д.

Во время тестирования мы снимаем 4 основные метрики:

  • конверсия в заказы;
  • конверсия в пользователей с хотя бы одним заказом;
  • средний чек;
  • прибыль от посещения (revenue per visit, RPV) — это показатель, который показывает, сколько денег приносит каждый привлеченный пользователь. Мы рассчитываем его для каждого канала отдельно.

Чтобы увеличить скорость экспериментов, мы рекомендуем проводить параллельно несколько тестов на разных страницах. Мы обычно на одном магазине проводим одновременно около 5 тестов: на главной странице, в категории, в поиске и на карточке товара.

Почему это важно? Если вы проводите один эксперимент в месяц, то в год будет всего 12 тестов. Один успешный тест даст прирост выручки в среднем на 3%. При обороте 200 млн. и марже 20% вы получите прибыли всего 1,2 млн в год. Допустим, что над тестами работают 1—2 человека с зарплатой в 100 тыс. Исследование не окупается. Для запуска пяти тестов нужно всего в полтора раза больше ресурсов, но при этом можно достичь прироста в 15%. ROE (Return on Equity) при этом будет положительным.

Но при таком количестве тестов важно контролировать их созависимость. Если мы изменим поведение людей в категории товара, и вслед за этим оно изменится в корзине или карточке, то результаты будут недостаточно точными. Поэтому на одной странице можно проводить только один тест. Это позволит отследить, что привело к изменениям.

Если у вас тесты независимы, тут все просто — по каждому можно принимать решение отдельно. С зависимыми тестами иначе — их нужно проводить параллельно, а не по одному. Но результаты зависимых тестов не всегда просто интерпретировать, особенно, если вы проверяете гипотезы внешнего вида или математические механики.

Небольшие изменения на страницах интернет-магазина влияют на конверсию, но довольно мало — прирост обычно около 1—2%. Если вы хотите добиться роста на 7—10%, то можно сравнивать целые конфигурации, содержащие несколько страниц. Основная проблема таких тестов — эффект новизны. Когда вы значительно меняете логику интерфейса, лояльным пользователям будет непривычно использовать новые функции, поэтому сначала показатели сильно снизятся. Чтобы получить статистически достоверные результаты, потребуются более долгие тесты — обычно среднее время привыкания клиента 5—10 заходов на сайт.

Подготовлено по материалам Как подготовиться к А/В-тестированию и получить корректные результаты.


   Почти всегда целью создания сайта является получение прибыли, которая в свою очередь, зависит от его внешнего вида. Статистика говорит, что около 94% людей, при выборе товара, сначала обращают внимание на упаковку, а потом уже на её содержимое. И если эта упаковка не привлекательная и безвкусная, мало кто обратит на нее внимание, и, соответственно, товар не будет пользоваться спросом.
   В случае с интернет, “упаковкой” выступает ваш сайт, а “товаром” - его контент. Если сайт выглядит непривлекательно, то каким бы ценным и нужным не было его содержимое, люди будут обходить его стороной. Наша задача - сделать ваш сайт привлекательным и удобным, чтобы люди чувствовали себя уютно и комфортно, чтоб они возвращались к вам еще и еще. Соответствие между ценой и качеством вас, несомненно, порадуют.
.
   Мы делаем сайты для бизнеса, а не красочную картинку, которая увешена тяжеловесными флэшами и огромными фотографиями.
   Пользователя, когда он попадает на абсолютно любой сайт, прежде всего интересует информация, затем, как реализовать на этом сайте полученную информацию, чтобы было удобно и просто (юзабилити), подбор цветовой гаммы, расположение блоков на странице и многое другое.

   Перед тем, как заказывать создание сайта, рекомендуем прочесть статью А зачем мне (нам) сайт? или Что нужно знать заказчику сайта
Да и вообще, обратите внимание на раздел Статьи о продвижении сайта и бизнеса там вы найдёте ответы на многие вопросы.