пятница, 29 октября 2010 г.

A/B testing

Мы нередко делаем A/B testing, т.е. тестирование новой версии сайта на живых пользователях.

Простой случай - это чисто дизайнерские изменения. Например, ты хочешь повесить на сайт фото красивой улыбающейся девушки, потому что это повысит продажи шампуня в два раза. Как убедиться в своей правоте? Ну, можно просто обновить сайт и посмотреть, что получится. Но есть проблемы: а что, если станет хуже? Или фото никак ни на что не повлияет, только смутит пользователей (люди обычно не любят, когда что-то меняется). Или, допустим, продажи и правда выростут, но не из-за фото, а потому, что завтра 8-е марта. Может, без фото они бы выросли ещё больше, но ты этого не знаешь.

Чтобы это протестировать, некоторой (обычно небольшой) части пользователей показывают новый дизайн, а остальным - старый. Потом сравнивают CTR или что-то ещё. Для чистоты эксперимента "морские свинки" (пользователи) для нового дизайна должны отбираться случайно.

Ну, дизайн так протестировать - это относительно несложно; у каждый тестируемой страницы просто версии A и B. Сложнее, когда немного меняется логика (например, сортировка результатов). В таком случае нужно иметь A и B копии некоторых сервисов, и, возможно, даже баз данных.

Наша фирма в этот раз решила пойти ещё дальше: устроили ABCDEF testing, т.е. одновременно тестировали пять новых версий сайта и одну старую! Это было нелегко организовать, и всем было интересно, что же получится. Даже делали небольшие денежные ставки (забегая вперед, я проиграл).

И каждой был результат? А практически никакой. Все шесть версий оказались примерно одинаковыми. Одна (новая) победила, но с минимальным отрывом. Как говорится, как в публичном доме кровати не переставляй, не поможет. Продукт надо улучшать, а не его упаковку, тогда будет успех. Это хорошо видно на примере Гугля.

5 комментариев:

Oleksii Novikov комментирует...

Сравнивать шесть групп одновременно - это круто конечно, но статистики еще до сих пор нормального мат. аппарата для 4-х групп не разработали %)

Кроме того, в предыдущих тестах сравнили вы две группы, а откуда уверенность, что отличия в результатах - это не простая случайность? Аяяяй, нет на вас Фишера со Стьюдентом.

Valik комментирует...

А что там сравнивать - берешь и смотришь доход за сутки и делишь на общее количество посетителей (конечно, это при условии, что все версии работали в один и тот же промежуток времени). Когда у сайта сотни тысяч посетителей в день, это вряд ли будет случайность. Проблемы будут, если ты поменял слишком много вещей - тогда непонятно, что именно помогло.

Oleksii Novikov комментирует...

Когда у сайта сотни тысяч посетителей в день, это вряд ли будет случайность

Ну вообще-то наука математика другого мнения на этот счет :) Есть методы позволяющие сказать, какова доля случая в результате. Если эта доля слишком высока, то разница признается статистически не значимой.

dp комментирует...

Еще есть Google Website Optimizer

http://www.google.com/intl/en/websiteoptimizer/tutorials.html

Valik комментирует...

Ага, про Google Website Optimizer я знаю. Может, мы даже его и используем, не уверен. Но есть несколько проблем:

1. Он помогает в сборе статистики, но саму логику по выбору версий страниц ты всё равно делаешь сам.

2. Предпологается, что у каждой версии страницы есть уникальная URL; и желательно потом её вечно поддерживать, а то вдруг кто-то успел сделать ссылку.

3. Google Website Optimizer заточен под Google Analytics, а мы её мало используем. В основном используется самодельная система сбора статистики.

Ratings by outbrain