Меня зовут Максим, я веб-разработчик. В прошлом году я работал с интернет-магазином мебели, у которого был странный паттерн: 28% посетителей добавляли товар в корзину, но до оплаты доходили только 3%. Классический ответ — «ну, мебель покупают долго, люди думают». Но когда мы внедрили предиктивную аналитику, выяснилось другое: система научилась определять момент, когда клиент «дозрел» — и именно в этот момент предлагала ему помощь менеджера или персональную скидку. Конверсия корзины выросла с 3% до 5,2% за три месяца. Расскажу, как предиктивная аналитика работает на бизнес-сайтах и почему это не только для крупного e-commerce.

Что такое предиктивная аналитика простыми словами

Обычная аналитика отвечает на вопрос «что произошло»: сколько людей зашло на сайт, какие страницы посмотрели, где ушли. Предиктивная аналитика отвечает на вопрос «что произойдёт»: какой посетитель купит, какой уйдёт навсегда, какой вернётся через неделю.

За этим стоят математические модели — алгоритмы машинного обучения, которые обучаются на исторических данных и находят закономерности, невидимые человеческому глазу.

Пример: менеджер по продажам видит заявку и интуитивно оценивает — «горячий» клиент или «просто смотрит». Предиктивная модель делает то же самое, но на основе сотен параметров и тысяч прошлых примеров — объективно и мгновенно.

Какие предсказания полезны для бизнес-сайта

Вероятность покупки (Purchase Probability)

Для каждого посетителя в реальном времени рассчитывается вероятность того, что он совершит покупку в текущей сессии или в ближайшие N дней. На основе этого решаем: показать ему скидку? Предложить помощь менеджера? Или не мешать — он и так купит?

Как это работает: модель анализирует поведение посетителя (какие страницы смотрит, сколько времени проводит, возвращался ли раньше, какой источник трафика) и сравнивает с профилями тех, кто в прошлом покупал и не покупал.

Предсказание оттока (Churn Prediction)

Для сервисов с подписками, регулярными покупками или SaaS — модель определяет клиентов, которые с высокой вероятностью перестанут пользоваться услугой. Это позволяет действовать проактивно: позвонить, предложить бонус, решить проблему — пока клиент не ушёл.

У образовательной платформы моего клиента модель предсказания оттока выявляла «группу риска» за 2 недели до фактического ухода с точностью 78%. HR-менеджер связывался со студентами из этой группы — и 40% из них оставались.

Предсказание следующей покупки (Next Best Action)

Модель предсказывает, что именно клиент купит в следующий раз и когда. Это позволяет отправлять релевантные предложения точно в нужный момент.

Пример из практики: магазин корма для животных. Если клиент покупает 10-килограммовый мешок корма раз в 45 дней — на 40-й день ему приходит письмо с напоминанием и предложением быстрого повторного заказа. Не раньше (раздражает), не позже (уже купил в другом месте).

Скоринг лидов (Lead Scoring)

Для B2B-сайтов: каждый посетитель получает числовой балл, отражающий его «готовность к покупке». Менеджеры отдела продаж видят рейтинг и в первую очередь обрабатывают самые «горячие» лиды. Вместо последовательной обработки всех заявок — приоритизация.

Факторы скоринга: количество посещённых страниц, просмотр прайса, скачивание коммерческого предложения, время на сайте, повторные визиты, просмотр конкретных разделов (кейсы, портфолио — значит, уже сравнивает подрядчиков).

Прогноз выручки

На уровне бизнеса: на основе текущего трафика, конверсий и среднего чека модель прогнозирует выручку на ближайший месяц или квартал. Это помогает планировать закупки, логистику, рекламный бюджет.

Какие данные нужны для предсказаний

Предиктивная модель обучается на исторических данных. Чем больше данных и чем они разнообразнее — тем точнее предсказания.

Поведенческие данные. Просмотры страниц, клики, скроллинг, добавления в корзину, поисковые запросы на сайте, время на страницах. Это «цифровой язык тела» посетителя.

Транзакционные данные. История покупок, суммы заказов, частота покупок, категории товаров, используемые промокоды. Из CRM или базы данных сайта.

Демографические данные. Геолокация, устройство, источник трафика, новый/повторный посетитель. Базовые, но значимые.

Данные взаимодействий. Обращения в поддержку, отзывы, возвраты, ответы на email-рассылки. Каждое взаимодействие — сигнал.

Минимальный объём для обучения адекватной модели: 5 000–10 000 сессий с известным исходом (купил/не купил). Для B2B с длинным циклом продаж — минимум 500 завершённых сделок.

Техническая реализация: как я это строю

Сбор данных

Серверная аналитика (о ней я писал в отдельной статье) отправляет события в ClickHouse. Каждое событие содержит: ID посетителя, тип действия, URL, временную метку, параметры (товар, цена, категория).

Подготовка признаков (Feature Engineering)

Это самый трудоёмкий этап. «Сырые» события нужно превратить в признаки, которые модель сможет обработать:

  • Количество визитов за последние 7/30/90 дней
  • Средняя глубина просмотра (страниц за сессию)
  • Количество товаров в корзине
  • Была ли покупка раньше (да/нет)
  • Время с момента последнего визита
  • Процент просмотренных товаров из одной категории (сигнал целенаправленного выбора)
  • Источник трафика
  • Устройство
  • День недели и время суток

Для магазина мебели я использовал 47 признаков. Не все оказались значимыми — после отбора модель работала на 23 ключевых.

Обучение модели

Алгоритм: градиентный бустинг (LightGBM или CatBoost — российская разработка Яндекса, кстати). Он отлично работает с табличными данными, быстро обучается и даёт хорошую точность.

Данные делятся на обучающую и тестовую выборки. Модель обучается на исторических данных (кто в итоге купил, кто нет) и валидируется на данных, которые она не видела.

Метрики качества: AUC-ROC (площадь под кривой — насколько модель отличает покупателя от непокупателя), Precision/Recall (точность и полнота предсказаний), Lift (во сколько раз модель лучше случайного выбора).

Деплой и инференс

Обученная модель упаковывается в API-сервис. Когда посетитель заходит на сайт — бэкенд формирует набор признаков, отправляет в сервис модели, получает предсказание (вероятность покупки от 0 до 1) за 20–50 мс.

На основе этого предсказания сайт решает, что делать:

  • Вероятность > 0,7 → не мешать, человек и так купит
  • Вероятность 0,3–0,7 → предложить помощь менеджера или показать социальное доказательство
  • Вероятность < 0,3 → показать поп-ап со скидкой или ретаргетинговый пиксель
  • Вероятность < 0,1 → не тратить ресурсы, это не наш клиент

Модель переобучается раз в неделю на свежих данных — поведение пользователей меняется, сезонность влияет, и модель должна адаптироваться.

Конкретный пример: магазин мебели

Исходная ситуация:

  • 45 000 визитов в месяц
  • 28% добавляют товар в корзину (12 600 сессий)
  • 3% из корзины доходят до покупки (378 заказов)
  • Средний чек — 42 000 рублей

Что сделали:

  1. Внедрили серверный трекинг для полноты данных
  2. Обучили модель предсказания покупки на данных за 8 месяцев
  3. Настроили три сценария реакции (описал выше)
  4. Подключили триггерные email-рассылки (через 2 часа после ухода с корзины — персональное письмо)

Результат через 3 месяца:

  • Конверсия корзины: с 3% до 5,2%
  • Дополнительные заказы: +278 в месяц
  • Дополнительная выручка: ~11,7 миллионов рублей в месяц
  • Стоимость внедрения: 900 тысяч рублей + 40 тысяч/месяц инфраструктура

Окупаемость — меньше месяца.

Ограничения и честный взгляд

Не панацея. Модель предсказывает поведение — но не меняет продукт. Если у вас плохой ассортимент, высокие цены или убогий сайт — никакая предиктивная аналитика не спасёт.

Нужны данные. Минимум 3–6 месяцев истории и тысячи конверсий. Для нового сайта — рано. Для B2B с 10 сделками в месяц — нужно ждать год, пока накопится достаточно данных.

Cold start problem. Для нового посетителя, о котором мы ничего не знаем, модель работает слабо. Решение — начинать с контекстуальных признаков (источник, устройство, время) и обогащать данные по мере навигации по сайту.

Модель устаревает. Мир меняется, поведение клиентов — тоже. Модель нужно переобучать регулярно и мониторить её качество. Если точность падает — пора обновлять.

Сколько стоит внедрение

Базовый скоринг лидов (для B2B-сайтов, простая модель, интеграция с CRM). Срок: 3–5 недель. Бюджет: 200–400 тысяч рублей.

Предиктивная аналитика для e-commerce (вероятность покупки, персонализация, триггерные сценарии). Срок: 2–3 месяца. Бюджет: 500 тысяч — 1,2 миллиона рублей.

Комплексная система (предсказание оттока, LTV-прогноз, Next Best Action, автоматическое переобучение). Срок: 3–5 месяцев. Бюджет: от 1,5 миллионов рублей.

Инфраструктура: от 20 до 60 тысяч рублей в месяц.

С чего начать

Если у вас уже есть аналитика (хотя бы Яндекс Метрика) и история данных — начните с простого: выгрузите данные за последние полгода, посмотрите на корреляции между поведением и покупкой. Какие страницы чаще всего смотрят те, кто в итоге покупает? Сколько визитов им нужно? С какого устройства они приходят?

Эти простые наблюдения — первый шаг к предиктивной аналитике. Дальше можно формализовать их в модель.

Если хотите обсудить внедрение предиктивной аналитики на вашем сайте — обращайтесь.