AI-краулеры на сайте: пускать или блокировать GPTBot, YandexGPT и PerplexityBot

Я Максим, веб-разработчик. У меня уже есть статья про llms.txt — файл, которым вы подсказываете нейросетям, что можно брать с сайта. Но это половина истории. Вторая половина — сами боты, которые ходят по сайту: GPTBot, ClaudeBot, PerplexityBot и десяток других. Их можно пускать, ограничивать или закрывать через robots.txt, и от этого зависит, попадёте ли вы в ответы ИИ и насколько эти боты нагрузят сервер. Разбираю, кто эти боты, чем они отличаются и как настроить доступ осознанно.

Три типа AI-ботов

Различать их обязательно — отношение к каждому типу разное.

Обучающие краулеры собирают контент для тренировки моделей: GPTBot (OpenAI), ClaudeBot (Anthropic), CCBot (Common Crawl), Meta-ExternalAgent, Bytespider (ByteDance). Если их закрыть, ваш контент не попадёт в обучение чужих моделей. На сиюминутную видимость в ответах это влияет слабо.

Поисковые и RAG-краулеры индексируют сайт для AI-поиска в реальном времени: OAI-SearchBot (поиск ChatGPT), PerplexityBot, Claude-SearchBot. Вот их закрывать опасно — выпадете из ответов этих систем.

Боты «по запросу пользователя» заходят, когда человек в чате просит что-то найти прямо сейчас: ChatGPT-User, Perplexity-User, Claude-User. Они тянут одну страницу под конкретный вопрос.

Кто как относится к robots.txt

Большинство ботов заявляет, что соблюдает robots.txt — GPTBot, ClaudeBot, PerplexityBot, OAI-SearchBot. Но есть нюансы. Perplexity-User, который ходит по запросу пользователя, robots.txt явно не соблюдает. Встречаются и жалобы, что отдельные боты меняют IP и игнорируют запреты, создавая нагрузку. Поэтому полностью «закрыться» только через robots.txt нельзя — для жёсткой блокировки нужен уровень сервера или Cloudflare.

Особый случай — Google-Extended и Applebot-Extended

Это не боты, а токены в robots.txt. Google-Extended управляет тем, идёт ли ваш контент в обучение Gemini и других AI-продуктов Google, отдельно от обычного индекса. Два важных момента: эти токены никогда не появляются в логах сервера, и блокировка Google-Extended не влияет на ваши позиции в обычном поиске Google. Не путайте его с Googlebot — если закрыть Googlebot, вы выпадете из обычной выдачи.

Где здесь Яндекс

Это место путает многих. Отдельного «нейро-бота» для сайтов у Яндекса нет. Нейроответы Алисы строятся на обычном индексе Яндекса, который собирает YandexBot. Отсюда вывод: YandexBot закрывать нельзя — иначе вы выпадете и из обычной выдачи, и из нейроответов одновременно.

Управление видимостью «под нейро» в Яндексе — это не настройка отдельного бота, а нормальное SEO плюс структура контента под цитирование: прямой ответ в начале, заголовки, списки, разметка. Об этом я пишу в статьях про адаптацию под Нейро.

Зачем вообще закрывать AI-ботов

За блокировку обучающих краулеров есть аргументы: вы не хотите, чтобы платный или уникальный контент уходил в обучение чужих моделей бесплатно; боты создают нагрузку на сервер (на агрессивный трафик ClaudeBot и Bytespider жалуются регулярно); есть лицензионные и авторские соображения.

Против блокировки аргумент сильнее для большинства: если закрыть поисковые краулеры, вас перестанут цитировать в ChatGPT и Perplexity, и вы потеряете новый канал трафика. Для коммерческого сайта присутствие в AI-ответах обычно важнее, чем защита текста от обучения.

Как настроить robots.txt: рабочие сценарии

Сценарий 1. Пустить всех — максимум видимости. Подходит бизнесу, которому нужен трафик из ИИ и нет уникального контента, который жалко.

Сценарий 2. Запретить обучение, оставить поиск — разумный баланс. В обучение моделей вы не идёте, но в ответах присутствуете:

# Закрываем обучающие краулеры
User-agent: GPTBot
User-agent: CCBot
User-agent: Google-Extended
User-agent: Bytespider
Disallow: /

# Оставляем поисковые и пользовательские
User-agent: OAI-SearchBot
User-agent: ChatGPT-User
User-agent: PerplexityBot
Allow: /

Sitemap: https://вашсайт.ru/sitemap.xml

Сценарий 3. Выборочный доступ по разделам — пустить ботов в `/blog/` и `/guides/`, закрыть `/admin/`, `/api/`, `/private/`.

Важно: имя User-agent должно совпадать с тем, как бот себя называет, точно до символа. Опечатка вроде «GPT-Bot» вместо «GPTBot» молча не сработает.

Проверьте логи: кто реально ходит

Robots.txt — это просьба, а не замок. Чтобы понять, кто реально ходит по сайту, смотрите access-логи сервера по user-agent: какие боты заходят, как часто, какую дают нагрузку. Так вы увидите нарушителей, которые игнорируют запреты, — их при необходимости блокируете на уровне Nginx или Cloudflare. Заодно логи покажут, заходит ли к вам поисковый бот ChatGPT или Perplexity: это косвенный сигнал, что вас могут цитировать.

Чек-лист

Определите стратегию: важнее видимость в AI или защита контента.
Не блокируйте поисковые краулеры (OAI-SearchBot, PerplexityBot), если хотите трафик из ИИ.
Не закрывайте YandexBot и Googlebot — потеряете и поиск, и нейроответы.
По желанию закройте обучающие краулеры (GPTBot, CCBot, Google-Extended).
Проверьте написание каждого user-agent до символа.
Посмотрите access-логи: кто реально ходит и какую даёт нагрузку.
Агрессивных нарушителей блокируйте на уровне сервера или Cloudflare.

Мой совет

Для большинства бизнесов правильная стратегия — пускать поисковые AI-краулеры и не трогать YandexBot. Присутствие в ответах ИИ сейчас ценнее, чем защита текста от обучения. Закрывать имеет смысл точечно: тяжёлых обучающих ботов, которые грузят сервер и ничего не дают взамен. Если нужно настроить robots.txt и разобрать логи по AI-краулерам на вашем сайте — пишите.