Глоссарий ПФ

Robots.txt для Яндекса

robots.txt — текстовый файл в корне сайта с директивами для поисковых краулеров: какие пути сканировать, какие — игнорировать. Яндекс читает его перед каждой сессией обхода; ошибки напрямую блокируют индексацию нужных страниц.

Что такое robots.txt

robots.txt — текстовый файл протокола Robots Exclusion Protocol (REP), размещаемый в корне домена по адресу site.ru/robots.txt. Поисковые роботы запрашивают его перед началом обхода и следуют указанным директивам при определении допустимых путей для сканирования.

Файл состоит из блоков «агент → правила». Каждый блок начинается с User-agent — идентификатора краулера. Для Яндекса актуальны следующие агенты: Yandex (основной поисковый бот), YandexImages (картинки), YandexVideo, YandexMedia, YandexBot, YandexDirect. Символ * применяется ко всем роботам.

Директивы, поддерживаемые Яндексом:

| Директива | Назначение | |---|---| | Disallow | Запрет обхода пути или файла | | Allow | Явное разрешение, перекрывающее Disallow | | Crawl-delay | Пауза между запросами краулера (секунды) | | Sitemap | Ссылка на XML-карту сайта | | Clean-param | Исключение незначимых GET-параметров (только Яндекс) |

Принципиальное разграничение: robots.txt управляет краулингом, но не индексацией напрямую. Страница, закрытая через Disallow, не сканируется, однако может оставаться в индексе Яндекса как «заглушка», если на неё ведут внешние ссылки. Для гарантированного исключения из выдачи применяют <meta name="robots" content="noindex"> или HTTP-заголовок X-Robots-Tag — но при условии, что страница открыта для сканирования, иначе робот не прочитает тег.

При синтаксических ошибках Яндекс трактует спорные директивы в пользу разрешения сканирования. Файл не прерывает парсинг на первой ошибке — обрабатываются все корректные блоки.

Как robots.txt учитывается в Яндексе

В 2026 году Яндекс усилил управление краулинговым бюджетом: роботы активнее пропускают технические разделы без явных сигналов ценности. robots.txt остаётся первичным механизмом управления тем, что попадает в индекс Яндекса, опережая canonical и noindex по приоритету исполнения.

Ключевые особенности Яндекса 2026

Частота обновления кэша. Яндекс перечитывает robots.txt в среднем каждые 6–12 часов для активных сайтов. Экстренное обновление доступно через Яндекс.Вебмастер → «Инструменты» → «Проверка robots.txt» → кнопка «Переобойти».

Лимит директив. Поддерживается до 500 директив в одном файле. При превышении поведение Яндекса непредсказуемо — часть правил может быть проигнорирована без каких-либо предупреждений в интерфейсе.

Clean-param — Яндекс-эксклюзив. Директива не поддерживается Google и Bing. Для e-commerce и контентных сайтов это критично: параметры сортировки, фильтрации и UTM-метки без Clean-param порождают сотни URL-дублей, распыляя краулинговый бюджет. Пример рабочей конфигурации:

Clean-param: utm_source&utm_medium&utm_campaign /
Clean-param: sort&order&page&view /catalog/

Crawl-delay. Рекомендуемый диапазон для production-сайтов — 0.5–2 секунды. Значения выше 5 с критически замедляют переиндексацию обновлений. Значения ниже 0.2 с Яндекс вправе игнорировать при высокой нагрузке на сервер краулера.

Специализированные агенты. Блокировка User-agent: Yandex не скрывает страницы из поиска по картинкам — для этого нужен отдельный блок User-agent: YandexImages. Аналогично для YandexVideo и YandexMedia.

Диагностика. В Яндекс.Вебмастере раздел «Индексирование» → «Проверка robots.txt» показывает, какие URL заблокированы. Встроенный симулятор позволяет тестировать правила для конкретного агента и пути до публикации изменений.

Правильно настроенный robots.txt косвенно влияет на ранжирование Яндекса: чем чище индексированная масса страниц, тем точнее алгоритм интерпретирует поведенческие сигналы пользователей.

Как использовать на практике

Практика SEO-работы с robots.txt строится на трёх задачах: защита индекса от технического мусора, экономия краулингового бюджета и устранение URL-дублей.

Типовая конфигурация для Яндекса:

User-agent: *
Disallow: /admin/
Disallow: /cart/
Disallow: /checkout/
Disallow: /account/
Disallow: /api/
Disallow: /search/

User-agent: Yandex
Clean-param: utm_source&utm_medium&utm_campaign /
Clean-param: sort&order&page&view /catalog/
Crawl-delay: 1

Sitemap: https://yoursite.ru/sitemap.xml

Что закрывать:

  • Служебные панели (/admin/, /wp-admin/, /bitrix/admin/)
  • API-эндпойнты и AJAX-хендлеры (/api/, /ajax/)
  • Корзину, оформление заказа, личный кабинет
  • Внутренний поиск — страницы с нулевым поведенческим потенциалом
  • URL-дубли с незначимыми параметрами через Clean-param

Что не закрывать:

  • Статические ресурсы (CSS, JS, шрифты) — Яндекс рендерит страницы полностью; закрытые ресурсы ведут к неполному рендеру и риску занижения оценки
  • Страницы с поведенческим потенциалом: карточки товаров, категории, статьи

Рабочий процесс после изменений:

  1. Отредактировать robots.txt и опубликовать
  2. Проверить через симулятор Яндекс.Вебмастера для ключевых URL
  3. Запросить переобход в разделе «Проверка robots.txt»
  4. Через 24–48 часов сверить отчёт «Страницы в поиске» — не просело ли число индексированных URL

Перед запуском работы с накруткой ПФ robots.txt проверяют в первую очередь: целевые страницы должны быть открыты для краулинга и присутствовать в SERP Яндекса. Закрытая страница не получает показов — поведенческие сигналы не передаются в ранжировочную модель.

Почему robots.txt важен для ПФ

Связь robots.txt с поведенческими факторами неочевидна, но фундаментальна: файл определяет, по каким именно страницам Яндекс собирает ПФ-сигналы и как усредняет их в профиль сайта.

Качество индекса определяет качество ПФ-метрик

Технические страницы в индексе — внутренний поиск, пустые фильтры, страницы пагинации без контента — генерируют высокий bounce rate и минимальное время на сайте. Яндекс усредняет ПФ по всем проиндексированным URL: мусорные страницы тянут профиль сайта вниз и снижают доверие алгоритма к хорошим коммерческим страницам.

Краулинговый бюджет → свежесть → актуальные ПФ

Если бюджет уходит на технический мусор, новые и обновлённые коммерческие страницы переиндексируются с задержкой. Без индексации — нет показов в выдаче, нет CTR в Яндексе, нет поведенческих сигналов для ранжировочной модели MatrixNet-XL. Чистый robots.txt напрямую ускоряет «подхват» новых страниц алгоритмом.

Дубли размывают поведенческий вес

Без Clean-param UTM-ссылки и параметры сортировки создают десятки URL-версий одной страницы. Яндекс распределяет ПФ-сигналы между всеми вариантами — ни один не набирает достаточного накопленного веса. Глубина просмотра и другие агрегированные метрики оказываются занижены относительно реальных значений.

Базовый чеклист перед ПФ-кампанией

Перед любой работой с поведенческими сигналами — через органику или через инструменты x10seo — проверка robots.txt обязательна:

  • Целевые страницы открыты для краулинга
  • Страницы присутствуют в SERP Яндекса (не в «заглушках»)
  • Нет URL-дублей, дробящих накапливаемые сигналы
  • CSS и JS не закрыты (корректный рендер = корректная оценка контента)

Связь с другими метриками и инструментами

robots.txt стоит в самом начале цепочки: нет обхода → нет индексации в Яндексе → нет появления в SERP Яндекса. Мониторинг исполнения директив ведётся в Яндекс.Вебмастере, где симулятор позволяет проверить любой URL до внесения изменений в production.

На уровне алгоритма файл влияет на качество страничного массива, по которому ранжирование Яндекса оценивает поведенческие факторы: bounce rate, время на сайте и глубину просмотра. Связан также с релевантностью — корректная индексация обеспечивает точное соответствие страниц запросам без примеси технического мусора. Для коммерческих запросов особенно важно, чтобы страницы транзакций (корзина, оформление) были закрыты, а страницы каталога — открыты.

Частые вопросы

Может ли Яндекс проигнорировать директивы robots.txt?
В целом нет — Яндекс строго соблюдает Robots Exclusion Protocol. Исключений два: некорректный синтаксис директивы (Яндекс трактует в пользу разрешения) и страницы с внешними ссылками (могут оставаться в индексе как «заглушки» без содержимого даже при Disallow — известный URL, но без контента).
Чем Clean-param отличается от Disallow для параметрических URL?
Disallow полностью запрещает обход URL с указанным путём — страница выпадает из индекса. Clean-param сообщает Яндексу: «эти GET-параметры не меняют контент — считай все URL с ними одной и той же страницей». Сохраняется краулинговый бюджет, страница остаётся в индексе, дубли устраняются. Это Яндекс-специфичная директива — Google её не поддерживает.
Что важнее для исключения страницы из выдачи: robots.txt или noindex?
Для полного контроля нужен noindex. Robots.txt блокирует краулинг, но страница может остаться в индексе как известный URL без содержимого. Noindex гарантирует исключение из выдачи, однако требует, чтобы робот мог прочитать тег — то есть страница должна быть открыта для обхода. Комбинация: открыть для краулинга + поставить noindex.
Как часто Яндекс перечитывает robots.txt?
Обычно каждые 6–12 часов для активных сайтов. При срочных изменениях — воспользуйтесь кнопкой «Переобойти» в Яндекс.Вебмастере в разделе «Инструменты» → «Проверка robots.txt». Обновление кэша происходит в течение нескольких часов после запроса.
Влияет ли robots.txt на позиции в Яндексе напрямую?
Напрямую — нет. Косвенно — существенно: через качество индексированного массива (исключение технических страниц с плохими поведенческими метриками), эффективное распределение краулингового бюджета между ценными страницами и устранение URL-дублей, дробящих поведенческие и ссылочные сигналы.
Нужно ли закрывать CSS и JavaScript от Яндекса в robots.txt?
Нет — это распространённая ошибка из эпохи до JavaScript-рендеринга. Яндекс рендерит страницы полностью и должен видеть все ресурсы: стили, скрипты, шрифты. Закрытые JS/CSS приводят к неполному рендеру, что может снижать оценку страницы алгоритмом.