robots.txt — текстовый файл протокола Robots Exclusion Protocol (REP), размещаемый в корне домена по адресу site.ru/robots.txt. Поисковые роботы запрашивают его перед началом обхода и следуют указанным директивам при определении допустимых путей для сканирования.
Файл состоит из блоков «агент → правила». Каждый блок начинается с User-agent — идентификатора краулера. Для Яндекса актуальны следующие агенты: Yandex (основной поисковый бот), YandexImages (картинки), YandexVideo, YandexMedia, YandexBot, YandexDirect. Символ * применяется ко всем роботам.
Директивы, поддерживаемые Яндексом:
| Директива | Назначение |
|---|---|
| Disallow | Запрет обхода пути или файла |
| Allow | Явное разрешение, перекрывающее Disallow |
| Crawl-delay | Пауза между запросами краулера (секунды) |
| Sitemap | Ссылка на XML-карту сайта |
| Clean-param | Исключение незначимых GET-параметров (только Яндекс) |
Принципиальное разграничение: robots.txt управляет краулингом, но не индексацией напрямую. Страница, закрытая через Disallow, не сканируется, однако может оставаться в индексе Яндекса как «заглушка», если на неё ведут внешние ссылки. Для гарантированного исключения из выдачи применяют <meta name="robots" content="noindex"> или HTTP-заголовок X-Robots-Tag — но при условии, что страница открыта для сканирования, иначе робот не прочитает тег.
При синтаксических ошибках Яндекс трактует спорные директивы в пользу разрешения сканирования. Файл не прерывает парсинг на первой ошибке — обрабатываются все корректные блоки.
В 2026 году Яндекс усилил управление краулинговым бюджетом: роботы активнее пропускают технические разделы без явных сигналов ценности. robots.txt остаётся первичным механизмом управления тем, что попадает в индекс Яндекса, опережая canonical и noindex по приоритету исполнения.
Частота обновления кэша. Яндекс перечитывает robots.txt в среднем каждые 6–12 часов для активных сайтов. Экстренное обновление доступно через Яндекс.Вебмастер → «Инструменты» → «Проверка robots.txt» → кнопка «Переобойти».
Лимит директив. Поддерживается до 500 директив в одном файле. При превышении поведение Яндекса непредсказуемо — часть правил может быть проигнорирована без каких-либо предупреждений в интерфейсе.
Clean-param — Яндекс-эксклюзив. Директива не поддерживается Google и Bing. Для e-commerce и контентных сайтов это критично: параметры сортировки, фильтрации и UTM-метки без Clean-param порождают сотни URL-дублей, распыляя краулинговый бюджет. Пример рабочей конфигурации:
Clean-param: utm_source&utm_medium&utm_campaign /
Clean-param: sort&order&page&view /catalog/
Crawl-delay. Рекомендуемый диапазон для production-сайтов — 0.5–2 секунды. Значения выше 5 с критически замедляют переиндексацию обновлений. Значения ниже 0.2 с Яндекс вправе игнорировать при высокой нагрузке на сервер краулера.
Специализированные агенты. Блокировка User-agent: Yandex не скрывает страницы из поиска по картинкам — для этого нужен отдельный блок User-agent: YandexImages. Аналогично для YandexVideo и YandexMedia.
Диагностика. В Яндекс.Вебмастере раздел «Индексирование» → «Проверка robots.txt» показывает, какие URL заблокированы. Встроенный симулятор позволяет тестировать правила для конкретного агента и пути до публикации изменений.
Правильно настроенный robots.txt косвенно влияет на ранжирование Яндекса: чем чище индексированная масса страниц, тем точнее алгоритм интерпретирует поведенческие сигналы пользователей.
Практика SEO-работы с robots.txt строится на трёх задачах: защита индекса от технического мусора, экономия краулингового бюджета и устранение URL-дублей.
Типовая конфигурация для Яндекса:
User-agent: *
Disallow: /admin/
Disallow: /cart/
Disallow: /checkout/
Disallow: /account/
Disallow: /api/
Disallow: /search/
User-agent: Yandex
Clean-param: utm_source&utm_medium&utm_campaign /
Clean-param: sort&order&page&view /catalog/
Crawl-delay: 1
Sitemap: https://yoursite.ru/sitemap.xml
Что закрывать:
/admin/, /wp-admin/, /bitrix/admin/)/api/, /ajax/)Clean-paramЧто не закрывать:
Рабочий процесс после изменений:
Перед запуском работы с накруткой ПФ robots.txt проверяют в первую очередь: целевые страницы должны быть открыты для краулинга и присутствовать в SERP Яндекса. Закрытая страница не получает показов — поведенческие сигналы не передаются в ранжировочную модель.
Связь robots.txt с поведенческими факторами неочевидна, но фундаментальна: файл определяет, по каким именно страницам Яндекс собирает ПФ-сигналы и как усредняет их в профиль сайта.
Качество индекса определяет качество ПФ-метрик
Технические страницы в индексе — внутренний поиск, пустые фильтры, страницы пагинации без контента — генерируют высокий bounce rate и минимальное время на сайте. Яндекс усредняет ПФ по всем проиндексированным URL: мусорные страницы тянут профиль сайта вниз и снижают доверие алгоритма к хорошим коммерческим страницам.
Краулинговый бюджет → свежесть → актуальные ПФ
Если бюджет уходит на технический мусор, новые и обновлённые коммерческие страницы переиндексируются с задержкой. Без индексации — нет показов в выдаче, нет CTR в Яндексе, нет поведенческих сигналов для ранжировочной модели MatrixNet-XL. Чистый robots.txt напрямую ускоряет «подхват» новых страниц алгоритмом.
Дубли размывают поведенческий вес
Без Clean-param UTM-ссылки и параметры сортировки создают десятки URL-версий одной страницы. Яндекс распределяет ПФ-сигналы между всеми вариантами — ни один не набирает достаточного накопленного веса. Глубина просмотра и другие агрегированные метрики оказываются занижены относительно реальных значений.
Базовый чеклист перед ПФ-кампанией
Перед любой работой с поведенческими сигналами — через органику или через инструменты x10seo — проверка robots.txt обязательна:
robots.txt стоит в самом начале цепочки: нет обхода → нет индексации в Яндексе → нет появления в SERP Яндекса. Мониторинг исполнения директив ведётся в Яндекс.Вебмастере, где симулятор позволяет проверить любой URL до внесения изменений в production.
На уровне алгоритма файл влияет на качество страничного массива, по которому ранжирование Яндекса оценивает поведенческие факторы: bounce rate, время на сайте и глубину просмотра. Связан также с релевантностью — корректная индексация обеспечивает точное соответствие страниц запросам без примеси технического мусора. Для коммерческих запросов особенно важно, чтобы страницы транзакций (корзина, оформление) были закрыты, а страницы каталога — открыты.