Если у сайта есть проблемы с индексацией, первое место, куда стоит смотреть — это robots.txt. И да, это не просто «технический файлик для галочки», а инструмент, который напрямую влияет на трафик, индексацию и даже деньги.
Разбираемся без лишней теории: что это такое, как работает и как не сломать сайт одним неправильным символом.
Что такое robots.txt
robots.txt — это текстовый файл, который лежит в корне сайта:
https://site.ru/robots.txt
Он даёт инструкции поисковым роботам (Google, Яндекс и др.), какие страницы:
- можно сканировать,
- нельзя сканировать,
- нужно сканировать в приоритете.
Проще говоря — это фильтр доступа для поисковых систем.
Почему robots.txt критически важен для SEO
robots.txt — это один из немногих инструментов, который позволяет напрямую управлять тем, как поисковые системы «видят» ваш сайт. Без него робот действует по максимально простому сценарию: он заходит на сайт и начинает обходить всё, до чего может дотянуться по ссылкам. Для небольших сайтов это не всегда критично, но как только появляется структура, фильтры, параметры или динамические страницы — начинается хаос.
Без корректно настроенного robots.txt поисковик:
- сканирует абсолютно все URL, включая технические страницы, фильтры, параметры, результаты поиска и дубли. Например, это могут быть страницы вида /catalog/?sort=price, /catalog/?filter=brand-nike, /search/?q=кроссовки, а также URL с метками вроде ?utm_source= или ?gclid=. Сюда же относятся дубли с /index.php, варианты со слешем и без (/page и /page/), а также разные версии одной страницы по протоколу или домену;
- расходует краулинговый бюджет на второстепенные или бесполезные страницы, из-за чего важные разделы могут индексироваться медленнее или вообще игнорироваться;
- добавляет в индекс мусорные страницы, которые не несут ценности и размывают релевантность сайта в целом. Например, в выдаче могут появляться страницы результатов поиска по сайту (/search/?q=...), фильтры с пустым или узким ассортиментом (/catalog/?filter=color-red&size=xl), страницы пагинации (/catalog/?page=7), версии для печати или технические URL с параметрами, которые не имеют самостоятельной ценности для пользователя.
В результате поисковая система тратит ресурсы не на те страницы, которые приносят бизнесу трафик и заявки, а на всё подряд. Это особенно критично для интернет-магазинов, каталогов и сайтов с фильтрацией, где количество URL может исчисляться тысячами и даже миллионами.
Когда robots.txt настроен грамотно, ситуация кардинально меняется. Вы начинаете управлять поведением поискового робота, а не просто наблюдать за его действиями. Через этот файл можно:
- убрать из обхода дублирующиеся страницы (например, с параметрами сортировки и фильтрации);
- закрыть технические разделы (админки, корзины, личные кабинеты, результаты поиска) — потому что такие страницы не несут ценности для поиска, не предназначены для пользователей из поисковой выдачи и часто создают дубли или бесконечные вариации URL. Если их не ограничить, поисковый робот будет тратить на них краулинговый бюджет, что замедляет индексацию важных страниц и ухудшает общее качество индекса сайта;
- сфокусировать внимание поисковых систем на приоритетных страницах — категориях, услугах, карточках товаров и посадочных страницах.
Это напрямую влияет на качество индексации. Поисковик быстрее находит и обновляет важные страницы, реже сталкивается с дублями и лучше понимает структуру сайта. В итоге улучшается не только скорость попадания страниц в индекс, но и их позиции.
Финальный эффект для вашего сайта выглядит просто:
чем чище и управляемее индекс → тем выше релевантность → тем выше позиции → тем больше органического трафика и заявок.
Как работает robots.txt
Когда поисковый робот, например Google или Яндекс, впервые попадает на сайт или возвращается к нему для повторного обхода, его действия начинаются не с просмотра страниц, а с обращения к файлу robots.txt. Он автоматически делает запрос по адресу вида https://site.ru/robots.txt и пытается получить от сервера ответ.
Если файл найден и доступен, робот считывает его содержимое и интерпретирует прописанные правила. На основе этих инструкций он формирует для себя «карту поведения»: какие разделы стоит обходить, какие игнорировать, а какие сканировать с приоритетом. Важно понимать, что robots.txt не заставляет робота действовать строго по правилам, а именно задаёт рекомендации. Однако, крупные поисковые системы их соблюдают.
После обработки файла робот начинает сканирование сайта уже с учётом этих ограничений. Если в robots.txt указано, что определённые директории или страницы закрыты, он не будет заходить в них и не станет загружать их содержимое. Если же какие-то разделы явно разрешены, робот сосредоточится на них и будет чаще возвращаться для обновления данных.
Если файл отсутствует, повреждён или недоступен, поисковик действует по умолчанию — считает, что ограничений нет, и начинает обходить весь сайт. Это может привести к тому, что в индекс попадут технические или дублирующиеся страницы, которые изначально не планировалось показывать в поиске.
В итоге после анализа robots.txt робот принимает одно из трёх состояний доступа к сайту:
- Полный доступ — робот может сканировать все страницы без ограничений и свободно обходить весь сайт.
- Частичный доступ — часть сайта доступна для обхода, а отдельные разделы или страницы закрыты правилами robots.txt.
- Полный запрет — доступ полностью ограничен, и робот не сканирует сайт вовсе.
Именно от того, какой из этих сценариев реализуется, зависит, какие страницы попадут в индекс и как быстро это произойдёт.
Основные директивы robots.txt
1. User-agent — для кого правила
User-agent: *
Означает: правила для всех роботов.
Сегодня сайт могут посещать сотни различных ботов — от поисковых систем до SEO-сервисов, парсеров и AI-краулеров. Их количество постоянно растёт, поэтому важно управлять доступом к сайту через robots.txt. Однако, можно указать и одного конкретного.
Например:
User-agent: Yandex
2. Disallow — запрет на сканирование
Открыть весь сайт:
User-agent: *
Disallow:
Закрыть весь сайт:
User-agent: *
Disallow: /
Закрыть папку:
Disallow: /catalog/
Закрыть конкретную страницу:
Disallow: /catalog/product-1/
Закрыть файл:
Disallow: /image.jpg
Закрыть все GIF:
Disallow: *.gif
3. Allow — разрешение
Например: закрыли всё, кроме каталога
User-agent: *
Disallow: /
Allow: /catalog/
4. Sitemap — указание карты сайта
Sitemap: https://site.ru/sitemap.xml
Указание карты сайта ускоряет индексацию.
5. Crawl-delay — задержка сканирования
Crawl-delay: 5
Важно:
Google игнорирует эту директиву, но она частично работает для Яндекс. Директива считается устаревшей. Когда робот обходит сайт слишком активно, он может создавать десятки и сотни запросов в секунду. Для слабых или нестабильных серверов это иногда превращается в реальную проблему: сайт начинает тормозить, отдаёт ошибки или вообще «падает». В таких случаях и появляется идея «притормозить» краулинг.
Директива Crawl-delay как раз и говорит роботу: «делай паузу между запросами». Это может быть актуально, если сайт:
- работает на слабом хостинге
- генерирует страницы динамически (нагрузка на CPU/БД)
- имеет большие каталоги, которые активно обходятся
Однако, в современной SEO-практике директива Crawl-delay используется крайне редко, и на это есть несколько причин. Во-первых, поисковые системы уже научились самостоятельно регулировать нагрузку на сайт. Например, Яндекс автоматически снижает скорость обхода, если фиксирует медленные ответы сервера, ошибки или признаки перегрузки. Кроме того, неправильная настройка Crawl-delay может привести к обратному эффекту — если задать слишком большую задержку, робот начнёт медленнее обходить сайт, дольше находить новые страницы и реже обновлять уже проиндексированные. В результате мы фактически сами замедляем рост индексации и, как следствие, трафика.
При этом полностью списывать Crawl-delay со счетов нельзя. На практике он может быть полезен в узких и, как правило, временных сценариях. Например, когда сайт испытывает проблемы с производительностью и падает под нагрузкой, когда используется слабый или устаревший сервер, либо когда на сайт одновременно приходит большое количество различных ботов и парсеров от недобросовестных конкурентов. В таких ситуациях директива может выступать как временная мера, позволяющая снизить нагрузку до тех пор, пока не будет проведена полноценная оптимизация инфраструктуры.
6. Clean-param — борьба с дублями (Яндекс)
Clean-param: ref /catalog/get_phone
Это директива говорит боту Яндекса: параметр ref игнорируем.
Символы в robots.txt
/ — путь
Disallow: /
Закрывает весь сайт.
* — любая последовательность
Disallow: /catalog/*.gif
Закрывает все GIF в каталоге.
$ — конец строки
Disallow: /catalog/$
Закрывает только саму папку, но не вложенные URL.
# — комментарий
# закрываем тестовые страницы
Disallow: /test/
Практика: что нужно закрывать
В первую очередь в robots.txt имеет смысл ограничивать доступ к страницам, которые не несут самостоятельной ценности для поиска и создают избыточное количество URL. Речь идёт о динамических страницах, формируемых за счёт параметров и фильтров. Такие страницы часто появляются при сортировках, выборе характеристик, применении фильтров или использовании различных меток и служебных параметров. С точки зрения поисковых систем они практически всегда дублируют основной контент, но при этом расходуют краулинговый бюджет и усложняют структуру индекса.
Если не контролировать такие URL, поисковый робот начинает активно их обходить, создавая большое количество дублей. В результате важные страницы могут индексироваться медленнее, а сам сайт теряет в качестве с точки зрения поисковых алгоритмов. Поэтому задача robots.txt — отсечь подобные технические вариации и оставить в обходе только каноничные страницы.
Отдельное внимание стоит уделять служебным разделам сайта. К ним относятся страницы, предназначенные для взаимодействия пользователя с системой, а не для получения информации: административные панели, личные кабинеты, корзины и другие подобные элементы. Они не должны участвовать в поисковой выдаче и не представляют ценности для индексации, поэтому их также необходимо исключать из обхода.
Грамотное ограничение параметров, фильтров и служебных страниц позволяет сократить количество мусорных URL, сфокусировать поискового робота на приоритетных разделах и тем самым повысить общую эффективность индексации сайта.
Важный нюанс
Даже если страница закрыта в robots.txt — она все равно может попасть в индекс.
Если на неё есть ссылка или поисковик её уже видел до попадания под запрещающую директиву.
Robots.txt — не защита от индексации, а только запрет на сканирование.
Типичные ошибки
1. Закрыли весь сайт и забыли открыть
Disallow: /
Очень частая ошибка после разработки, которая не раз встречалась в нашей практике. Сайт может существовать так годами, пока владелец ломает голову. почему сайт не приносит лиды.
2. Несколько папок в одной строке
Неправильно:
Disallow: /catalog/ /blog/
Правильно:
Disallow: /catalog/
Disallow: /blog/
3. Неправильное имя файла
Не:
Robots.txt
ROBOTS.TXT
Только:
robots.txt
Файл robots.txt должен называться строго в нижнем регистре, потому что именно такой путь ожидают поисковые системы. Когда робот, например Google или Яндекс, заходит на сайт, он автоматически обращается по адресу /robots.txt. Это жёстко заданный стандарт, и никакие альтернативные варианты написания не проверяются.
На многих серверах (особенно Linux) имена файлов чувствительны к регистру. Это означает, что robots.txt, Robots.txt и ROBOTS.TXT — это три разных файла. Если файл загружен, например, как Robots.txt, а робот запрашивает /robots.txt, он просто получит ответ 404 и будет считать, что файла не существует.
В такой ситуации поисковик действует по умолчанию — без ограничений — и начинает сканировать весь сайт. В результате могут попасть в индекс служебные страницы, дубли и другие нежелательные URL.
Поэтому использование нижнего регистра — это не рекомендация, а требование стандарта. Любое отклонение фактически делает robots.txt нерабочим.
4. Закрыли нужные страницы
Классическая ошибка — когда правила в robots.txt начинают «стрелять себе в ногу». Особенно часто это происходит при работе с параметрами.
Например, на сайте решили закрыть все URL с параметрами, чтобы убрать дубли:
User-agent: *
Disallow: /*?
Логика понятная: любые страницы с ? — это фильтры, сортировки и прочий мусор. Но дальше появляется задача оставить в индексации несколько важных посадочных страниц, которые тоже работают на параметрах. И тогда добавляют:
Allow: /*?location=moscow
На бумаге кажется, что всё ок: общее правило закрывает параметры, а Allow — открывает нужные страницы. Но на практике это часто не работает так, как ожидают.
Причина в том, что правило Disallow: /*? слишком общее и перекрывает почти все варианты URL с параметрами. Если Allow прописан недостаточно точно или уступает по приоритету (например, из-за длины совпадения или особенностей обработки у разных поисковиков), робот просто не доходит до нужных страниц.
Одним из решений такой проблемы также является введение ЧПУ для всего сайта.
Когда robots.txt особенно важен
- интернет-магазины (фильтры, пагинация)
- сайты на CMS с параметрами
- большие каталоги
- новые сайты (контроль индексации)
robots.txt — это не техническая мелочь, а инструмент управления индексацией
Вывод
Если robots.txt настроен правильно, поисковая система быстрее и точнее понимает структуру сайта, исключает дублирующиеся страницы из обхода и формирует более качественный индекс. Это напрямую влияет на позиции и органический трафик.
Если же файл настроен некорректно, последствия могут быть критичными: часть страниц перестаёт индексироваться, нарушается логика обхода сайта, падает трафик, а в крайних случаях сайт может частично или полностью исчезнуть из поисковой выдачи.