файл robots txt что такое

Что такое robots.txt

Разбираем что такое robots.txt и зачем он нужен сайту

Если у сайта есть проблемы с индексацией, первое место, куда стоит смотреть — это robots.txt. И да, это не просто «технический файлик для галочки», а инструмент, который напрямую влияет на трафик, индексацию и даже деньги.

Разбираемся без лишней теории: что это такое, как работает и как не сломать сайт одним неправильным символом.

Что такое robots.txt

robots.txt — это текстовый файл, который лежит в корне сайта:

https://site.ru/robots.txt

Он даёт инструкции поисковым роботам (Google, Яндекс и др.), какие страницы:

  • можно сканировать,
  • нельзя сканировать,
  • нужно сканировать в приоритете.

Проще говоря — это фильтр доступа для поисковых систем.

Почему robots.txt критически важен для SEO

robots.txt — это один из немногих инструментов, который позволяет напрямую управлять тем, как поисковые системы «видят» ваш сайт. Без него робот действует по максимально простому сценарию: он заходит на сайт и начинает обходить всё, до чего может дотянуться по ссылкам. Для небольших сайтов это не всегда критично, но как только появляется структура, фильтры, параметры или динамические страницы — начинается хаос.

Без корректно настроенного robots.txt поисковик:

  • сканирует абсолютно все URL, включая технические страницы, фильтры, параметры, результаты поиска и дубли. Например, это могут быть страницы вида /catalog/?sort=price, /catalog/?filter=brand-nike, /search/?q=кроссовки, а также URL с метками вроде ?utm_source= или ?gclid=. Сюда же относятся дубли с /index.php, варианты со слешем и без (/page и /page/), а также разные версии одной страницы по протоколу или домену; 
  • расходует краулинговый бюджет на второстепенные или бесполезные страницы, из-за чего важные разделы могут индексироваться медленнее или вообще игнорироваться;
  • добавляет в индекс мусорные страницы, которые не несут ценности и размывают релевантность сайта в целом. Например, в выдаче могут появляться страницы результатов поиска по сайту (/search/?q=...), фильтры с пустым или узким ассортиментом (/catalog/?filter=color-red&size=xl), страницы пагинации (/catalog/?page=7), версии для печати или технические URL с параметрами, которые не имеют самостоятельной ценности для пользователя. 

В результате поисковая система тратит ресурсы не на те страницы, которые приносят бизнесу трафик и заявки, а на всё подряд. Это особенно критично для интернет-магазинов, каталогов и сайтов с фильтрацией, где количество URL может исчисляться тысячами и даже миллионами.

Когда robots.txt настроен грамотно, ситуация кардинально меняется. Вы начинаете управлять поведением поискового робота, а не просто наблюдать за его действиями. Через этот файл можно:

  • убрать из обхода дублирующиеся страницы (например, с параметрами сортировки и фильтрации);
  • закрыть технические разделы (админки, корзины, личные кабинеты, результаты поиска) — потому что такие страницы не несут ценности для поиска, не предназначены для пользователей из поисковой выдачи и часто создают дубли или бесконечные вариации URL. Если их не ограничить, поисковый робот будет тратить на них краулинговый бюджет, что замедляет индексацию важных страниц и ухудшает общее качество индекса сайта;
  • сфокусировать внимание поисковых систем на приоритетных страницах — категориях, услугах, карточках товаров и посадочных страницах.

Это напрямую влияет на качество индексации. Поисковик быстрее находит и обновляет важные страницы, реже сталкивается с дублями и лучше понимает структуру сайта. В итоге улучшается не только скорость попадания страниц в индекс, но и их позиции.

Финальный эффект для вашего сайта выглядит просто:
чем чище и управляемее индекс → тем выше релевантность → тем выше позиции → тем больше органического трафика и заявок.

Как работает robots.txt

Когда поисковый робот, например Google или Яндекс, впервые попадает на сайт или возвращается к нему для повторного обхода, его действия начинаются не с просмотра страниц, а с обращения к файлу robots.txt. Он автоматически делает запрос по адресу вида https://site.ru/robots.txt и пытается получить от сервера ответ.

Если файл найден и доступен, робот считывает его содержимое и интерпретирует прописанные правила. На основе этих инструкций он формирует для себя «карту поведения»: какие разделы стоит обходить, какие игнорировать, а какие сканировать с приоритетом. Важно понимать, что robots.txt не заставляет робота действовать строго по правилам, а именно задаёт рекомендации. Однако, крупные поисковые системы их соблюдают.

После обработки файла робот начинает сканирование сайта уже с учётом этих ограничений. Если в robots.txt указано, что определённые директории или страницы закрыты, он не будет заходить в них и не станет загружать их содержимое. Если же какие-то разделы явно разрешены, робот сосредоточится на них и будет чаще возвращаться для обновления данных.

Если файл отсутствует, повреждён или недоступен, поисковик действует по умолчанию — считает, что ограничений нет, и начинает обходить весь сайт. Это может привести к тому, что в индекс попадут технические или дублирующиеся страницы, которые изначально не планировалось показывать в поиске.

В итоге после анализа robots.txt робот принимает одно из трёх состояний доступа к сайту:

  1. Полный доступ — робот может сканировать все страницы без ограничений и свободно обходить весь сайт.
  2. Частичный доступ — часть сайта доступна для обхода, а отдельные разделы или страницы закрыты правилами robots.txt.
  3. Полный запрет — доступ полностью ограничен, и робот не сканирует сайт вовсе.

Именно от того, какой из этих сценариев реализуется, зависит, какие страницы попадут в индекс и как быстро это произойдёт.

Основные директивы robots.txt

1. User-agent — для кого правила

User-agent: *

Означает: правила для всех роботов.
Сегодня сайт могут посещать сотни различных ботов — от поисковых систем до SEO-сервисов, парсеров и AI-краулеров. Их количество постоянно растёт, поэтому важно управлять доступом к сайту через robots.txt. Однако, можно указать и одного конкретного.
Например:

User-agent: Yandex

2. Disallow — запрет на сканирование

Открыть весь сайт:

User-agent: *

Disallow:

Закрыть весь сайт:

User-agent: *

Disallow: /

Закрыть папку:

Disallow: /catalog/

Закрыть конкретную страницу:

Disallow: /catalog/product-1/

Закрыть файл:

Disallow: /image.jpg

Закрыть все GIF:

Disallow: *.gif

3. Allow — разрешение

Например: закрыли всё, кроме каталога

User-agent: *

Disallow: /

Allow: /catalog/

4. Sitemap — указание карты сайта

Sitemap: https://site.ru/sitemap.xml

Указание карты сайта ускоряет индексацию.

5. Crawl-delay — задержка сканирования

Crawl-delay: 5

Важно:
Google игнорирует эту директиву, но она частично работает для Яндекс. Директива считается устаревшей. Когда робот обходит сайт слишком активно, он может создавать десятки и сотни запросов в секунду. Для слабых или нестабильных серверов это иногда превращается в реальную проблему: сайт начинает тормозить, отдаёт ошибки или вообще «падает». В таких случаях и появляется идея «притормозить» краулинг.

Директива Crawl-delay как раз и говорит роботу: «делай паузу между запросами». Это может быть актуально, если сайт:

  • работает на слабом хостинге
  • генерирует страницы динамически (нагрузка на CPU/БД)
  • имеет большие каталоги, которые активно обходятся

Однако, в современной SEO-практике директива Crawl-delay используется крайне редко, и на это есть несколько причин. Во-первых, поисковые системы уже научились самостоятельно регулировать нагрузку на сайт. Например, Яндекс автоматически снижает скорость обхода, если фиксирует медленные ответы сервера, ошибки или признаки перегрузки. Кроме того, неправильная настройка Crawl-delay может привести к обратному эффекту — если задать слишком большую задержку, робот начнёт медленнее обходить сайт, дольше находить новые страницы и реже обновлять уже проиндексированные. В результате мы фактически сами замедляем рост индексации и, как следствие, трафика.

При этом полностью списывать Crawl-delay со счетов нельзя. На практике он может быть полезен в узких и, как правило, временных сценариях. Например, когда сайт испытывает проблемы с производительностью и падает под нагрузкой, когда используется слабый или устаревший сервер, либо когда на сайт одновременно приходит большое количество различных ботов и парсеров от недобросовестных конкурентов. В таких ситуациях директива может выступать как временная мера, позволяющая снизить нагрузку до тех пор, пока не будет проведена полноценная оптимизация инфраструктуры.

6. Clean-param — борьба с дублями (Яндекс)

Clean-param: ref /catalog/get_phone

Это директива говорит боту Яндекса: параметр ref игнорируем.

Символы в robots.txt

/ — путь

Disallow: /

Закрывает весь сайт.

* — любая последовательность

Disallow: /catalog/*.gif

Закрывает все GIF в каталоге.

$ — конец строки

Disallow: /catalog/$

Закрывает только саму папку, но не вложенные URL.

# — комментарий

# закрываем тестовые страницы

Disallow: /test/

Практика: что нужно закрывать

В первую очередь в robots.txt имеет смысл ограничивать доступ к страницам, которые не несут самостоятельной ценности для поиска и создают избыточное количество URL. Речь идёт о динамических страницах, формируемых за счёт параметров и фильтров. Такие страницы часто появляются при сортировках, выборе характеристик, применении фильтров или использовании различных меток и служебных параметров. С точки зрения поисковых систем они практически всегда дублируют основной контент, но при этом расходуют краулинговый бюджет и усложняют структуру индекса.

Если не контролировать такие URL, поисковый робот начинает активно их обходить, создавая большое количество дублей. В результате важные страницы могут индексироваться медленнее, а сам сайт теряет в качестве с точки зрения поисковых алгоритмов. Поэтому задача robots.txt — отсечь подобные технические вариации и оставить в обходе только каноничные страницы.

Отдельное внимание стоит уделять служебным разделам сайта. К ним относятся страницы, предназначенные для взаимодействия пользователя с системой, а не для получения информации: административные панели, личные кабинеты, корзины и другие подобные элементы. Они не должны участвовать в поисковой выдаче и не представляют ценности для индексации, поэтому их также необходимо исключать из обхода.

Грамотное ограничение параметров, фильтров и служебных страниц позволяет сократить количество мусорных URL, сфокусировать поискового робота на приоритетных разделах и тем самым повысить общую эффективность индексации сайта.

Важный нюанс

Даже если страница закрыта в robots.txt — она все равно может попасть в индекс.

Если на неё есть ссылка или поисковик её уже видел до попадания под запрещающую директиву.

Robots.txt — не защита от индексации, а только запрет на сканирование.

Типичные ошибки

1. Закрыли весь сайт и забыли открыть

Disallow: /

Очень частая ошибка после разработки, которая не раз встречалась в нашей практике. Сайт может существовать так годами, пока владелец ломает голову. почему сайт не приносит лиды.

2. Несколько папок в одной строке

Неправильно:

Disallow: /catalog/ /blog/

Правильно:

Disallow: /catalog/

Disallow: /blog/

3. Неправильное имя файла

Не:
Robots.txt
ROBOTS.TXT

Только:
robots.txt

Файл robots.txt должен называться строго в нижнем регистре, потому что именно такой путь ожидают поисковые системы. Когда робот, например Google или Яндекс, заходит на сайт, он автоматически обращается по адресу /robots.txt. Это жёстко заданный стандарт, и никакие альтернативные варианты написания не проверяются.

На многих серверах (особенно Linux) имена файлов чувствительны к регистру. Это означает, что robots.txt, Robots.txt и ROBOTS.TXT — это три разных файла. Если файл загружен, например, как Robots.txt, а робот запрашивает /robots.txt, он просто получит ответ 404 и будет считать, что файла не существует.

В такой ситуации поисковик действует по умолчанию — без ограничений — и начинает сканировать весь сайт. В результате могут попасть в индекс служебные страницы, дубли и другие нежелательные URL.

Поэтому использование нижнего регистра — это не рекомендация, а требование стандарта. Любое отклонение фактически делает robots.txt нерабочим.

4. Закрыли нужные страницы

Классическая ошибка — когда правила в robots.txt начинают «стрелять себе в ногу». Особенно часто это происходит при работе с параметрами.

Например, на сайте решили закрыть все URL с параметрами, чтобы убрать дубли:

User-agent: *

Disallow: /*?

Логика понятная: любые страницы с ? — это фильтры, сортировки и прочий мусор. Но дальше появляется задача оставить в индексации несколько важных посадочных страниц, которые тоже работают на параметрах. И тогда добавляют:

Allow: /*?location=moscow

На бумаге кажется, что всё ок: общее правило закрывает параметры, а Allow — открывает нужные страницы. Но на практике это часто не работает так, как ожидают.

Причина в том, что правило Disallow: /*? слишком общее и перекрывает почти все варианты URL с параметрами. Если Allow прописан недостаточно точно или уступает по приоритету (например, из-за длины совпадения или особенностей обработки у разных поисковиков), робот просто не доходит до нужных страниц.

Одним из решений такой проблемы также является введение ЧПУ для всего сайта.

Когда robots.txt особенно важен

  • интернет-магазины (фильтры, пагинация)
  • сайты на CMS с параметрами
  • большие каталоги
  • новые сайты (контроль индексации)

robots.txt — это не техническая мелочь, а инструмент управления индексацией

Вывод

Если robots.txt настроен правильно, поисковая система быстрее и точнее понимает структуру сайта, исключает дублирующиеся страницы из обхода и формирует более качественный индекс. Это напрямую влияет на позиции и органический трафик.

Если же файл настроен некорректно, последствия могут быть критичными: часть страниц перестаёт индексироваться, нарушается логика обхода сайта, падает трафик, а в крайних случаях сайт может частично или полностью исчезнуть из поисковой выдачи.

Получите рекомендации по вашему проекту

Оставьте контакты, и мы разберем ваш кейс и выведем по нему 3 точки роста в продвижении.

Без спама и навязывания услуг. Свяжемся по делу.