Доброго времени суток, уважаемые читатели. Рад приветствовать вас на страницах моего блога об основах интернет-маркетинга.

В этой статье рассмотрим такие вопросы:

  • что такое файл robots.txt и где он находится
  • настройка директив
  • особенности robots.txt для разных CMS
  • как проверить работу robots.txt

Что такое robots.txt

Файл robots.txt – является системным текстовым документом, содержащим инструкции для роботов поисковых систем, связанные с индексацией сайта. В этом документе вы можете создать инструкции запрета индексации отдельных страниц или целых разделов сайта. Или закрыть сайт от индексации полностью в одной из поисковых систем.

Где находится файл

Как правило, Роботс размещается в корневом каталоге сайта и имеет формат текстового документа (.txt). Получить доступ к нему можно несколькими способами:

  1. Cкачать с помощью браузера. Открыть ссылку http://site.ru/robots.txt
  2. Скачать и/или отредактировать с помощью FTP-клиента (FileZilla, TotalCommander и т.д.)
  3. Скачать и/или отредактировать в интерфейсе хостинг-консоли

Если файл robots.txt отсутствует на вашем сайте, достаточно создать его в любом текстовом редакторе, присвоить txt-формат и можно загружать в корень сайта. Ничего сложного 🙂

Директивы robots.txt

В этом блоке мы рассмотрим общую структуру robots.txt, основные директивы для поисковых роботов.

Эта директива содержит своего обращение к какому-то отдельному поисковому роботу или ко всем сразу. Если мы хотим, чтобы указания относились ко всем роботам, необходимо прописать строку

User-agent:*

Если нужно задать указания для отдельной ПС или робота, то на месте знака «*» прописывается его наименование. Для корректной индексации вашего сайта необходимо обязательно уделить внимание основным поисковикам.
Для Яндекса прописать:

User-agent: Yandex

Для Google:

User-agent: Googlebot

Для остальных ПС:

User-agent:*

Если содержатся указания для конкретной поисковой системы или робота, то общие не применяются.

Разрешает отдельные ресурсы сайта к индексации, если к примеру общий раздел, где они располагаются был раньше закрыт. Ошибочно мнение, что данная директива допускает сайт к индексации и ее применение обязательно. Нет, довольно часто директиву Allow не используют совсем, поскольку сайт индексируется по умолчанию.

Пример

User-agent: Yandex
Disallow: /
Allow: /opened-page.html

Пожалуй, самая используемая директива при настройке файла robots.txt. Она позволяет скрыть страницы или целые разделы от индексации.

Обычно скрывают:

  • корзину
  • регистрацию
  • личный кабинет
  • служебные страницы
  • панель CMS
  • удаленные страницы
  • технические дубли

Пример

User-agent: Yandex
Disallow: /closed-page.html

С помощью данной директивы определяется главное зеркало (основной домен) сайта. Прописать эту директиву необходимо, чтобы предупредить появление технических дублей сайта. Если ваш сайт одинаково открывается и по адресу http://site.ru и по адресу http://www.site.ru , это является грубой ошибкой оптимизации и будет негативно сказываться на продвижении ресурса в поисковых системах. Поэтому в файле robots.txt требуется указать главное зеркало сайта с помощью директивы Host.

Пример без www

Host: http://site.ru

Пример c www

Host: http://www.site.ru

Служит для указания доступа к XML-карте сайта – файлу sitemap.xml, который в свою очередь способствует более быстрой индексации страниц сайта в поисковых системах.

Пример

Sitemap: http://www.site.ru/sitemap.xml

В принципе мы рассмотрели, как настроить файл robots.txt. Разобрали основные директивы, которые должны быть прописаны для корректной индексации сайта в поисковых системах. Ниже я приведу примеры готовых файлов Роботс для нескольких популярных CMS и расскажу самый простой способ проверить корректную работу файла.

Robots.txt для WordPress

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: */trackback
Disallow: */feed
Disallow: /wp-login.php
Disallow: /wp-register.php

User-agent: Googlebot
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: */trackback
Disallow: */feed
Disallow: /wp-login.php
Disallow: /wp-register.php

User-agent: Yandex
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: */trackback
Disallow: */feed
Disallow: /wp-login.php
Disallow: /wp-register.php
Host: www.site.ru

Sitemap: http://www.site.ru/sitemap.xml

Robots.txt для Joomla

User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
Disallow: *print
Disallow: /*utm_source
Disallow: /*mailto*
Disallow: /*start*
Disallow: /*feed*
Disallow: /*search*
Disallow: /*users*

User-agent: Googlebot
Disallow: /administrator/
Disallow: /cache/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
Disallow: *print
Disallow: /*utm_source
Disallow: /*mailto*
Disallow: /*start*
Disallow: /*feed*
Disallow: /*search*
Disallow: /*users*

User-agent: Yandex
Disallow: /administrator/
Disallow: /cache/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
Disallow: *print
Disallow: /*utm_source
Disallow: /*mailto*
Disallow: /*start*
Disallow: /*feed*
Disallow: /*search*
Disallow: /*users*
Host: www.site.ru

Sitemap: http://www.site.ru/sitemap.xml

Robots.txt для OpenCart

User-agent: *
Disallow: /index.php?route=account
Disallow: /index.php?route=checkout/cart
Disallow: /index.php?route=checkout/shipping
Disallow: /index.php?route=common/home
Disallow: /index.php?route=product/product/captcha
Disallow: /index.php?route=product/search
Disallow: /*route=account/login
Disallow: /*route=checkout/cart
Disallow: /admin
Disallow: /catalog
Disallow: /download
Disallow: /export
Disallow: /system

User-agent: Googlebot
Disallow: /index.php?route=account
Disallow: /index.php?route=checkout/cart
Disallow: /index.php?route=checkout/shipping
Disallow: /index.php?route=common/home
Disallow: /index.php?route=product/product/captcha
Disallow: /index.php?route=product/search
Disallow: /*route=account/login
Disallow: /*route=checkout/cart
Disallow: /admin
Disallow: /catalog
Disallow: /download
Disallow: /export
Disallow: /system

User-agent: Yandex
Disallow: /index.php?route=account
Disallow: /index.php?route=checkout/cart
Disallow: /index.php?route=checkout/shipping
Disallow: /index.php?route=common/home
Disallow: /index.php?route=product/product/captcha
Disallow: /index.php?route=product/search
Disallow: /*route=account/login
Disallow: /*route=checkout/cart
Disallow: /admin
Disallow: /catalog
Disallow: /download
Disallow: /export
Disallow: /system
Host: www.site.ru

Sitemap: http://www.site.ru/sitemap.xml

Как проверить файл robots.txt

На мой взгляд, самый быстрый и простой способ проверить корректность настройки файла — это инструмент «Анализ robots.txt» в панели Вебмастера Яндекс. Он позволяет оценить правильность составления документа и выявить наличие ошибок.