Что такое robots.txt? Зачем он нужен и как его сделать?

Автор: Илья Остапенко /

Здравствуйте дорогие читатели. Сегодня я хочу рассказать вам о файле robots.txt. Это один из основных этапов внутренней оптимизации сайта. Если вы до сих пор не знаете, зачем он нужен вообще или как его настроить, то вам обязательно нужно прочитать этот пост до конца.

Что такое robots.txt? Зачем он нужен и как его сделать?

Я постараюсь максимально плотно рассказать вам обо всех нюансах в настройке этого файла. Не хочу лить много воды, поэтому перейду сразу к делу.

Индексация сайта, один из важных моментов поисковой раскрутки сайта. Очень часто на сайте есть куча ненужной для поисковых систем информации. Обычно это сайты, которые созданы с помощью CMS.

Закрытие не нужной информации позволит уменьшить нагрузку на сервер, а так же поможет избавиться от возможного дублирования информации. Для чего это надо? Дело в том, что абсолютно все поисковые системы не любят дублирование информации.

С помощью robots.txt вы подсказываете роботу поисковой системы, какие папки и файлы нужно индексировать, а какие нет. Данный файл создается в любом текстовом редакторе и должен находиться в корневом каталоге вашего сайта. Кстати, чуть не забыл, название файла обязательно должно быть маленькими буквами.

 

Синтаксис файла robots.txt

Естественно для этого файла существуют свои правила написания синтаксиса и директив. Для некоторых поисковиков, помимо общих правил есть собственные. Стандартное написание директив выглядит так:

«поле»«двоеточие»«пробел»«значение»«пробел»

Если файл пуст, тогда робот будет индексировать абсолютно весь сайт. Если поисковой робот найдет ошибки в файле, тогда он так же будет индексировать все. Так что нарушать правила ни в коем разе нельзя.

В каждом файле должна быть хоть одна запись «User-agent». Это обращение к поисковому роботу. Если после этой записи стоит *, значит, команды будут для всех поисковых роботов. Если написано какое-то имя, то обращение идет к определенному поисковому роботу. Вот список нескольких:

Google - Googlebot

Yahoo! - Slurp (или Yahoo! Slurp)

 Яндекс - Yandex

Рамблер - StackRambler

Мэйл.ру - Mail.Ru

Кстати, чуть не забыл написать, одно из важных правил это то, что для каждой записи «User-agent», должна быть хотя бы одна директива «Disallow».

 

Примеры записей

Все поисковые системы будут индексировать весь ваш сайт. То есть если у директивы Disallow , ничего не запрещено, значит все разрешено. Все просто.

Все поисковые системы не будут индексировать ваш сайт. Значение «/» запрещает индексацию.

Такая запись, будет запрещать индексацию содержимого папки administrator.  Путь к этой папке будет http://www.vash_site.ru/administrator/

Так же можно использовать спаренные комбинации Allow/Disallow . В данном примере мы видим что папка «images» закрыта от индексации, а папка «JPG» которая находиться внутри «images» открыта для индексации.

Вот эта запись очень хитрая, поэтому с ней не стоит делать ошибки. Она будет запрещать индексацию директории index, если такая существует, а так же всех файлов, которые начинаются на это слово (index.php, indexation.php).

Как вы уже знаете символ «*» означает абсолютно любую последовательность символов. Так вот данный файл будет запрещать индексацию всех файлов формата .js (JavaScript).

Так же советую обязательно прописать в этом файле главное зеркало сайта и путь к карте сайта. Все это делается двумя строчками.

Вы можете просмотреть robots.txt, абсолютно у любого сайта, просто после ссылки на сайт добавить /robots.txt. У моего блога он выглядит так:

Ну, вот и все! Надеюсь, я все понятно объяснил, но если у вас все же появятся вопросы, то задавайте их в комментариях или пишите мне на почту.

Оставить комментарий

Это не спам.