Что такое robots.txt? Зачем он нужен и как его сделать?

Дата Автор 

Здравствуйте дорогие читатели. Сегодня  я хочу рассказать вам о файле robots.txt. Это один из основных этапов внутренней оптимизации сайта. Если вы до сих пор не знаете, зачем он нужен вообще или как его настроить, то вам обязательно нужно прочитать этот пост до конца.

robots.txt

Я постараюсь максимально плотно рассказать вам обо всех нюансах в настройке этого файла. Не хочу лить много воды, поэтому перейду сразу к делу.

 

Индексация сайта, один из важных моментов поисковой раскрутки сайта. Очень часто на сайте есть куча ненужной для поисковых систем информации. Обычно это сайты, которые созданы с помощью CMS.

 

Закрытие не нужной информации позволит уменьшить нагрузку на сервер, а так же поможет избавиться от возможного дублирования информации. Для чего это надо? Дело в том, что абсолютно все поисковые системы не любят дублирование информации.

 

С помощью robots.txt вы подсказываете роботу поисковой системы, какие папки и файлы нужно индексировать, а какие нет. Данный файл создается в любом текстовом редакторе и должен находиться в корневом каталоге вашего сайта. Кстати, чуть не забыл, название файла обязательно должно быть маленькими буквами.

 

Синтаксис файла robots.txt

 

Естественно для этого файла существуют свои правила написания синтаксиса и директив. Для некоторых поисковиков, помимо общих правил есть собственные. Стандартное написание директив выглядит так:

 

«поле»«двоеточие»«пробел»«значение»«пробел»

 

Если файл пуст, тогда робот будет индексировать абсолютно весь сайт. Если поисковой робот найдет ошибки в файле, тогда он так же будет индексировать все. Так что нарушать правила ни в коем разе нельзя.

 

В каждом файле должна быть хоть одна запись «User-agent». Это обращение к поисковому роботу. Если после этой записи стоит *, значит, команды будут для всех поисковых роботов. Если написано какое-то имя, то обращение идет к определенному поисковому роботу. Вот список нескольких:


 

 Google - Googlebot

 Yahoo! - Slurp (или Yahoo! Slurp)

 Яндекс - Yandex

 Рамблер - StackRambler

 Мэйл.ру - Mail.Ru

 

Кстати, чуть не забыл написать, одно из важных правил это то, что для каждой записи «User-agent», должна быть хотя бы одна директива «Disallow».

 

Примеры записей

 

User-agent: *

Disallow:

 

Все поисковые системы будут индексировать весь ваш сайт. То есть если у директивы Disallow , ничего не запрещено, значит все разрешено. Все просто.

 

User-agent: *

Disallow: /

 

Все поисковые системы не будут индексировать ваш сайт. Значение «/» запрещает индексацию.

 

User-agent: *

Disallow: /administrator/

 

Такая запись, будет запрещать индексацию содержимого папки administrator.  Путь к этой папке будет http://www.vash_site.ru/administrator/

 

User-agent: *

Disallow: /images/

Allow: /images/JPG/

 

Так же можно использовать спаренные комбинации Allow/Disallow . В данном примере мы видим что папка «images» закрыта от индексации, а папка «JPG» которая находиться внутри «images» открыта для индексации.

 

User-agent: *

Disallow: /index

 

Вот эта запись очень хитрая, поэтому с ней не стоит делать ошибки. Она будет запрещать индексацию директории index, если такая существует, а так же всех файлов, которые начинаются на это слово (index.php, indexation.php).

 

User-agent: *

Disallow: *.js

 

Как вы уже знаете символ «*» означает абсолютно любую последовательность символов. Так вот данный файл будет запрещать индексацию всех файлов формата .js (JavaScript).

 

Так же советую обязательно прописать в этом файле главное зеркало сайта и путь к карте сайта. Все это делается двумя строчками.

 

User-agent: *

Host: www.workwebsite.ru

Sitemap: http://www.workwebsite.ru/sitemap.xml

 

Вы можете просмотреть robots.txt, абсолютно у любого сайта, просто после ссылки на сайт добавить /robots.txt. У моего блога он выглядит так:

 

User-agent: *   

Disallow: /administrator/          

Disallow: /cache/                                          

Disallow: /components/            

Disallow: /includes/     

Disallow: /language/   

Disallow: /libraries/     

Disallow: /logs/                                             

Disallow: /modules/

Disallow: /plugins/       

Disallow: /templates/

Disallow: /tmp/              

Disallow: /xmlrpc/        

Disallow: /404

Disallow: /index.php?

Disallow: /index.html

Disallow: /*?

Disallow: /*%

Disallow: /*&

Disallow: /index2.php

Disallow: /index.php

Disallow: /*.pdf

Disallow: /*.swf

Disallow: /*print=1       

Host: www.workwebsite.ru

Sitemap: http://www.workwebsite.ru/sitemap.xml 

 

 

Ну, вот и все! Надеюсь, я все понятно объяснил, но если у вас все же появятся вопросы, то задавайте их в комментариях или пишите мне на почту.

 

На десерт я приготовил вам прикольное видео где чернокожий парень офигенно танцует как робот. Я долго разрывался между несколькими видео и это на мой взгляд было лучше всех.

 

Постовой: На сайте kupilslona.ru вы сможете не дорого приобрести , а так же айподы, смартфоны и аксессуары к ним.

 

Спасибо за внимание!!! С уважением Остапенко Илья.

Оцените материал
(3 голосов)
 

Комментарии   

 
Наталья
0 # 14.01.2013 11:41
Спасибо.У Вас очень интересный и полезный сайт. Особенно для новичков,как я.
Ответить | Ответить с цитатой | Цитировать
 
 
Остапенко Илья
0 # Остапенко Илья 14.01.2013 15:59
Большое спасибо! Мне очень приятно =) По большему счету, я в основном, и стараюсь писать для новичков.
Ответить | Ответить с цитатой | Цитировать
 
 
Татьяна
0 # 06.01.2014 13:09
Полезная статья, спасибо. У меня в robots.txt прописан путь к xml-карте, но при анализе сайта на одном из сервисов мне выдает ошибку и пишет, чтобы я прописала этот путь. В чем дело, не подскажете?
Ответить | Ответить с цитатой | Цитировать
 
 
Остапенко Илья
0 # Остапенко Илья 06.01.2014 14:47
Может сервис кривой, может строка не правильно прописана. Если Ваш сайт прикручен к Яндекс Вебмастеру, то проверьте роботс в нем, на мой взгляд самый надежный вариант. Если ошибки будут то он Вам покажет их.
Ответить | Ответить с цитатой | Цитировать
 
 
Владимир
0 # 11.09.2014 11:33
А я прописал вот такие строки, думаю этого достаточно для всех роботов и для посетителей

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/
Allow: /
Host: 4wordpress.org
Sitemap: http://4wordpress.org/sitemap.xml
Ответить | Ответить с цитатой | Цитировать
 
Добавить комментарий


Защитный код
Обновить