Составляем файл robots.txt

22.03.2011 |

Автор: admin

Для начала Теория.

Robots.txt- это текстовый файл, предназначенный для роботов различных поисковых систем, расположенный на сайте/блоге (в корне папки с файлами интернет ресурса).

В нем web- мастер перезаписывает правила индексации интернет ресурса. Эти правила можно прописать как для всех поисковых роботов сразу, так и для каждого из них по отдельности.

То есть, текстовый файл robots.txt, нужен для запретов к индексации определенных страниц интернет ресурсов.

Пример для WordPress.

Robot.txt:

User-agent: *

Allow: /wp-content/uploads/

Disallow: /wp-login.php

Disallow: /wp-admin/

Disallow: /wp-content/

Disallow: /cgi-bin

Disallow: /wp-register.php

Disallow: /xmlrpc.php

Disallow: /wp-includes/

Disallow: /trackback/

Disallow: */trackback/

Disallow: /?feed=

Disallow: /feed/

Disallow: */feed/

Disallow: /?s=

Sitemap: http://photoinform.ru/sitemap.xml

Host: photoinform.ru

Расшифровка примера.

Allow: /wp-content/uploads/

Даем разрешение на индексацию картинок и файлов, находящихся в папке wp-content/uploads/.

Disallow: /wp-login.php , /wp-admin , /wp-content/ , /cgi-bin , /wp-register.php , /xmlrpc.php , /wp-includes/ , /trackback/ , */trackback/ , /?feed= , /feed/ , */feed/ , /?s= , /wp-login.php

Запрещаем индексировать вход в админ- панель (/wp-login.php), саму админ- панель (/wp-admin/) и страницу регистрации (/wp-register.php), содержимое папки (/cgi-bin), файл удаленных процедур (/xmlrpc.php), файлы в директории wp-includes (/wp-includes/), содержимое wp-content: темамы themes, плагины plugins, плагин кеширования страниц cache (/wp-content/). То есть все файлы, кроме wp-content/uploads/, который Мы разрешили чуть раньше. Запрещаем трекбеки (/trackback/ и */trackback/), фиды (/feed/ , */feed/ и /?feed=) и результаты поиска (/?s=)

Sitemap: http://photoinform.ru/sitemap.xml

Прописываем путь к карте сайта.

Host: photoinform.ru
Обозначаем что сайт photoinform.ru является главным зеркалом.

Основные моменты.

Индексация поисковыми роботами начинается с поиска robots.txt и ознакомления с его содержимым. После прочтения файла, поисковые роботы знают, что им надо индексировать и куда не стоит лесть. Если данный файл отсутствует в системе, то роботы считают, что доступ неограничен.

Когда robots.txt найден, робот проверяет, для него ли он :

User-agent: Yandex — предписания для роботов Яндекса;
User-agent: Google — предписания для роботов Google;
User-agent: * — предписание для всех поисковых роботов.
Если User-agent отсутствует — неограниченный доступ для робота.

Если поисковый робот нашел себя в списке, то смотрит дальше на файлы:

Disallow — запред доступа

User-agent: *
Disallow: /
# блокируем доступ сайту

Allow — разрешение к доступу

User-agent: *
Allow: /
# разрешаем доступ сайту

Или совместное их использование

User-agent: *
Allow: /wp-content/uploads/
Disallow: /wp-content/
# запрещаем к индексации весь /wp-content/, кроме /wp-content/uploads/.

Если Вы используете карту сайта, в формате *.xml, то не забудте указать поисковым роботом об ее наличии и месторасположении

Sitemap: http://photoinform.ru/sitemaps.xml

Помогите блогу, добавьте статью в социальные закладки и сети:

Рубрика: Seo |

Метки: Allow, Disallow, robots.txt, Sitemap, sitemap.xml, User-agent

Пн	Вт	Ср	Чт	Пт	Сб	Вс
« Апр
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

Блог Seo'шника PhotoInform