Составляем файл robots.txt
|
Для начала Теория.
Robots.txt- это текстовый файл, предназначенный для роботов различных поисковых систем, расположенный на сайте/блоге (в корне папки с файлами интернет ресурса).
В нем web- мастер перезаписывает правила индексации интернет ресурса. Эти правила можно прописать как для всех поисковых роботов сразу, так и для каждого из них по отдельности.
То есть, текстовый файл robots.txt, нужен для запретов к индексации определенных страниц интернет ресурсов.
Пример для WordPress.
Robot.txt:
User-agent: *
Allow: /wp-content/uploads/
Disallow: /wp-login.php
Disallow: /wp-admin/
Disallow: /wp-content/
Disallow: /cgi-bin
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /wp-includes/
Disallow: /trackback/
Disallow: */trackback/
Disallow: /?feed=
Disallow: /feed/
Disallow: */feed/
Disallow: /?s=
Sitemap: http://photoinform.ru/sitemap.xml
Host: photoinform.ru
Расшифровка примера.
Allow: /wp-content/uploads/
Даем разрешение на индексацию картинок и файлов, находящихся в папке wp-content/uploads/.
Disallow: /wp-login.php , /wp-admin , /wp-content/ , /cgi-bin , /wp-register.php , /xmlrpc.php , /wp-includes/ , /trackback/ , */trackback/ , /?feed= , /feed/ , */feed/ , /?s= , /wp-login.php
Запрещаем индексировать вход в админ- панель (/wp-login.php), саму админ- панель (/wp-admin/) и страницу регистрации (/wp-register.php), содержимое папки (/cgi-bin), файл удаленных процедур (/xmlrpc.php), файлы в директории wp-includes (/wp-includes/), содержимое wp-content: темамы themes, плагины plugins, плагин кеширования страниц cache (/wp-content/). То есть все файлы, кроме wp-content/uploads/, который Мы разрешили чуть раньше. Запрещаем трекбеки (/trackback/ и */trackback/), фиды (/feed/ , */feed/ и /?feed=) и результаты поиска (/?s=)
Sitemap: http://photoinform.ru/sitemap.xml
Прописываем путь к карте сайта.
Host: photoinform.ru
Обозначаем что сайт photoinform.ru является главным зеркалом.
Основные моменты.
Индексация поисковыми роботами начинается с поиска robots.txt и ознакомления с его содержимым. После прочтения файла, поисковые роботы знают, что им надо индексировать и куда не стоит лесть. Если данный файл отсутствует в системе, то роботы считают, что доступ неограничен.
Когда robots.txt найден, робот проверяет, для него ли он :
- User-agent: Yandex — предписания для роботов Яндекса;
- User-agent: Google — предписания для роботов Google;
- User-agent: * — предписание для всех поисковых роботов.
- Если User-agent отсутствует — неограниченный доступ для робота.
Если поисковый робот нашел себя в списке, то смотрит дальше на файлы:
- Disallow — запред доступа
User-agent: * Disallow: / # блокируем доступ сайту
- Allow — разрешение к доступу
User-agent: *
Allow: / # разрешаем доступ сайту
- Или совместное их использование
User-agent: * Allow: /
wp-content/uploads/Disallow: /
wp-content/# запрещаем к индексации весь /
wp-content/, кроме /wp-content/uploads/.
- Если Вы используете карту сайта, в формате *.xml, то не забудте указать поисковым роботом об ее наличии и месторасположении
Sitemap: http://photoinform.ru/sitemaps.xml

Оставить комментарий