Составляем файл robots.txt

Для начала Теория.

Robots.txt- это текстовый файл, предназначенный для роботов различных поисковых систем, расположенный на сайте/блоге (в корне папки с файлами интернет ресурса).

В нем web- мастер перезаписывает правила индексации интернет ресурса. Эти правила можно прописать как для всех поисковых роботов сразу, так и для каждого из них по отдельности.

То есть, текстовый файл robots.txt, нужен для запретов к индексации определенных страниц интернет ресурсов.

Пример для WordPress.

Robot.txt:

User-agent: *

Allow: /wp-content/uploads/

Disallow: /wp-login.php

Disallow: /wp-admin/

Disallow: /wp-content/

Disallow: /cgi-bin

Disallow: /wp-register.php

Disallow: /xmlrpc.php

Disallow: /wp-includes/

Disallow: /trackback/

Disallow: */trackback/

Disallow: /?feed=

Disallow: /feed/

Disallow: */feed/

Disallow: /?s=

Sitemap: http://photoinform.ru/sitemap.xml

Host: photoinform.ru

Расшифровка примера.

Allow: /wp-content/uploads/

Даем разрешение на индексацию картинок и файлов, находящихся в папке wp-content/uploads/.

Disallow: /wp-login.php , /wp-admin , /wp-content/ , /cgi-bin , /wp-register.php , /xmlrpc.php , /wp-includes/ , /trackback/ , */trackback/ , /?feed= , /feed/ , */feed/ , /?s= , /wp-login.php

Запрещаем индексировать вход в админ- панель (/wp-login.php), саму админ- панель (/wp-admin/) и страницу регистрации (/wp-register.php), содержимое папки (/cgi-bin), файл удаленных процедур (/xmlrpc.php), файлы в директории wp-includes (/wp-includes/), содержимое wp-content: темамы themes, плагины plugins, плагин кеширования страниц cache (/wp-content/). То есть все файлы, кроме wp-content/uploads/, который Мы разрешили чуть раньше. Запрещаем трекбеки (/trackback/ и */trackback/), фиды (/feed/ , */feed/ и /?feed=) и результаты поиска (/?s=)

Sitemap: http://photoinform.ru/sitemap.xml

Прописываем путь к карте сайта.

Host: photoinform.ru
Обозначаем что сайт photoinform.ru является главным зеркалом.

Основные моменты.

Индексация поисковыми роботами начинается с поиска robots.txt и ознакомления с его содержимым. После прочтения файла, поисковые роботы знают, что им надо индексировать и куда не стоит лесть. Если данный файл отсутствует в системе, то роботы считают, что доступ неограничен.

Когда robots.txt найден, робот проверяет, для него ли он :

  • User-agent:  Yandex — предписания для роботов Яндекса;
  • User-agent:  Google — предписания для роботов Google;
  • User-agent:  * — предписание для всех поисковых роботов.
  • Если User-agent отсутствует — неограниченный доступ для робота.

Если поисковый робот нашел себя в списке, то смотрит дальше на файлы:

  • Disallow — запред доступа
User-agent: *
Disallow: /
# блокируем доступ сайту
  • Allow — разрешение к доступу
User-agent: *
Allow: /
# разрешаем доступ сайту
  • Или совместное их использование
User-agent: *
Allow: /wp-content/uploads/
Disallow: /wp-content/
# запрещаем к индексации весь /wp-content/, кроме /wp-content/uploads/.
  • Если Вы используете карту сайта, в формате *.xml, то не забудте указать поисковым роботом об ее наличии и месторасположении
Sitemap: http://photoinform.ru/sitemaps.xml

Помогите блогу, добавьте статью в социальные закладки и сети:


Оставить комментарий

Перед отправкой формы:
Human test by Not Captcha


Рубрики блога
Апрель 2024
Пн Вт Ср Чт Пт Сб Вс
« Апр    
1234567
891011121314
15161718192021
22232425262728
2930  
Надежные партнеры

Рекламное производство в Орехово-Зуево предоставляет услуги по разработке и изготовлению полиграфической и широкоформатной продукции.

Рекламное производство в Орехово-Зуево

Контакты:

+7 (965) 377-09-06;
+7 (965) 376-02-38; rpcpegas@gmail.com

Счетчики