Продвижение, оптимизация сайтов

Прозрачное и качественное продвижение вашего ресурса в ТОП выдачи поисковых гигантов Yandex и Google

» » Файл robots.txt: что нужно прятать на своем сайте от него?
Последние добавленные новости



Файл robots.txt: что нужно прятать на своем сайте от него?
Набор предназначенных для поисковых роботов директив, более известный как robots.txt, предназначается для того, чтобы роботам разрешалось или наоборот, запрещалось индексировать различные разделы и файлы на вашем сайте. Также в этом сайте содержаться дополнительные сведения, необходимые роботам для индексации.
Изначально robots.txt предназначался исключительно для запрета индексации определенных разделов, но спустя время Google и Яндекс ввели возможность для разрешения индексации.

Структура файла robots.txt


Прежде всего, указывается директива User-agent – она используется для того, чтобы указать точно, к какому именно поисковому роботу относится данная инструкция. После нее прописываются директивы Disallow и Allow – они соответственно запрещают или разрешают индексировать подразделов, страниц или файлов. Затем для следующего User-agent набор действий повторяется.
Затем для User-agent Яндекс указывается директива Host – с ее помощью роботу сообщается, какое именно зеркало считается главным. В самом конце файла прописывается директива Sitemap – в ней задается адрес, по которому расположена карта сайта.
При указывании директив Disallow и Allow, используются спецсимволы * и $. В этом случае * является обозначением понятия «любой символ», а $ - обозначением «конец адреса».
Пример: Disallow: /admin/*.php обозначает, что запрещается индексация всех файлов, что расположены в директории admin и имеют расширение .php.
Для Disallow: /admin$ запрещается сам адрес /admin, но если есть /admin.php, то сам он непосредственно не запрещается.
Также есть директива Crawl-delay – ей рекомендуется пользоваться для того, чтобы задавать роботу временной интервал между загрузкой страниц. В случае со слабым сервером это позволяет существенно снизить на него нагрузку, но большинство современных хостингов обладают мощным оборудованием и лишены подобных проблем.

ВАЖНО: данная директива воспринимается только роботом Яндекс, для робота Google она непонятна.

Для того, чтобы проверить, правильно ли составлен файл robots.txt, воспользуйтесь Вебмастером Google – для этого следует перейти в категорию «Сканирование» - «Просмотреть как Googlebot», после чего кликнуть по «Получить и отобразить». Вы увидите на скриншотах результаты проверки сайта, причем сразу в обеих версиях: как сайт видят роботы и как его видят непосредственно пользователи. Под скриншотами будет располагаться перечень файлов, запрещенных к индексации – это значит, что запрет затрудняет поисковым роботам корректное считывание, поэтому их следует разрешить для индексации.
Файл robots.txt: что нужно прятать на своем сайте от него?

Как правило, такими файлами являются файлы javascript, изображения и файлы стилей CSS. После того, как администратор разрешит эти файлы к индексировнию, оба скриншота покажут одинаковый результат.
Есть и исключения – это файлы, что располагаются удаленно. К ним относятся кнопки соцсетей, скрипты Яндекс.Метрики и другие файлы, на индексацию которых нельзя никак повлиять.
Владельцам интернет-магазинов рекомендуется закрывать от индексации такие разделы, как «вспомнить пароль», корзину, перенос в «Избранное», страницу авторизации пользователя, поиск на страницах сайта, а также сравнение товаров. Системные и связанные с админпанелью папки, страницы с конфиденциальной информацией о пользователях и так далее – все это также рекомендуется закрывать (даже для обычных сайтов).
В принципе, практически все используемые CMS автоматически имеют стандартный robots.txt со всеми необходимыми директивами. Но, как правило, для более корректной работы сайта все равно потребуется внести в этот файл индивидуальные корректировки, а затем проверить, что получается через инструменты Google.Вебмастер.

Обязательные директивы для robots.txt


1. User-agent. Для Яндекса эта директива выглядит как User-agent:Yandex, для Google – как User-agent:Googlebot или User-agent:*. Первый вариант используется, если в Вебмастере Google имеются закрытые файла, второй – во всех остальных случаях.
2. В Яндексе для директивы User-agent обязательно указываем директиву Host с адресом главного зеркала
3. Для поисковых роботов указываем директиву Sitemap, указывающую адрес карты сайта sitemap.xml

Есть вопрос по продвижению? Задайте его нам!