Руководство: как закрыть сайт от индексации в поисковых системах? Работа с файлом robots.txt

 — по оценке 14 пользователей
11 июля, 16:31
Дмитрий Севальнев
Дмитрий Севальнев
11 июля, 16:31
465089
4
1
Содержание
Как закрыть от индексации отдельную папку? #
Как закрыть отдельный файл в Яндексе? #
Как проверить, в индексе документ или нет? #
Как скрыть от индексации картинки? #
Как закрыть поддомен? #
При использовании CDN-версии #
Как обращаться к другим поисковым роботам (список) #
Прочие директивы в robots.txt #
Закрыть страницу и сайт с помощью meta-тега name="robots" #

На стадии разработки и/или редизайна проекта бывают ситуации, когда лучше не допускать поисковых роботов на сайт или его копию. В этом случае рекомендуется закрыть сайт от индексации поисковых систем. Сделать это можно следующим образом:

Закрыть сайт от индексации очень просто, достаточно создать в корне сайта текстовый файл robots.txt и прописать в нём следующие строки:

User-agent: Yandex
Disallow: /

Такие строки закроют сайт от поискового робота Яндекса.


User-agent: *
Disallow: /

А таким образом можно закрыть сайт от всех поисковых систем (Яндекса, Google и других).


Как закрыть от индексации отдельную папку? #

Отдельную папку можно закрыть от поисковых систем в том же файле robots.txt с её явным указанием (будут скрыты все файлы внутри этой папки).

User-agent: *
Disallow: /folder/

Если какой-то отдельный файл в закрытой папке хочется отдельно разрешить к индексации, то используйте два правила Allow и Disallow совместно:

User-agent: *
Аllow: /folder/file.php
Disallow: /folder/


Как закрыть отдельный файл в Яндексе? #

Всё по аналогии.

User-agent: Yandex
Disallow: /folder/file.php


Как проверить, в индексе документ или нет? #

Проще всего осуществить проверку в рамках сервиса «Пиксель Тулс», бесплатный инструмент «Определение возраста документа в Яндексе» позволяет ввести URL списком. Если документ отсутствует в индексе, то в таблице будет выведено соответствующее значение.

Определение индекса и возраста
Анализ проведён с помощью инструментов в сервисе Пиксель Тулс.


Как скрыть от индексации картинки? #

Картинки форматов jpg, png и gif могут быть запрещены к индексации следующими строчками в robots.txt:

User-Agent: *
Disallow: *.jpg
Disallow: *.png
Disallow: *.gif


Как закрыть поддомен? #

У каждого поддомена на сайте, в общем случае, имеется свой файл robots.txt. Обычно он располагается в папке, которая является корневой для поддомена. Требуется скорректировать содержимое файла с указанием закрываемых разделов с использованием директории Disallow. Если файл отсутствует — его требуется создать.


При использовании CDN-версии #

Дубль на поддомене может стать проблемой для SEO при использовании CDN. В данном случае рекомендуется, либо предварительно настроить работу атрибута rel="canonical" тега <link> на основном домене, либо создать на поддомене с CDN (скажем, nnmmkk.r.cdn.skyparkcdn.ru) свой запрещающий файл robots.txt. Вариант с настройкой rel="canonical" — предпочтительный, так как позволит сохранить/склеить всю информацию о поведенческих факторах по обоим адресам.


Как обращаться к другим поисковым роботам (список) #

У каждой поисковой системы есть свой список поисковых роботов (их несколько), к которым можно обращаться по имени в файле robots.txt. Приведем список основных из них (полные списки ищите в помощи Вебмастерам):

  • Yandex — основной робот-индексатор Яндекса.
  • Googlebot — основной робот-индексатор от Google.
  • Slurp — поисковый робот от Yahoo!.
  • MSNBot — поисковый робот от MSN (поисковая система Bing от Майкрософт).
  • SputnikBot — имя робота российского поисковика Спутник от Ростелекома.

Прочие директивы в robots.txt #

Поисковая система Яндекс также поддерживает следующие дополнительные директивы в файле:

  • «Crawl-delay:» — задает минимальный период времени в секундах для последовательного скачивания двух файлов с сервера. Также поддерживается и большинством других поисковых систем. Пример записи: Crawl-delay: 0.5

  • «Clean-param:» — указывает GET-параметры, которые не влияют на отображение контента сайта (скажем UTM-метки или ref-ссылки). Пример записи: Clean-param: utm /catalog/books.php

  • «Sitemap:» — указывает путь к XML-карте сайта, при этом, карт может быть несколько. Также директива поддерживается большинством поисковых систем (в том числе Google). Пример записи: Sitemap: https://pixelplus.ru/sitemap.xml


Закрыть страницу и сайт с помощью meta-тега name="robots" #

Также, можно закрыть сайт или заданную страницу от индексации с помощь мета-тега robots. Данный способ является даже предпочтительным и с большим приоритетом выполняется пауками поисковых систем. Для скрытия от индексации внутри зоны <head> </head> документа устанавливается следующий код:

<meta name="robots" content="noindex, nofollow"/>
Или (полная альтернатива):
<meta name="robots" content="none"/>

С помощью meta-тега можно обращаться и к одному из роботов, используя вместо name="robots" имя робота, а именно:

Для паука Google:
<meta name="googlebot" content="noindex, nofollow"/>
Или для Яндекса:
<meta name="yandex" content="none"/>

Дмитрий Севальнев
Автор
Дмитрий Севальнев
Подписывайтесь
на рассылку
Я согласен на обработку
персональных данных

Подписаться


Понравилась статья?
(Оценок: 14)
Оставить комментарий

Введено символов: 0 / 1200

Комментариев пока что нет

Другие статьи автора
Вернуться в раздел
Другие статьи рубрики
Вернуться в раздел
  • Пошаговая инструкция по настройке Google Indexing API
  • Добавляем микроразметку через GTM
  • Скрытие ссылок с помощью AJAX
  • Как сделать 301-редирект?
  • SEO и разработка сайта
  • Типы апдейтов поисковых систем
Оставьте заявку

Нужна помощь с сайтом? Заполните форму, и наши менеджеры проконсультируют вас уже сегодня!

* — Поля, обязательные к заполнению.
Получайте полезные письма
Присылаем экспертные исследования и кейсы по SEO и интернет-маркетингу,
а также спецпредложения только для подписчиков!


Оставьте ваш e-mail:*
Я согласен на обработку
персональных данных

Принципиально новые условия сотрудничества в SEO — зарабатываем только вместе!

Уникальный тариф «Оборот», где доход агентства больше не зависит от визитов и позиций вашего сайта, а привязан исключительно к росту оборота вашей компании.

Тариф, который хотели сделать многие, но реализовали только мы.

К тарифу «Оборот»