Данный вопрос — приоритетный!

Здравствуйте! Помогите пожалуйста принять ответственное решение. Нужно избавиться от дублей на новостном сайте. Дубли составляют 40% от общего количества страниц сайта. Всего более 20 000 дублированных страниц. Вот типичные:

Дубли в выдаче примеры

Сайт старый 2001 года. Как лучше от них избавиться, чтобы не растерять позиции?

Варианты, которые рассматриваем:
1. rel=canonical
2. 301-редирект
3. просто снести с сайта и тогда дубли станут отдавать 404 и их можно будет принудительно удалить из выдачи через панели вебмастеров, но как-то страшно, что половина страниц вдруг отдаст поисковику 404 — не будет ли каких санкций?

Не очень нравится варианты 1 и 2 так как это все равно не сэкономит краулинговый бюджет. Поисковики будут все равно заходить на эти дубли, просто не будут добавлять их в индекс. А краулинговый бюджет для новостного портала — критичный момент.

Эти мусорные дубли сейчас радостно находятся в выдаче. CMS — 1С-Битрикс.

Дубли в выдаче примеры

Примеры URL-дублей:

/com/company/1319.htm
/com/company/1319.htm?type=news&com=114561
/com/company/1319.htm?type=competitives&com=114561
/com/company/1319.htm?type=exhib&com=114561
/com/company/1319.htm?type=video&com=114561
/com/company/1319.htm?type=mplace&com=114561
/com/company/1319.htm?type=prod&com=114561


Находим и удаляем дубли страниц из выдачи

Елизавета, на самом деле способов удалить URL из индекса значительно больше. В случае с Google — список представлен в удобной табличке внизу, которую можно сохранить себе как памятку. Давайте поймём, какой способ лучше всего подходит именно вам в описанной ситуации?

9 способов удалить URL из индекса

Проверяем и убираем дубли

Если считать, что все указанные вами типы URL действительно полные дубли, но их очень много в выдаче.

Дубли в выдаче примеры

Обратите внимание, что это не полные дубли и что функционал данных страниц, скажем «type=competitives» может быть полезен для посетителей сайта (по крайней мере, так предполагал разработчик). На URL с этим значением GET-параметра выводятся конкурсные закупки и контент отличается, пример: /com/company/486.htm и /com/company/486.htm?type=competitives&com=105648.

Если данные документы не нужны для пользователей, то самый верный и правильный способ будет настроить 301-редирект со всех подобных страниц на основные, а ссылки на них удалить из исходного кода.

Краулинговый бюджет

301-редирект экономит краулинговый бюджет! То есть, вероятность повторного посещения URL с кодом ответа 301 мала, а при отсутствии ссылок на эти документы — тем более. Можете не опасаться, таким способом бюджет будет высвобожден для индексации более важных страниц.

Вариант удаления через rel="canonical"

Для настройки атрибута rel="canonical" тега link. Потребуется:

  • На URL /com/company/486.htm настроить вывод с указанием rel="canonical" на саму себя. Укажите полный URL.

  • На URL /com/company/486.htm?type=competitives&com=105648 настроить rel="canonical" с указанием на /com/company/486.htm, тут так же — используйте полный вид URL.

Плюс этой реализации: поисковая система сможет решить, правда ли страницы являются дублями и, в ряде случаев, не исключать URL из индекса.

Огромный минус: не будет сэкономлен краулинговый бюджет, данные URL могут периодически посещаться роботом поисковой системы для проверки актуальности настроек rel="canonical".

Настройка 404-ошибки

Пожалуй, не самое оптимальное решение. Во-первых: да, таких ошибок будет слишком много, во-вторых: не будут консолидированы (накоплены и сохранены) нетекстовые факторы — возраст, ссылки, поведенческие.

Итого: 301-редирект и удаление ссылок на данные страницы — наше всё! Удачи в быстром устранении дублей из Яндекса и Google и повышении полноты индексации.


Работа в Пиксель Плюс
SEO-сервисы от Пиксель Плюс

Дата ответа:
Вопросы по теме
Дубли     Проблемы с индексацией    


Поделиться с друзьями
Последние вопросы из категории: Индексация
Маша Ласкина:
Как правильно настроить AMP для сайта? Настройка связки обычных страниц с АМР с учетом языковых версий сайта
Мария, спасибо за вопрос про AMP в Google, это действительно актуальная тема сейчас и важно разобраться в индексации таких страниц, чтобы не навредить сайту и его трафику... Читать ответ полностью »
Дата ответа:
Владислав Бирюков:
После изменения URL-адреса раздела и вложенных страниц Яндексу стали доступны обе версии, и он признал их дублями. Не смотря на то, что сейчас для страниц настроен 301 редирект, они не удаляются из выдачи. Сколько времени нужно, чтобы дубли были исключены из индекса? Есть ли способы ускорить этот процесс?
Спасибо за столь детальное описание совершенных действий и возникшей проблемы! Предлагаем разобраться, на каком этапе была совершена ошибка при смене URL, а также вместе проведем эксперимент и поймем, как быстро Яндекс обновит информацию о дублях в панели Вебмастер. Читать ответ полностью »
Дата ответа:
Роман Зарубин:
Нужно ли закрывать тегами <noindex> повторяющиеся блоки на страницах сайта, такие как: преимущества, услуги, гарантии, цены? Стоит ли использовать подзаголовки этих блоков при оптимизации страниц?
Спасибо за вопрос про дублирование целевых блоков в рамках страниц сайта и действительно, многие полностью закрывают их тегами <noindex>. Читать ответ полностью »
Дата ответа:
Данный вопрос — приоритетный!
Вячеслав:
У меня на проекте в цветочной тематике наблюдается плохая индексация региональных поддоменов в Google. Почему так? Как можно повысить полноту данных индексации поддоменов?
В целом ситуация интересная, да, хотя порой страниц в индексе на региональных поддоменах и больше 5-10. По аудиту, страниц в индексе Google без поддоменов — 239, а с учётом поддоменов — 44 600, на самих поддоменов... Читать ответ полностью »
Дата ответа:
Задать свой вопрос #
Ваше имя:
E-mail:
Ваш вопрос:
Получать информацию о новых вопросах:
Прикрепить файл:
Максимальное количество файлов 30,
не более 5 МБ каждый

Задать свой вопрос
Получать информацию о новых вопросах
Максимальное количество файлов 30 (не более 5 МБ каждый)

Принципиально новые условия сотрудничества в SEO — зарабатываем только вместе!

Уникальный тариф «Оборот», где доход агентства больше не зависит от визитов и позиций вашего сайта, а привязан исключительно к росту оборота вашей компании.

Тариф, который хотели сделать многие, но реализовали только мы.

К тарифу «Оборот»