Дублированный контент в Вордпресс. Блокирование страниц с параметром ?replytocom

Дублированный контент. Стоит ли беспокоиться?

Дублированный контент. Хорошо это или плохо? Может это вообще не важно? В нете можно найти много разных мнений по этому поводу. Я считаю, что дублированный контент — это большая опасность для блога.

В чем состоит опасность повторяющегося контента?

  1. Плохой (медленной) индексации. Может новые посты еще более-менее быстро индексируются, то старые, после обновления контента, будут долго ждать своей очереди.
  2. Выпадения страниц из индекса поисковой системы.

Если робот Googlebot обнаружил чрезвычайно большое количество ссылок на вашем сайте. Это может свидетельствовать о проблеме, связанной со структурой URL-адресов сайта. Возможно, робот Googlebot без необходимости сканирует большое количество различных URL, указывающих на идентичное или похожее содержание, либо сканирует разделы сайта, не требующие сканирования. В результате робот Googlebot может потреблять гораздо больше ресурсов канала передачи данных, чем необходимо. Кроме того, есть вероятность, что он не сможет полностью просканировать все содержание сайта.

Сегодня обнаружил резкий взрыв «новых» страниц, проиндексированных Яндексом.

G-idx: 494
Y-idx: 1 030

О, это плохо. Такой перепад сигнализирует о дисбалансе индексации. По сравнению с Гуглом, в Яндексе страниц больше, чем в два раза! Пройдя по ссылке, я отсортировал результаты поиска Яндекса по дате. И обнаружил 4 ссылки на одну и ту же страницу, на которой было добавлено 4 комментария.

Страницы с параметром replytocom в поисковой выдаче

Параметр ?replytocom

Параметр ?replytocom используется в блогах, которые позволяют отвечать на комментарии, в данном случае Вордпресс. Когда бы вы кликните на ответ в комментарии, вы увидите ссылку, которая будет иметь такой вид:

http://www.fortress-design.com/about/?replytocom=11568

Очевидно, что эта ссылка не должна находиться в поисковом индексе. Это та же страница как

http://www.fortress-design.com/about/

только содержит комментарий и параметр ?replytocom с числовым идентификатором.

То есть при появлении каждого комментария на моем блоге, появлялась новая страница отличающаяся от другой только наличием этого отзыва. Подумать только что будет с блогом, если во время не принять меры! Количество страниц возрастет ровно на столько, сколько комментариев будет к каждому посту! И это в то время, когда работают фильтры Яндекса АГС и когда объявлена война сайтам, которые засоряют индекс поисковых систем.

Не откладывая проблему в долгий ящик, я принялся исследовать этот вопрос, чтобы выяснить синтаксис для формирования правила в robots.txt.

Решение проблемы дублирования контента для Вордпресс

Файл robots.txt

Как избавиться от страниц, дублирующих контент основных страниц? Конечно же, с помощью файла robots.txt. Я раньше писал каким должен быть файл robots.txt для WordPress. Но тогда учел не все нюансы.

Редактируем файл robots.txt, добавляя правило для запрета индексирования страниц, URL которых содержит параметр ?replytocom.

Disallow: *?replytocom

Обновив файл, рекомендую сразу же проверить его с помощью
анализа robots.txt (http://webmaster.yandex.ua/robots.xml).

Анализ robots.txt

И тут же получить результаты проверки:

параметром ?replytocom

Некоторые, чтобы ускорить процесс удаления страниц с дублированным контентом, используют специальную форму удаления URL (http://webmaster.yandex.ua/delurl.xml). Для удаления необходимо, чтобы индексирование страницы было запрещено в файле robots.txt.

Я руками удалил только 4 страницы.

Плагин для WordPress

Для тех, кто не хочет возиться с редактирования файла robots.txt (или не знает как), есть еще один вариант. Можно просто установить плагин, который я обнаружил, для  перенаправления ботов на правильный URL. Он называется Replytcom Redirector.

Просто скачиваете, устанавливаете и активируете в меню плагинов WordPress. Ничего настраивать не нужно.

Гугл-инструменты для веб-мастеров

Если на вашем сайте используются параметры URL, которые не нужны для навигации, укажите в панели управления Инструментов для веб-мастеров, что эти параметры следует игнорировать, так как это позволит сократить количество повторяющегося содержания в индексе Google и упростит сканирование сайта.

Кстати, этот параметр replytocom, Гугл добавил сам. Респект ему!

Параметр replytocom следует игнорировать

В заключение

Я еще раз убедился в том, что за блогом надо следить и периодически (один или два раза в месяц) проводить SEO-аудит. Таким образом, вы можете своевременно выявить небольшие проблемы, которые могут обернуться серьезной проблемой в будущем.

Страницы, проиндексированные Яндексом с с параметром ?replytocomP.S. Пока я писал этот пост, Яндекс уже принял к сведению мои указания. В индексе стало на 4 страницы меньше, как раз на столько, сколько я удалил собственноручно. Остальное оставил роботу :)

P.P.S. 4 мая индексация Яндексом была близка к истинному значению. Но положительный результат от правильного файла robots.txt очевиден: из поисковой базы Яндекса удалено 1026-478 = 548 дублей. Но Гугл где-то нашел 154 страницы. С этим надо разбираться.

В действительности, карта сайта насчитывает 400 страниц вместе с главной. Она у меня создается автоматически специальным плагином для Вордпресса.

Продвижение неизбежно требует постоянного внимания и контроля ситуации.

Больше на эту тему:

Если вам понравилась статья, можете порекомендовать ее друзьям, сделав ретвит, нажав на кнопку Google +1 или «Лайк» :).

1 472 просмотров
Запись опубликована в рубрике Поисковая оптимизация.

25 комментариев: Дублированный контент в Вордпресс. Блокирование страниц с параметром ?replytocom

  1. Kraser говорит:

    Спасибо! По делу, а я искал в чем причина.

    • fortresseo говорит:

      Ой-ой! Я кликнул по вашему нику и перешел на сайт. Блог явно находится под фильтром Яндекса — в индексе только одна страница. В то время как Гугл проиндексировал 585 страниц. Срочно надо спасать блог!

  2. Светлана говорит:

    Здравствуйте! Мой сайт был прекрасно проиндексирован, но потом Яндекс резко выбросил его из поиска. Добавила в роботс.тхт строчку, посмотрим на результат. Хотя на мой взгляд, видимых причин для таких строгих санкций нет. А что значит эта строчка: clean-param:utm_source? Обязательна ли она? Спасибо.

  3. fortresseo говорит:

    Добрый день.

    Да, ваш сайт под фильтром. В индексе одна страница. Контент уникальный?

    utm_source — с таким параметром добавляются в УРЛ ссылки из Твиттера на запись в блоге.

  4. Светлана говорит:

    Я использую видео с Ютуба, а текст к нему, конечно, уникальный, мой. Дело в том, что под таким фильтром оказались 4 моих блога, и я не могу понять причины. Если бы знала, что нужно исправить, то исправила бы. Но Платон Щукин присылает отписки, типа: работайте и будет вам «щасье». На данном блоге я кроме того, что отредактировала роботс, еще закрыла партнерские ссылки в сайдбаре. Вот еще счетчики бы закрыть, но на их сайтах пишут, что нельзя ничего менять в коде счетчика, так что не решаюсь. Что еще можно сделать, ума не приложу. Если что подскажете, буду очень благодарна. Спасибо.

    • fortresseo говорит:

      Счетчики конечно не могли стать причиной санкций. А закрыть их от индексации, не меняя кода, очень просто — нужно заключить в тег noindex. Проверте текст на уникальность.

      И еще может причиной было изобилие рекламы? Сейчас реально, на вашем сайте рекламы больше чем контента.

  5. Светлана говорит:

    Спасибо. Попробую поработать с рекламой. И текст проверю – может скопипастили? Хотя, я ведь здесь пишу совсем немного, только о своих чувствах и ощущениях от песен, которые выкладываю.

    • fortresseo говорит:

      Я проверил одну страницу Адвегой — уникальность была 100%. У меня в блоге перечислены сервисы для проверки уникальности, попробуйте Миратулз и Текст.ру.

  6. Светлана говорит:

    Спасибо, на Миратулз проверила – тоже 100%, так что дело не в этом. Будем искать. Еще раз спасибо.

    • fortresseo говорит:

      Да, значит не за контент. Попробуйте сократить количество рекламы и спросить у Платона в чем проблема?

  7. Светлана говорит:

    В том-то и дело, что Платон Щукин все время отвечает одно и тоже. Такое впечатление, что последнее время там автоответчик. Что бы ни спросил – один стандартный ответ: почитайте правила или что-то в этом роде.

    • fortresseo говорит:

      Все рекомендуют методично с определенной периодичностью ему писать. Должны ответить. Ну и правила тоже надо прочестсь. Может что-то всплывет.

  8. Orcinus Orca говорит:

    кстати, я одно время напарывался на подобные финты. Бывает, что для обмана кэша браузера добавляется параметр в ссылку со случайным числом. Вот так вот и начинаются проблемы у поисковой системы, которые выливаются в проблемы у сайтовладельцев.

    • fortresseo говорит:

      Параметр добавляется чтобы было больше УРЛ с ответом сервера 200? Для искусственного наращивания страниц?

  9. Тимур говорит:

    Спасибо. Вроде все прописано в файле robots.txt, а с индексацией яндекса проблемы. Блогу полгода, а в поиске всего 3 страницы, хотя загружено 190 с лишним. Попробую запретить ?replytocom.
    Гугл индексирует отлично.

  10. Сергей говорит:

    Здравствуйте!
    Та же проблема – Яндекс видел в 2 раза больше Гугла, потом сбросил до 4 страниц, потом до нуля.
    Долгая переписка, сайт почистил (убрал всю рекламу, убрал несколько платных статей с главной, убрал все виджеты – с повтором статей), почистил код (убрал пробелы), убавил количество меток. Контент весь уникальный (было несколько небольших цитат – убрал)
    Недавно ответил от Яндекса «не робот» – страницы появились (пока 2), прошло недели две после моей чистки – может быть еще рано видеть результат..?
    Не пойдет дело – хочу заменить шаблон.
    Как Вы считаете – поставить плагин Replytcom Redirector сейчас – есть смысл?

    • fortresseo говорит:

      Да, печально, всё это. Сайт зафильтрован. Если причиной санкций стал дублированный контент, то достаточно в robots.txt, прописать строку

      Disallow: *?replytocom

      и дождаться переиндексации. Зачем вам ставить плагин?

      Вместе с тем не переставать публиковать новые материалы и если есть бюджет, то закупать ссылки на них.

      • Сергей говорит:

        Спасибо! Попробую.
        Скажите а прописывать в роботе нужно два раза? – не освоил я еще его до конца…
        здесь – User-agent: *
        и здесь – User-agent: Yandex

        • fortresseo говорит:

          Звёздочка означает для всех поисковиков, а Yandex — только для Яндекса.

          То есть одну и ту же инструкцию дублировать не стоит.

          Обозначать определённый поисковик целесообразно использовать, если нужна какая-то отдельная конструкция именно для него.

  11. Дмитрий говорит:

    Если запрещать роботам просматривать теги, категории, архивы… При этом ссылки на них везде по сайту, в том числе и на не запрещённых страницах. Не будит ли PR с основных страниц уходить в некуда?
    Считайте ссылка есть, а просматривать её роботу нельзя.

    • fortresseo говорит:

      Не уверен на 100%. Но ссылка в ноуфоллоу вес не передаёт, кроме ссылок из Твиттера.

      А что есть альтернатива?

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

*

Можно использовать следующие HTML-теги и атрибуты: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>