Robots.txt: как запретить индексирование страниц

Запрет на индексирование страниц

Думаю не стоит особо вдаваться в подробности и писать о том, для чего нужно запрещать поисковым системам индексирование страниц, формируемых модулем постраничной навигации. Скажу лишь кратко: это нужно для того, чтобы не создавать  дублирование контента, который образуется во многих CMS при группировке записей по страницам.

Но на самом деле это очень важный момент в продвижении сайта. Рассмотрим на примере.

Итак, вопрос, как правильно записать инструкцию

<code>Disallow: /?page=</code>
<code>Disallow: *?page=*</code>

если у нас есть три последовательности страниц, где в УРЛ присутствует параметр «?page«.

  1. В блоге: //www.site.ru/blog/?page=2
  2. В блогах клуба: //www.site.ru/club/blog/?page=2
  3. В отзывах о продукции: //www.site.ru/club/review/?page=2
Запрет на индексирование страниц
Cronislaw / Shutterstock.com

Первую и вторую последовательности надо закрыть от поисковиков, а третью нельзя — она содержит оригинальный текст.

Если мы напишем Disallow: /*?page, то не будут индексироваться все три последовательности. Поэтому, добавив в директиву слово
/blog, правило не будет распространяться на третью цепочку.

Disallow: /*blog/?page

Но мы не можем написать одно универсальное правило для всех случаев.

Нам нужно закрыть роботу доступ к страницам блога, которые дублируют основной контент.

Disallow: */blog/?page

Эти и другие вопросы возникают после технического аудита сайта клиента. В принципе, ответы на некоторые из них обсуждаются на сео форуме. Но всё же могут встретиться нестандартные ситуации. Вот поэтому, я решил поделиться своими наработками в этом направлении.


Понравилась статья? Поделиться с друзьями:
Добавить комментарий

;-) :| :x :twisted: :smile: :shock: :sad: :roll: :razz: :oops: :o :mrgreen: :lol: :idea: :grin: :evil: :cry: :cool: :arrow: :???: :?: :!: