Robots.txt: как запретить индексирование страниц

Думаю не стоит особо вдаваться в подробности и писать о том, для чего нужно запрещать поисковым системам индексирование страниц, формируемых модулем постраничной навигации. Скажу лишь кратко: это нужно для того, чтобы не создавать дублирование контента, который образуется во многих CMS при группировке записей по страницам.

Но на самом деле это очень важный момент в продвижении сайта. Рассмотрим на примере.

Итак, вопрос, как правильно записать инструкцию

<code>Disallow: /?page=</code>
<code>Disallow: *?page=*</code>

если у нас есть три последовательности страниц, где в УРЛ присутствует параметр «?page«.

В блоге: //www.site.ru/blog/?page=2
В блогах клуба: //www.site.ru/club/blog/?page=2
В отзывах о продукции: //www.site.ru/club/review/?page=2

Запрет на индексирование страниц — Cronislaw / Shutterstock.com

Первую и вторую последовательности надо закрыть от поисковиков, а третью нельзя — она содержит оригинальный текст.

Если мы напишем Disallow: /*?page, то не будут индексироваться все три последовательности. Поэтому, добавив в директиву слово
/blog, правило не будет распространяться на третью цепочку.

Disallow: /*blog/?page

Но мы не можем написать одно универсальное правило для всех случаев.

Нам нужно закрыть роботу доступ к страницам блога, которые дублируют основной контент.

Disallow: */blog/?page

Эти и другие вопросы возникают после технического аудита сайта клиента. В принципе, ответы на некоторые из них обсуждаются на сео форуме. Но всё же могут встретиться нестандартные ситуации. Вот поэтому, я решил поделиться своими наработками в этом направлении.