Robots.txt для WordPress

robots.txt для WordPressВсе поисковые роботы, прежде чем сканировать сайт, в первую очередь определяют наличие файла robots.txt.

Robots.txt как правило индивидуален как и все сайты в интернете.  Поэтому, чтобы правильно составить robots.txt для WordPress, сначало надо четко представлять его назначение и вникнуть в правила написания инструкций. Простое копирование чужого файла может вообще не подойти для вашего сайта и даже препятствовать его индексации. Продвижение неизбежно только в случае вдумчивого подхода и правильном файле robots.txt.

Назначение файла robots.txt

Robots.txt — текстовый файл, который предназначен для роботов поисковых систем. Файл находится в корне сайта (путь относительно доменного имени /robots.txt) и содержит инструкции при помощи которых можно:

  • запретить индексацию некоторых разделов, отдельных файлов, страниц или сайта целиком
  • указать главное зеркало сайта (основной домен).

Инструкции могут быть как для всех роботов сразу, так и для каждой поисковой системы по отдельности.

Как создать robots.txt

Robots.txt можно создать в обычном Блокноте. Заполните его необходимыми инструкциями и загрузите в корневой каталог вашего сайта. Можете проверить правильность обработки инструкций файла robots.txt, с помощью анализатора файла robots.txt.

Директива User-agent

Робот Яндекса поддерживает стандарт описания www.robotstxt.org/wc/norobots.html с расширенными возможностями.

Перед закачкой определенного пула страниц, робот Яндекса закачивает robots.txt сайта. Если файл не обнаружен или на запрос робота возвращается HTTP-код отличный от 200, считается, что доступ роботу не ограничен.

В самом robots.txt проверяется наличие записей, начинающихся с User-agent:, в них ищутся подстроки Yandex, либо * (регистр значения не имеет), причем, если обнаружена строка User-agent: Yandex, директивы для User-agent: * не учитываются. Если записи User-agent: Yandex и User-agent: * отсутствуют, считается, что доступ роботу не ограничен.

Пример файла robots.txt для WordPress

User-agent: *
Allow: /wp-content/uploads
Disallow: /download
Disallow: /wp-admin
Disallow: /wp-content
Disallow: /wp-trackback
Disallow: /wp-feed
Disallow: /wp-comments
Disallow: /wp-includes
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /topic
Disallow: /tag
Disallow: /archive
Disallow: /page
Disallow: /attachment
Disallow: */comments
Disallow: /comments
Disallow: */trackback
Disallow: */feed
Disallow: /feed
Disallow: /?feed=
Disallow: /?s=
Disallow: /*utm_
Disallow: */comment-page-*
Disallow: *?replytocom
Clean-param: utm_source
Host: www.fortress-design.com
User-agent: MediaPartners-Google
Allow: /
Sitemap: http://www.fortress-design.com/sitemap.xml

User-agent: – указание робота (бота), для которого предназначены нижеуказанные директивы

Disallow: – запрет доступа робота к некоторым частям сайта или сайту целиком

Sitemap: – указание пути к карте сайта sitemaps.xml

Host: – указывается адрес главного зеркала (директиву Host понимает только робот Яндекса)

В 30-й строке дается разрешение роботу Mediapartners-Google (AdSense) анализировать страницы, чтобы определить, какие объявления нужно показывать. Робот Mediapartners-Google имеет отдельный доступ к страницам, независимый от других агентов Google. Обратите внимание, что робот AdSense никак не связан с поисковым роботом Google и его работа не влияет на рейтинг вашего сайта в поиске Google.

Вот какие роботы посещают мой блог

Yandex bot

Googlebot

WordPress

Sogou Spider

Google AdSense

Unknown robot (identified by 'crawl')

Unknown robot (identified by 'bot*')

Feedburner

Yahoo Slurp

Feedfetcher-Google

DoCoMo

The World Wide Web Worm

Unknown robot (identified by empty user agent string)

Java (Often spam bot)

MagpieRSS

Unknown robot (identified by hit on 'robots.txt')

BlogPulse ISSpider intelliseek.com

NewsGator Online

The web archive (IA Archiver)

Nutch

MJ12bot

Alexa (IA Archiver)

Speedy Spider

Unknown robot (identified by '*bot')

Jakarta commons-httpclient

Mail.ru bot

BaiDuSpider

W3C Validator

MSNBot

NG 1.x (Exalead)

StackRambler

MSNBot-media

Voyager

GigaBot

Unknown robot (identified by 'robot')

Perl tool

Powermarks

FaceBook bot

SurveyBot

larbin

Netcraft

Aport

Дополнительная информация

Больше на эту тему:

1 972 просмотров
Запись опубликована в рубрике WordPress, Поисковая оптимизация с метками robots.txt.

Если вам понравилась статья, можете порекомендовать ее друзьям, сделав ретвит, нажав на кнопку Google +1 или «Лайк» :).

23 комментария: Robots.txt для WordPress

  1. uyra говорит:

    У меня проблема с индексацией блога Поможет если я изменю файл robots на Ваш
    такой вот файл у меня
    User-agent: *
    Disallow: /cgi-bin
    Disallow: /wp-admin
    Disallow: /wp-includes
    Disallow: /wp-content/plugins
    Disallow: /wp-content/cache
    Disallow: /wp-content/themes
    Disallow: /trackback
    Disallow: /feed
    Disallow: /comments
    Disallow: /category/*/*
    Disallow: */trackback
    Disallow: */feed
    Disallow: */comments
    Disallow: /*?*
    Disallow: /*?
    Allow: /wp-content/uploads

    # Google Image
    User-agent: Googlebot-Image
    Disallow:
    Allow: /*

    # Google AdSense
    User-agent: Mediapartners-Google*
    Disallow:
    Allow: /*

    # Internet Archiver Wayback Machine
    User-agent: ia_archiver
    Disallow: /

    # digg mirror
    User-agent: duggmirror
    Disallow: /

    Sitemap: http://.ru/sitemap.xml

    User-agent: Yandex
    Crawl-delay: 5

    Disallow: /tag

  2. fortresseo говорит:

    Какая проблема у вас возникла с индексацией?

  3. uyra говорит:

    Сайту около 3-х месяцев 2 сайта один, на поддомене
    howww точка ru
    s.howww точка ru
    Сначала яндексом проиндексировались, а потом выпали из индексации. только первые две страницы в поиске уже такое больше месяца. Может домен, что то с доменом. Хотя с гуглом всё ок и PR3 незнаю в чем дело. Так же думаю поменять движок вместо вордпрес поставить DLE или полностью отказаться от домена забить другой не знаю, что лучше сделать.

    • fortresseo говорит:

      Яндекс проиндексировал 3 страницы, Гугл — 1070. Яндекс.Вебмастер вообще показывает, что проиндексировано всего 2 страницы.

      Если в течение месяца ни одна страница не была проиндексирована Яндексом, значит сайт находится под фильтром.

      Я выборочно проверил одну страницу (howww.ru/video-video/kak-vybrat-xosting.html) на уникальность контента. Уникальность текста 76%. Адвего говорит, что уникальность текста низкая. Но директивой robots.txt индексация этой страницы разрешена.

      Я полагаю, что на всем сайте неуникальный контент. А как с остальными страницами обстоят дела?

      И еще, у вас в роботс, не указано основное зеркало.

      Навигация на блоге непонятная и неудобная.

      Вордпресс тут не причем.

    • Денис говорит:

      У меня токаяже ерунда в гугле PR3 страниц тож по убавилось а в яндексе было 26 страниц и тиц был 20 а осталась одна страница и тиц меньше 10 ! че такое не понятно

      Документ запрещен в файле robots.txt 91
      Документ содержит мета-тег noindex 34
      Документ не является каноническим 24

      и еще одно не понятно robots его вообще веб мастер загрузить не может!

      ктонибуть что нибуть подсказать может!

      • fortresseo говорит:

        Если в Яндексе осталась одна страница, значит сайт под фильтром АГС.

        Если robots.txt невозможно загрузить, значит он некорректный или отсутствует.

  4. uyra говорит:

    Контент не уникальный.
    Что то скопировано, переписано. Здесь конечно нечего сказать не могу. Однако сайт на DLE. с не уникальным контентом. Где страницы Добро пожаловать, Приобретение и оплата скрипта, Шаблоны для DataLife Engine специально мною удалены небыли. Страницы с полностью с не уникальным контентом. Были просканированны Яндексом и находятся в поиске. Страницы другого сайта на народе ру также, не содержащие Никого уникального контента находятся в поиске уже, не один год. Причём все до одной подчёркиваю с не уникальным контентом. Проблемы у меня только с вордпрес и юкоз. Хотя на юкоз я размещал именно уникальный контент. Хочу удалить сайт подождать месяц и разместить, на этом домене сайт на DLE. — Посмотрю, что получится домен просто жалко бросать. Хотя вот гугл проиндексировал и даже — PR3

    • fortresseo говорит:

      Какой смысл тратить время и размещать неуникальный контент? Это вопрос времени. Рано или поздно Яндекс выбросит страницы с копипастом или даже весь сайт целиком из индекса, наложив на него фильтр АГС.

  5. Mila говорит:

    Чем отличается 1) Disallow: */comments, от Disallow: /comments
    2) Disallow: */feed от Disallow: /feed и от Disallow: /?feed=
    Что такое:
    Disallow: */trackback
    Disallow: /?s=
    Disallow: /*utm_
    Disallow: */comment-page-*
    Disallow: *?replytocom
    Clean-param: utm_source
    Непонятно ничего.

    • fortresseo говорит:

      Спасибо за вопрос. Мне приходила мысль добавить комментарии. Так и сделаю. Но, я смогу это сделать когда немного освобожусь.

  6. Чайник говорит:

    спасибо! буду разбираться, по скольким сайто лажу везде свои версии роботса и не совсем понятно зачем комментарии убирать от индексации ведь это тоже контент

    • fortresseo говорит:

      Комментарии доступны для индексации по УРЛ осноной страницы. А каждый коммент создается с новым УРЛ. При этом дублируется весь предыдущий контент и создается новая страница, которая отличается несколькими строчками комента. И так всякий раз, после добавления нового коммента. В итоге: представляете как расплодится основной контент?

  7. SEO Driver говорит:

    не знаю уже чему верить, где-то читал, что новые версии CMS WordPress уже не дублируют основной урл с ЧПУ и никаких манипуляций с robots.txt проводить не надо

  8. dicky говорит:

    По Вордпрессу могу сказать, что все же лучше закрывать от индексации. У меня как раз плачевная ситуация с этим вышла, сайт попал под фильтр. Есть предположения, что именно из-за дублей. Недавно закрыл в роботсе тэги и категории… Посмотрим, что из этого получится.

  9. света говорит:

    подскажите как закрыть файлы .txt в директориии где лежат и файлы .html. Это коментарии в текстовых файлах которые подгружаются инклудом на страницу сайта. А то вроде получается дублирование.

    • fortresseo говорит:

      Используйте следующую директиву:

      Disallow: /*.txt # запрещает индексирование всех текстовых файлов

      Здесь указан весь сайт. Если нужно запретить индексирование только в определенной папке, то укажите путь к ней.

  10. света говорит:

    спасибо и с наступающим новым годом!!!!!!

  11. mit говорит:

    правильная настройка робота для ворлдпресcа на примере моего http://hard4news.ru

    ——————————
    User-agent: Yandex
    Disallow: /cgi-bin
    Disallow: /wp-admin
    Disallow: /wp-includes
    Disallow: /wp-content/plugins
    Disallow: /wp-content/cache
    Disallow: /wp-content/themes
    Disallow: */trackback
    Disallow: */feed
    Disallow: /*?*
    Disallow: /*?
    Host: hard4news.ru

    User-agent: *
    Disallow: /cgi-bin
    Disallow: /wp-admin
    Disallow: /wp-includes
    Disallow: /wp-content/plugins
    Disallow: /wp-content/cache
    Disallow: /wp-content/themes
    Disallow: */trackback
    Disallow: */feed
    Disallow: /*?*
    Disallow: /*?
    Sitemap: http://hard4news.ru/sitemap.xml

    User-agent: Mediapartners-Google

  12. mit говорит:

    Вообще, то то, что указано в Гугле и на других блогах, — неверный вариант и есть ошибки. У меня в Гугле для вебмастера всегда ошибки выскакивали по поводу робота.

    • fortresseo говорит:

      А что нам до того, что написано у кого-то в блоге? Главное, что у себя было правильно :)

      Файл robots.txt в предназначен для запрета индексирования ненужных страниц и указания основного зеркала. Каждое правило, которое прописано в файле robots.txt можно проверить с помощью инструментов Гугла и Яндекса. И никаких ошибок не должно быть. Если есть — надо исправлять.

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

*

Можно использовать следующие HTML-теги и атрибуты: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>