Robots.txt для WordPress

Опубликовано: 06.12.2010Рубрика: SEO

Содержание

Назначение файла robots.txt
Как создать robots.txt
Директива User-agent
Пример файла robots.txt для WordPress
Вот какие роботы посещают мой блог
Дополнительная информация

Все поисковые роботы, прежде чем сканировать сайт, в первую очередь определяют наличие файла robots.txt.

Robots.txt как правило индивидуален как и все сайты в интернете. Поэтому, чтобы правильно составить robots.txt для WordPress, сначало надо четко представлять его назначение и вникнуть в правила написания инструкций. Простое копирование чужого файла может вообще не подойти для вашего сайта и даже препятствовать его индексации. Продвижение неизбежно только в случае вдумчивого подхода и правильном файле robots.txt.

Назначение файла robots.txt

Robots.txt — текстовый файл, который предназначен для роботов поисковых систем. Файл находится в корне сайта (путь относительно доменного имени /robots.txt) и содержит инструкции при помощи которых можно:

запретить индексацию некоторых разделов, отдельных файлов, страниц или сайта целиком
указать главное зеркало сайта (основной домен).

Инструкции могут быть как для всех роботов сразу, так и для каждой поисковой системы по отдельности.

Как создать robots.txt

Robots.txt можно создать в обычном Блокноте. Заполните его необходимыми инструкциями и загрузите в корневой каталог вашего сайта. Можете проверить правильность обработки инструкций файла robots.txt, с помощью анализатора файла robots.txt.

Директива User-agent

Робот Яндекса поддерживает стандарт описания www.robotstxt.org/wc/norobots.html с расширенными возможностями.

Перед закачкой определенного пула страниц, робот Яндекса закачивает robots.txt сайта. Если файл не обнаружен или на запрос робота возвращается HTTP-код отличный от 200, считается, что доступ роботу не ограничен.

В самом robots.txt проверяется наличие записей, начинающихся с User-agent:, в них ищутся подстроки Yandex, либо * (регистр значения не имеет), причем, если обнаружена строка User-agent: Yandex, директивы для User-agent: * не учитываются. Если записи User-agent: Yandex и User-agent: * отсутствуют, считается, что доступ роботу не ограничен.

Статья по теме: Индекс Google для мобильных устройств

Пример файла robots.txt для WordPress

User-agent: *
Allow: /wp-content/uploads
Disallow: /download
Disallow: /wp-admin
Disallow: /wp-content
Disallow: /wp-trackback
Disallow: /wp-feed
Disallow: /wp-comments
Disallow: /wp-includes
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /topic
Disallow: /tag
Disallow: /archive
Disallow: /page
Disallow: /attachment
Disallow: */comments
Disallow: /comments
Disallow: */trackback
Disallow: */feed
Disallow: /feed
Disallow: /?feed=
Disallow: /?s=
Disallow: /*utm_
Disallow: */comment-page-*
Disallow: *?replytocom
Clean-param: utm_source
Host: www.fortress-design.com
User-agent: MediaPartners-Google
Allow: /
Sitemap: //www.fortress-design.com/sitemap.xml

User-agent: – указание робота (бота), для которого предназначены нижеуказанные директивы

Disallow: – запрет доступа робота к некоторым частям сайта или сайту целиком

Sitemap: – указание пути к карте сайта sitemaps.xml

Host: – указывается адрес главного зеркала (директиву Host понимает только робот Яндекса)

В 30-й строке дается разрешение роботу Mediapartners-Google (AdSense) анализировать страницы, чтобы определить, какие объявления нужно показывать. Робот Mediapartners-Google имеет отдельный доступ к страницам, независимый от других агентов Google. Обратите внимание, что робот AdSense никак не связан с поисковым роботом Google и его работа не влияет на рейтинг вашего сайта в поиске Google.

Вот какие роботы посещают мой блог

Yandex bot

Googlebot

WordPress

Sogou Spider

Google AdSense

Unknown robot (identified by 'crawl')

Unknown robot (identified by 'bot*')

Feedburner

Yahoo Slurp

Feedfetcher-Google

DoCoMo

The World Wide Web Worm

Unknown robot (identified by empty user agent string)

Java (Often spam bot)

MagpieRSS

Unknown robot (identified by hit on 'robots.txt')

BlogPulse ISSpider intelliseek.com

NewsGator Online

The web archive (IA Archiver)

Nutch

MJ12bot

Alexa (IA Archiver)

Speedy Spider

Unknown robot (identified by '*bot')

Jakarta commons-httpclient

Mail.ru bot

BaiDuSpider

W3C Validator

MSNBot

NG 1.x (Exalead)

StackRambler

MSNBot-media

Voyager

GigaBot

Unknown robot (identified by 'robot')

Perl tool

Powermarks

FaceBook bot

SurveyBot

larbin

Netcraft

Aport

Дополнительная информация

Блокировка и удаление страниц с помощью файла robots.txt
Блокирование содержания вашего сайта от робота Googlebot
Какие правила robots.txt поддерживает Яндекс?
The Web Robots Pages — оригинальный сайт о robots.txt, автор Martijn Koster
Как работать с файлом robots.txt, частые ошибки и вопросы. Роботы Рунета — это переводы www.robotstxt.org

41 9 687

Комментарии: 41

uyra 16.07.2011 в 13:34
У меня проблема с индексацией блога Поможет если я изменю файл robots на Ваш
такой вот файл у меня
User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: /feed
Disallow: /comments
Disallow: /category/*/*
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /*?*
Disallow: /*?
Allow: /wp-content/uploads
# Google Image
User-agent: Googlebot-Image
Disallow:
Allow: /*
# Google AdSense
User-agent: Mediapartners-Google*
Disallow:
Allow: /*
# Internet Archiver Wayback Machine
User-agent: ia_archiver
Disallow: /
# digg mirror
User-agent: duggmirror
Disallow: /
Sitemap: http://.ru/sitemap.xml
User-agent: Yandex
Crawl-delay: 5
Disallow: /tag
Ответить
1. Илья 26.05.2013 в 18:36
  на форумах пишут, что из-за этой штуки Disallow: /category/*/* — робот не видит то, что идет после /category/…..
  Ответить
FORTRESS-DESIGN (автор) 18.07.2011 в 08:31
Какая проблема у вас возникла с индексацией?
Ответить
uyra 19.07.2011 в 09:10
Сайту около 3-х месяцев 2 сайта один, на поддомене
howww точка ru
s.howww точка ru
Сначала яндексом проиндексировались, а потом выпали из индексации. только первые две страницы в поиске уже такое больше месяца. Может домен, что то с доменом. Хотя с гуглом всё ок и PR3 незнаю в чем дело. Так же думаю поменять движок вместо вордпрес поставить DLE или полностью отказаться от домена забить другой не знаю, что лучше сделать.
Ответить
1. FORTRESS-DESIGN (автор) 19.07.2011 в 10:38
  Яндекс проиндексировал 3 страницы, Гугл — 1070. Яндекс.Вебмастер вообще показывает, что проиндексировано всего 2 страницы.
  Если в течение месяца ни одна страница не была проиндексирована Яндексом, значит сайт находится под фильтром.
  Я выборочно проверил одну страницу (howww.ru/video-video/kak-vybrat-xosting.html) на уникальность контента. Уникальность текста 76%. Адвего говорит, что уникальность текста низкая. Но директивой robots.txt индексация этой страницы разрешена.
  Я полагаю, что на всем сайте неуникальный контент. А как с остальными страницами обстоят дела?
  И еще, у вас в роботс, не указано основное зеркало.
  Навигация на блоге непонятная и неудобная.
  Вордпресс тут не причем.
  Ответить
2. Денис 12.09.2011 в 14:43
  У меня токаяже ерунда в гугле PR3 страниц тож по убавилось а в яндексе было 26 страниц и тиц был 20 а осталась одна страница и тиц меньше 10 ! че такое не понятно
  Документ запрещен в файле robots.txt 91
  Документ содержит мета-тег noindex 34
  Документ не является каноническим 24
  и еще одно не понятно robots его вообще веб мастер загрузить не может!
  ктонибуть что нибуть подсказать может!
  Ответить
  1. FORTRESS-DESIGN (автор) 12.09.2011 в 15:23
    Если в Яндексе осталась одна страница, значит сайт под фильтром АГС.
    Если robots.txt невозможно загрузить, значит он некорректный или отсутствует.
    Ответить
uyra 20.07.2011 в 18:49
Контент не уникальный.
Что то скопировано, переписано. Здесь конечно нечего сказать не могу. Однако сайт на DLE. с не уникальным контентом. Где страницы Добро пожаловать, Приобретение и оплата скрипта, Шаблоны для DataLife Engine специально мною удалены небыли. Страницы с полностью с не уникальным контентом. Были просканированны Яндексом и находятся в поиске. Страницы другого сайта на народе ру также, не содержащие Никого уникального контента находятся в поиске уже, не один год. Причём все до одной подчёркиваю с не уникальным контентом. Проблемы у меня только с вордпрес и юкоз. Хотя на юкоз я размещал именно уникальный контент. Хочу удалить сайт подождать месяц и разместить, на этом домене сайт на DLE. — Посмотрю, что получится домен просто жалко бросать. Хотя вот гугл проиндексировал и даже — PR3
Ответить
1. FORTRESS-DESIGN (автор) 21.07.2011 в 04:59
  Какой смысл тратить время и размещать неуникальный контент? Это вопрос времени. Рано или поздно Яндекс выбросит страницы с копипастом или даже весь сайт целиком из индекса, наложив на него фильтр АГС.
  Ответить
Mila 11.10.2011 в 08:40
Чем отличается 1) Disallow: */comments, от Disallow: /comments
2) Disallow: */feed от Disallow: /feed и от Disallow: /?feed=
Что такое:
Disallow: */trackback
Disallow: /?s=
Disallow: /*utm_
Disallow: */comment-page-*
Disallow: *?replytocom
Clean-param: utm_source
Непонятно ничего.
Ответить
1. FORTRESS-DESIGN (автор) 11.10.2011 в 08:48
  Спасибо за вопрос. Мне приходила мысль добавить комментарии. Так и сделаю. Но, я смогу это сделать когда немного освобожусь.
  Ответить
Чайник 04.11.2011 в 16:28
спасибо! буду разбираться, по скольким сайто лажу везде свои версии роботса и не совсем понятно зачем комментарии убирать от индексации ведь это тоже контент
Ответить
1. FORTRESS-DESIGN (автор) 04.11.2011 в 18:09
  Комментарии доступны для индексации по УРЛ осноной страницы. А каждый коммент создается с новым УРЛ. При этом дублируется весь предыдущий контент и создается новая страница, которая отличается несколькими строчками комента. И так всякий раз, после добавления нового коммента. В итоге: представляете как расплодится основной контент?
  Ответить
SEO Driver 24.11.2011 в 12:33
не знаю уже чему верить, где-то читал, что новые версии CMS WordPress уже не дублируют основной урл с ЧПУ и никаких манипуляций с robots.txt проводить не надо
Ответить
1. FORTRESS-DESIGN (автор) 24.11.2011 в 12:41
  Тогда следите за своим блогом — смотрите, что попадает в индекс поисковой системы.
  Ответить
dicky 25.11.2011 в 12:14
По Вордпрессу могу сказать, что все же лучше закрывать от индексации. У меня как раз плачевная ситуация с этим вышла, сайт попал под фильтр. Есть предположения, что именно из-за дублей. Недавно закрыл в роботсе тэги и категории… Посмотрим, что из этого получится.
Ответить
света 31.12.2011 в 07:10
подскажите как закрыть файлы .txt в директориии где лежат и файлы .html. Это коментарии в текстовых файлах которые подгружаются инклудом на страницу сайта. А то вроде получается дублирование.
Ответить
1. FORTRESS-DESIGN (автор) 31.12.2011 в 11:12
  Используйте следующую директиву:
  Disallow: /*.txt # запрещает индексирование всех текстовых файлов
  Здесь указан весь сайт. Если нужно запретить индексирование только в определенной папке, то укажите путь к ней.
  Ответить
света 31.12.2011 в 13:25
спасибо и с наступающим новым годом!!!!!!
Ответить
1. FORTRESS-DESIGN (автор) 31.12.2011 в 17:38
  Пожалуйста. И вас, с наступающим Новым годом!
  Ответить
mit 26.03.2012 в 20:32
правильная настройка робота для ворлдпресcа на примере моего http://hard4news.ru
——————————
User-agent: Yandex
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: */trackback
Disallow: */feed
Disallow: /*?*
Disallow: /*?
Host: hard4news.ru
User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: */trackback
Disallow: */feed
Disallow: /*?*
Disallow: /*?
Sitemap: http://hard4news.ru/sitemap.xml
User-agent: Mediapartners-Google
Ответить
1. FORTRESS-DESIGN (автор) 26.03.2012 в 20:33
  Какой смысл дублировать те же инструкции для Яндекса?
  Ответить
mit 27.03.2012 в 04:39
Вообще, то то, что указано в Гугле и на других блогах, — неверный вариант и есть ошибки. У меня в Гугле для вебмастера всегда ошибки выскакивали по поводу робота.
Ответить
1. FORTRESS-DESIGN (автор) 27.03.2012 в 09:17
  А что нам до того, что написано у кого-то в блоге? Главное, что у себя было правильно
  Файл robots.txt в предназначен для запрета индексирования ненужных страниц и указания основного зеркала. Каждое правило, которое прописано в файле robots.txt можно проверить с помощью инструментов Гугла и Яндекса. И никаких ошибок не должно быть. Если есть — надо исправлять.
  Ответить
Игорян 08.08.2012 в 06:49
Люди помогите для моего сайта который я заказал у одного знакомого своего он мне сделал вот такой robots.txt и поставил на индексацию его 25,08,2012 года и он до сих пор сегодня кстати 8 августа 2012 года и он еще не индексировается пример выкидываю вам на растерзание
User-agent: *
Disallow: /cgi-bin
Disallow: /wp-
Disallow: *?s=
Disallow: *?attachment_id=
Disallow: */feed
Disallow: /xmlrpc.php
Sitemap: http://bus-arenda.com.ua/sitemap.xml
Host: bus-arenda.com.ua
Не знаю что и делать напишите мне все на kharkov2012@list.ru или в контакте id99137670 c уважением ко всем жду ответа
Ответить
1. FORTRESS-DESIGN (автор) 08.08.2012 в 07:04
  Файл robots.txt в принципе разрешает индексирование контента сайта. Я проверил несколько страниц, к ним доступ поискового робота разрешен.
  Но, проблема в том, что тексты неуникальны. Например, страница Музей авиатехники имеет уникальность 38.89%. А должна быть не менее 95%.
  Решение — переписать все тексты.
  Ответить
Игорян 08.08.2012 в 08:30
Спасибо за отзыв а можно тогда вопрос как смотреть уникальный текст или не уникальный если не трудно отпишитесь кому не трудно kharkov2012@list.ru или в контакте id99137670 c уважением ко всем жду ответа
Ответить
1. FORTRESS-DESIGN (автор) 08.08.2012 в 08:39
  В моем блоге есть две статьи «Проверка текстов на уникальность» и «Как проверить уникальность текста». Можете прочесть их. Если что-то будет непонятно, на тех же страницах, пожалуйста, — пишите в комментариях.
  Ответить
irina edward 26.08.2012 в 18:08
Помогите пожалуйста разобраться.
Как я могу создать robot.txt? Где-то можно скачать стандартный текст, а потом его подготовить для собственного сайта?
Я совсем запуталась.
Ответить
1. FORTRESS-DESIGN (автор) 27.08.2012 в 08:29
  Robots.txt можно создать в обычном Блокноте. А что в него писать зависит от сайта и потребностей.
  Ответить
Виталий 06.10.2012 в 12:14
Доброго времени суток!
Подскажите пожалуйста
как провильно закрыть такие архивные страницы
/2012/01/08/ пример
т.е. начинается с года и там далее месяц число
я сделал так
Disallow: /2012/
Disallow: /2011/
Disallow: /2010/
Disallow: /2009/
Disallow: /2008/
Disallow: /2007/
Disallow: /2006/
закроют ли они от индексации
например такие страницы как
/2012/10/05/
и т.д.
Ответить
1. FORTRESS-DESIGN (автор) 06.10.2012 в 21:41
  Вместо перечисления всех годов, достаточно прописать:
  Disallow: /20*
  Эта директива будет блокировать доступ к страницам, начинающимся с '/20'
  То есть доступ к архиву '/2012/10/05/' робот иметь не будет.
  Ответить
  1. Виталий 06.10.2012 в 22:06
    Спасибо за быстрый ответ!
    я боюсь что в таком варианте может не войти в будущем в индексацию и я забуду
    а в таком варианте /2012/* закроет?
    Ответить
    1. FORTRESS-DESIGN (автор) 06.10.2012 в 22:47
      Директива Disallow: /2012/* закроет доступ ко всем страницам, начинающимся с /2012/.
      Ответить
      1. Виталий 06.10.2012 в 23:47
        спасибо большое за ответ
        Ответить
Ирина 13.02.2013 в 10:49
Добавляю к предыдущему: Гугл индексирует нормально.
Ирина.
Ответить
Валентина 11.03.2013 в 15:51
Добрый день!
Если можно, то я тоже хочу спросить ваш совет. Яндекс мне выдал при анализе сайта : Страницы запрещены к индексированию вебмастером или не существуют
HTTP-статус: Ресурс не найден (404) ? 38
Документ запрещен в файле robots.txt ? 364
Документ содержит мета-тег noindex ? 84
Документ является неканоническим ? 7
А вот и мой Robots.txt
User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
User-agent:-Yandex
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Host:uyutnidom.com
Sitemap: http://uyutnidom.com/sitemap.xml.gz
Sitemap: http://uyutnidom.com/sitemap.xml
Я что называется чайник в этом деле, поэтому и нуждаюсь в вашей помощи.
Ответить
артём 30.03.2013 в 15:58
хорошая статья)
Ответить
Алексей 10.04.2013 в 07:50
Здравствуйте.
Вчера закрыл в роботе от индексирования теги, вечером робот зашел но всеровно теги в поиске.
Что не так сделал?
Если можно посмотрите мой роботс.
Нужно ли закрывать архив?
Спасибо.
Ответить
МегаполисАП 01.06.2013 в 18:39
Как-то все сложно. Можно обойтись в сайтостроении без этих заморочек с Роботсом?
Ответить
1. FORTRESS-DESIGN (автор) 01.06.2013 в 22:02
  Если хотите достичь хороших результатов, то без грамотно составленного роботс далеко не уйти.
  Ответить

Добавить комментарий