Как настроить Robots.txt правильно (инструкция)

Как настроить Robots.txt правильно (инструкция)


У многих при настройке блога на движке WordPress (и других, конечно, тоже) возникает вопрос о правильном создании файла отвечающего за индексацию поисковыми роботами. И много различных вариантов можно найти в Internet. Много разных мнений на этот счёт существует. Мы ознакомились с ними и наиболее интересное описание нашли для Вас. Спасибо Смирнову Алексею Владимировичу за подготовленный материал.

Смотрите и пользуйтесь на здоровье =)

Правильный Robots.txt (Настройка робота)

… Перечитав эту кучу статей, я так и не понял, какой же действительно будет правильный robots.txt для WordPress, так как в разных статьях, всё по разному.

Даже вот не так давно читал статью с громким названием – “Правильный Robots.txt для WordPress”, НО имея небольшие знания в составлении файла Robots.txt я понял, что это уж точно не идеальный вариант.

Поэтому я хочу разобраться, что и как. Переписывать о том для чего он нужен, какие там существуют директивы я не буду, это можно всё прочесть тут:

  1. Использование robots.txt, от Яндекса
  2. Используйте файл robots.txt, от Google
  3. http://www.oqbo.ru/read.php?block=3 на этом сайте можно прочесть про частые ошибки
  4. Несколько примеров robots.txt для WordPress, и тут robots.txt на codex.wordpress.org

Но всё равно хочется подвести итог.

Итак, что я вычитал:

  • Директива “User-agent” указывает робота, которому приведён ниже блок инструкций. Нам нужны будут роботы “Yandex” и все остальные “*”.
  • Перед каждой директивой “User-agent” рекомендуется вставлять пустой перевод строки, но в то же время недопустимо делать переводы строк между другими директивами, кроме “Sitemap”.
  • Директива “Sitemap” пишется в конце файла, для всех роботов. Перед ней может быть перевод строки.
  • Директива “Disallow” запрещает индексировать, а “Allow” делает исключение в подмножестве запретов “Disallow”. Но для правильной работы, нужно что бы сначала стоял “Allow”, а потом “Disallow”. И ещё самое главное, файл robots.txt ничего не разрешает, только запрещает!
  • Символ “#” предназначен для описания комментариев, но желательно его не писать.
  • Директиву “Host” нужно писать для робота “Yandex”, собственно, в большинстве случаев из-за этого и делается разделение правил для роботов. Так же директива “Host” должна быть в конце блока, после “Disallow”.
  • В файле robots.txt не нужно указывать пути, о которых лучше никому не знать. Существуют другие способы скрыть информацию.
  • Меня пугало, нужно ли ставить у “Disallow” на конце директории “/” или нет. Если поставим, то это будет считаться именно для директории запрет, а если нет, то на всё, что будет набрано с этим именем.
  • Имя файла robots.txt должно быть в нижнем регистре.
  • Чем больше правил, тем роботу будет сложнее индексировать.
  • Файл нужно сохранять в UTF-8 кодировки.

Ну, вроде разобрались, я выписал то что меня смущало.

Пишем robots.txt

Если не хочется химичить с этим файлом, то можно написать просто, тогда будет индексироваться всё

User-agent: *
Disallow:

User-agent: Yandex
Disallow:
Host: www.ВашДомен.ru

Sitemap: http://www.ВашДомен.ru/sitemap.xml

Теперь я сделаю каркас, то что бывает у всех и что вопросов не должно вызвать

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/cache/
Disallow: /wp-content/themes/
Disallow: /wp-register.php
Disallow: /wp-login.php
Disallow: /xmlrpc.php

Думаю, будет полезно закрыть от индексации скрипты, и страницы с GET параметрами(?t=1), конечно для этого нужно, что бы у вас был настроен ЧПУ и таких страниц не было.

Disallow: /*.php$
Disallow: /*.js$
Disallow: /*.inc$
Disallow: /*.css$
Disallow: /*?

Советуют закрыть вот эти директории. В панели Яндекс.ВебМастер они обычно помещены в ошибки.

Disallow: /trackback
Disallow: */trackback
Disallow: /feed
Disallow: */feed

С остальными ссылками, дела обстоят так: или количество страниц или дубликат материала для ПС (а они этого не любят). Конечно там не всегда засчитывается за дубликат, но всё же.

Disallow: /comments
Disallow: */comments
Disallow: /search/
Disallow: /author/
Disallow: /category/
Disallow: /tag/

Некоторые параметры

  • “Disallow: /wp-content/” – ну в принципе можно. Но тогда вы запретите к индексации те картинки, которые будут на странице, ведь обычно они загружаются в папку /wp-content/uploads/дата/. Можно, конечно это запретить, а правилом Allow открыть папку uploads, но я не стал заостряться.
  • “Disallow: /*. jpg$” – и другие файлы картинок, тогда это приведёт тоже к запрету их индексирования.
  • “Disallow: /xmlrpc.php” – я так и не понял что это за зверь, но все советуют закрыть от индексирования. Да и в панели Яндекс.ВебМастер ссылается на него с ошибкой.
  • “Disallow: /*?” – да вроде же это делает то же самое, что и “Disallow: /*?*” но встречал их вместе, пошёл проверять в “Анализ robots.txt“, а он мне на правило “Disallow: /*?” Пишет “запрещен правилом /*?*“. Так что и не знаю, оставил первый вариант.

Лишние правила

После того, как соединил всё, что написал, возникло несколько правил, которые повторяются. Ну например мы закрыли файлы wp-register.php, wp-login.php и в то же время, мы запретитли индексировать все php файлы. И получается несколько правил на одно и то же.

Лучше почистить, так как чем больше файл, тем труднее будет поисковому роботу индексировать сайт.

Странно, у блогеров не заполнен robots.txt. Я был в шоке! У большинства было написано:

User-agent: *
Disallow:

Ну или одно-два условия, видать чисто для виду. Что это? Лень, заговор, или что? Почему у меня(:) а кто я такой?), получилось 50 строк, а у известных блогеров 1-2?
Возможно, поисковым системам не важны дублированные страницы, то тогда конечно. Хотя не понятно, почему не закрывают авторизационные страницы, хотя что с них взять то?

Вывод

Пока идеальный вариант для меня получился такой (возможно буду изменять):

User-agent: *
Disallow: /out/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Disallow: /*?
Disallow: /*.php$
Disallow: /*.js$
Disallow: /*.inc$
Disallow: /*.css$
Disallow: */trackback
Disallow: */feed
Disallow: */comments

User-agent: Yandex
Disallow: /out/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Disallow: /*?
Disallow: /*.php$
Disallow: /*.js$
Disallow: /*.inc$
Disallow: /*.css$
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Host: www.ВашДомен.ru

Sitemap: http://www.ВашДомен.ru/sitemap.xml

Проверка robots.txt

После того, как составили и загрузили файл, нужно проверить, а вдруг мы допустили какуюнить глупую ошибку и он не читается. Для этого нужно проверить в панели Яндекс.Вебмастер Анализ robots.txt и в инструментах у Google.Вебмастер. Там нужно будет указать несколько страниц сайта, что бы посмотреть будет он их индексировать и не выскочит ли других ошибок.

Источник

перечитав эту кучу статей, я так и не понял, какой же действительно будет правильный robots.txt для WordPress, так как в разных статьях, всё по разному.Даже вот не так давно читал статью с громким названием – “Правильный Robots.txt для WordPress”, НО имея небольшие знания в составлении файла Robots.txt я понял, что это уж точно не идеальный вариант.

  1. google.com Om Hotey:

    Для изменения кодировки файлов используйте качественные редакторы. Например Dreamweaver или Notepad ++
    Стандартный блокнот Windows – Вам не поможет…

Оставить комментарий

Вы можете авторизироваться на сайте используя: