У многих при настройке блога на движке WordPress (и других, конечно, тоже) возникает вопрос о правильном создании файла отвечающего за индексацию поисковыми роботами. И много различных вариантов можно найти в Internet. Много разных мнений на этот счёт существует. Мы ознакомились с ними и наиболее интересное описание нашли для Вас. Спасибо Смирнову Алексею Владимировичу за подготовленный материал.
Смотрите и пользуйтесь на здоровье =)
Правильный Robots.txt (Настройка робота)
… Перечитав эту кучу статей, я так и не понял, какой же действительно будет правильный robots.txt для WordPress, так как в разных статьях, всё по разному.
Даже вот не так давно читал статью с громким названием – “Правильный Robots.txt для WordPress”, НО имея небольшие знания в составлении файла Robots.txt я понял, что это уж точно не идеальный вариант.
Поэтому я хочу разобраться, что и как. Переписывать о том для чего он нужен, какие там существуют директивы я не буду, это можно всё прочесть тут:
- Использование robots.txt, от Яндекса
- Используйте файл robots.txt, от Google
- http://www.oqbo.ru/read.php?block=3 на этом сайте можно прочесть про частые ошибки
- Несколько примеров robots.txt для WordPress, и тут robots.txt на codex.wordpress.org
Но всё равно хочется подвести итог.
Итак, что я вычитал:
- Директива “User-agent” указывает робота, которому приведён ниже блок инструкций. Нам нужны будут роботы “Yandex” и все остальные “*”.
- Перед каждой директивой “User-agent” рекомендуется вставлять пустой перевод строки, но в то же время недопустимо делать переводы строк между другими директивами, кроме “Sitemap”.
- Директива “Sitemap” пишется в конце файла, для всех роботов. Перед ней может быть перевод строки.
- Директива “Disallow” запрещает индексировать, а “Allow” делает исключение в подмножестве запретов “Disallow”. Но для правильной работы, нужно что бы сначала стоял “Allow”, а потом “Disallow”. И ещё самое главное, файл robots.txt ничего не разрешает, только запрещает!
- Символ “#” предназначен для описания комментариев, но желательно его не писать.
- Директиву “Host” нужно писать для робота “Yandex”, собственно, в большинстве случаев из-за этого и делается разделение правил для роботов. Так же директива “Host” должна быть в конце блока, после “Disallow”.
- В файле robots.txt не нужно указывать пути, о которых лучше никому не знать. Существуют другие способы скрыть информацию.
- Меня пугало, нужно ли ставить у “Disallow” на конце директории “/” или нет. Если поставим, то это будет считаться именно для директории запрет, а если нет, то на всё, что будет набрано с этим именем.
- Имя файла robots.txt должно быть в нижнем регистре.
- Чем больше правил, тем роботу будет сложнее индексировать.
- Файл нужно сохранять в UTF-8 кодировки.
Ну, вроде разобрались, я выписал то что меня смущало.
Пишем robots.txt
Если не хочется химичить с этим файлом, то можно написать просто, тогда будет индексироваться всё
User-agent: * Disallow: User-agent: Yandex Disallow: Host: www.ВашДомен.ru Sitemap: http://www.ВашДомен.ru/sitemap.xml
Теперь я сделаю каркас, то что бывает у всех и что вопросов не должно вызвать
User-agent: * Disallow: /wp-admin/ Disallow: /wp-includes/ Disallow: /wp-content/plugins/ Disallow: /wp-content/cache/ Disallow: /wp-content/themes/ Disallow: /wp-register.php Disallow: /wp-login.php Disallow: /xmlrpc.php
Думаю, будет полезно закрыть от индексации скрипты, и страницы с GET параметрами(?t=1), конечно для этого нужно, что бы у вас был настроен ЧПУ и таких страниц не было.
Disallow: /*.php$ Disallow: /*.js$ Disallow: /*.inc$ Disallow: /*.css$ Disallow: /*?
Советуют закрыть вот эти директории. В панели Яндекс.ВебМастер они обычно помещены в ошибки.
Disallow: /trackback Disallow: */trackback Disallow: /feed Disallow: */feed
С остальными ссылками, дела обстоят так: или количество страниц или дубликат материала для ПС (а они этого не любят). Конечно там не всегда засчитывается за дубликат, но всё же.
Disallow: /comments Disallow: */comments Disallow: /search/ Disallow: /author/ Disallow: /category/ Disallow: /tag/
Некоторые параметры
- “Disallow: /wp-content/” – ну в принципе можно. Но тогда вы запретите к индексации те картинки, которые будут на странице, ведь обычно они загружаются в папку /wp-content/uploads/дата/. Можно, конечно это запретить, а правилом Allow открыть папку uploads, но я не стал заостряться.
- “Disallow: /*. jpg$” – и другие файлы картинок, тогда это приведёт тоже к запрету их индексирования.
- “Disallow: /xmlrpc.php” – я так и не понял что это за зверь, но все советуют закрыть от индексирования. Да и в панели Яндекс.ВебМастер ссылается на него с ошибкой.
- “Disallow: /*?” – да вроде же это делает то же самое, что и “Disallow: /*?*” но встречал их вместе, пошёл проверять в “Анализ robots.txt“, а он мне на правило “Disallow: /*?” Пишет “запрещен правилом /*?*“. Так что и не знаю, оставил первый вариант.
Лишние правила
После того, как соединил всё, что написал, возникло несколько правил, которые повторяются. Ну например мы закрыли файлы wp-register.php, wp-login.php и в то же время, мы запретитли индексировать все php файлы. И получается несколько правил на одно и то же.
Лучше почистить, так как чем больше файл, тем труднее будет поисковому роботу индексировать сайт.
Странно, у блогеров не заполнен robots.txt. Я был в шоке! У большинства было написано:
User-agent: * Disallow:
Ну или одно-два условия, видать чисто для виду. Что это? Лень, заговор, или что? Почему у меня(:) а кто я такой?), получилось 50 строк, а у известных блогеров 1-2?
Возможно, поисковым системам не важны дублированные страницы, то тогда конечно. Хотя не понятно, почему не закрывают авторизационные страницы, хотя что с них взять то?
Вывод
Пока идеальный вариант для меня получился такой (возможно буду изменять):
User-agent: * Disallow: /out/ Disallow: /wp-admin/ Disallow: /wp-includes/ Disallow: /wp-content/plugins/ Disallow: /wp-content/themes/ Disallow: /*? Disallow: /*.php$ Disallow: /*.js$ Disallow: /*.inc$ Disallow: /*.css$ Disallow: */trackback Disallow: */feed Disallow: */comments User-agent: Yandex Disallow: /out/ Disallow: /wp-admin/ Disallow: /wp-includes/ Disallow: /wp-content/plugins/ Disallow: /wp-content/themes/ Disallow: /*? Disallow: /*.php$ Disallow: /*.js$ Disallow: /*.inc$ Disallow: /*.css$ Disallow: */trackback Disallow: */feed Disallow: */comments Host: www.ВашДомен.ru Sitemap: http://www.ВашДомен.ru/sitemap.xml
Проверка robots.txt
После того, как составили и загрузили файл, нужно проверить, а вдруг мы допустили какуюнить глупую ошибку и он не читается. Для этого нужно проверить в панели Яндекс.Вебмастер Анализ robots.txt и в инструментах у Google.Вебмастер. Там нужно будет указать несколько страниц сайта, что бы посмотреть будет он их индексировать и не выскочит ли других ошибок.
перечитав эту кучу статей, я так и не понял, какой же действительно будет правильный robots.txt для WordPress, так как в разных статьях, всё по разному.Даже вот не так давно читал статью с громким названием – “Правильный Robots.txt для WordPress”, НО имея небольшие знания в составлении файла Robots.txt я понял, что это уж точно не идеальный вариант.

Предидущая запись

Для изменения кодировки файлов используйте качественные редакторы. Например Dreamweaver или Notepad ++
Стандартный блокнот Windows – Вам не поможет…