Здравствуйте, дорогие читатели моего блога!
Сегодня хотелось бы посвятить пост такому важному файлу, как robots.txt.
Как составить правильный robots.txt и для чего он нужен, все эти подробности мы рассмотрим в ходе статьи.В принципе каждый начинающий блоггер создает грубую ошибку, когда просто забывает составить или составляет неправильный файл robots.txt.
Зачем нам нужен файл robots.txt?
Здесь все просто!Этот файл помогает нам избежать дублирования контента на вашем блоге и делает его уникальным. Да, объяснил, скажете вы!
Спокойствие, вот подробнее:
- Вы опубликовали статью, а она в свое время начинает появляться на разных страницах вашего блога(на главной странице, в рубриках, архивах, в поиске и т.д) и в это время она может иметь разные url ссылки.А появление на блоге нескольких одинаковых статей с разными url называется дублированием контента.Это то самое, что стащить чужой контент:
- он будет не уникальным
- Яндекс предоставит вам подарок, такой как наложение на ваш блог фильтра АГС
Так вот, чтобы убрать эти недоразумения нам нужно знать, как составить правильный robots.txt!
Правильно составленный файл robots.txt запрещает индексацию поисковыми системами тех разделов блога, которые приводят к дублированию контента.
Как составить правильный robots.txt
Сейчас попробую вам объяснить основные правила написания данного файла-директивы:
- User-agent: *
Эта директива определяет каким поисковым роботам следует выполнять команды, которые будут указаны(так обозначаются общие указания для всех роботов поисковых систем)
- Следующими директивами являются «Allow» и «Disallow».
В нашем случае мы используем «Disallow»(запрещает индексацию указанных в ней элементов).«Allow», как вы догадались, разрешает индексацию.
Disallow:
разрешает индексацию
Disallow: /
запрещает индексацию
- User-agent: Yandex
Так задаются необходимые указания для Яндекса.
Надеюсь вроде все понятно и доступно?Вот смотрите пример:
User-agent: *
Disallow:
User-agent: Yandex
Disallow: /
Здесь, как видите мы разрешили индексирование всем поисковикам, а Яндексу запретили.Но если robots.txt оставить так, без особых указаний для поисковиков, то получается, что мы разрешили поисковикам индексировать весь блог.А Яндексу запретили индексирование всего ресурса, но нам так не нужно.Поэтому специально для вас я составил правильный файл robots.txt, который использую сам, вот смотрите:
User-agent: *
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /хмlrpc.php
Disallow: /webstat/
Disallow: /feed/
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */comments
Disallow: /category/*/*
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /page/
Здесь задаются указания специально для Яндекса:
User-agent: Yandex
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /хмlrpc.php
Disallow: /webstat/
Disallow: /feed/
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */comments
Disallow: /category/*/*
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /page/
Host:infonion.ru
Sitemap: http://infonion.ru/sitemap.xml.gz
Sitemap: http://infonion.ru/sitemap.xml
Здесь нужно будет поменять мой сайт infonion.ru на ваш!Ели вы новичок, то эта база знаний для вас и советую вам воспользоватся моим файлом robots.txt.
Как получить правильно составленный robots.txt?
Для этого вам нужно создать на своем компьютере обычный текстовый документ, скопировать содержимое на моем блоге и вставить в свой файл, после этого сохранить под именем robots.txt (не забудьте поменять infonion.ru на свой).
После создания файла, нужно отправить его в корень сайта через FTP клиент.
Кстати, забыл вам сказать:вы можете сами, постепенно, с развитием своего блога добавлять в этот список свои директивы для запрещения индексирования разных файлов(виджеты, страницы и т.д).В меня этот список тоже немного пополнился, но это база и она должна быть у всех!
Хочу вам показать свой старый и неправильный файл robots.txt:
User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /wp-trackback
Disallow: /wp-feed
Disallow: /wp-comments
Disallow: /category/*/*
Disallow: */trackback
Disallow: /trackback
Disallow: */feed
Disallow: /feed
Disallow: */comments
Disallow: /comments
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /*?s=
Sitemap: https://infonion.ru/sitemap.xml
Ну что посмотрели?Откуда он взялся уже не помню, может из вебмастера Google.Но знаю одно, что на блоге он был на протяжении долгого времени, что мешало нормальному и правильному развитию блога в поисковой системе Яндекса.
Уважаемые читатели, а какой файл robots используете вы?Давайте обсудим это в комментариях!Думаю, всем это пойдет на пользу и мне в том числе!
Понравилась данная статья?
Тогда подписывайтесь на мой блог и будьте в курсе всех новостей, информации куча, с нами интересно!
Каждому подписчику+активному читателю, комментатору моего блога-уникальная форма подписки в подарок.
Так что после подписки обращайтесь, видите с права по центру кнопочка от специального сервиса Redhelper, вот туда пишите или в комментариях к постам!
На сегодня все, удачи!
Пока-пока!
С уважением, Владислав Лемишко.
А у меня было разрешение на Allow *?replytocom и я как то не обращала внимание, что привело к появлению дублированного контента.
Потом спохватилась и теперь стоит: Disallow: *?replytocom
Лучше поздно, чем никогда!
Здравствуйте, Влад!Очень надеюсь на Вашу поддержку в нелёгком деле настройки своего блога!..Если честно, очень устала, блогу полтора года, а он ни тпру, ни ну… Бьюсь как рыба…Обратила внимание на Ваши комментарии на блоге Саши Борисова. Хочу последовать за Вами как ученик. Сегодня ставлю Ваш Robots.txt, создание и установку которого долго оттягивала. Надеюсь на успех. огромное вам спасибо за информацию
Здравствуйте!
Данная статья пока что неактуальная! Мой роботс сможете просмотреть вот так:
http://amplay.ru/robots.txt
Спасибо за доверие! =)
наверное, я слишком устала…ничего не получается!..
Что именно не получается? =)
Доброго времени суток, Влад! Всё получилось! Не могла понять, где именно корневая папка сайта, тк ошибочно стояло два одинаковых вордпресса после бэкапа. Долго объяснять. Удалив невостребованный, всё поставила. 3-я строчка в вашем роботсе почему-то выдалась как ошибочная. Я её удалила. Всё верно?
Здравствуйте!
Какой robots правильный? На этот вопрос точного ответа нет, тем более в последнее время!
Здесь уже нужно знать, что именно вы хотите! У меня стоит «чистый» robots, пока что претензий к нему нет.
Вы неправильно все сделали! Я вам писал в предыдущем комментарии, как просмотреть мой robots. Скопируйте тот адрес и вставьте в адресную строку браузера!