3.4/5 - (10 голосов)

Robots.txt – играет очень важную роль в индексации. Правильный robots.txt – вообще очень важен. А насколько он правильный? А кто так сказал? А точно ли это поможет в продвижении ресурса в поисковых системах? Масса подобных вопросов возникала и у меня, когда я оптимизировал этот блог и искал информацию в интернете об этом. В принципе, роботсом я заинтересовался еще когда у меня был сайт на Ucoz (возможно, кстати, вам понравится статья про выбор подходящей CMS: WordPress vs Ucoz), благо там его можно было настроить, и я постиг основы.

Стоит отметить, что после правильной настройки robots.txt дела у моих проектов пошли лучше. Что в том, что в этом случае. Обусловлено это, конечно же, избирательным подбором страниц и материалов, которые нужно индексировать. Также я грамотно настроил остальные SEO-аспекты сайта с помощью плагина Yoast SEO. Рекомендую прочитать статью о правильной настройке плагина Yoast SEO для WordPress.

Оглавление

Для чего нужен Robots.txt

Если говорить совсем уж просто: для правильного представления вашего ресурса. Например, поисковые роботы, при посещении и индексации вашего сайта, могут взять, да и проиндексировать ненужные системные элементы. Как правило, такие страницы не слишком пригодны для восприятия роботами, и потому они будут считаться плохо оптимизированными. Если этих самых страниц будет слишком много, поисковик может понизить ваш проект в выдаче.

В абсолютно противоположном случае, что не менее прискорбно, может оказаться так, что ваш сайт и вовсе будет закрыт для индексации. Такое случается не так уж часто, но вам все равно следует учитывать это.

Правильный Robots.txt для WordPress 2018

Правильная настройка robots.txt для WordPress

Чтобы не лить воду, сразу скажу, что здесь есть два способа. Вы можете: либо настроить robots.txt через редактор плагина Yoast SEO (который ОЧЕНЬ рекомендован к установке), либо создать такой файл вручную (в блокноте, например), и разместить в корне сайта. Во втором случае, кстати говоря, стоит помнить, что размещать файл нужно так, чтобы он был доступен по адресу: site.ru/robots.txt.

Хотя, я думаю, что с этими мелочами вы итак разберетесь. Сосредоточимся на содержимом этого файла.

User-agent: * 
Disallow: /cgi-bin          
Disallow: /?              
Disallow: /search/ 
Disallow: /author/
Disallow: /users/
Disallow: */trackback 
Disallow: */feed 
Disallow: */rss 
Disallow: /wp-                       
Disallow: *?s= 
Disallow: *&s= 
Disallow: */embed
Disallow: /xmlrpc.php 
Disallow: *utm= 
Disallow: *openstat= 
Disallow: /tag/ # Закрываем для того, чтобы не индексировалось слишком много дублей. 
                # Если вы хотите, чтобы метки индексировались, удалите это правило.
Allow: */uploads

User-agent: GoogleBot
Disallow: /cgi-bin
Disallow: /?
Disallow: /search/
Disallow: /author/
Disallow: /users/
Disallow: /wp-
Disallow: *?s=
Disallow: *&s=
Disallow: */trackback
Disallow: */feed
Disallow: */rss
Disallow: */embed
Disallow: /xmlrpc.php
Disallow: *utm=
Disallow: *openstat=
Allow: */uploads
Allow: /*/*.js
Allow: /*/*.css
Allow: /wp-*.png
Allow: /wp-*.jpg
Allow: /wp-*.jpeg
Allow: /wp-*.gif
Allow: /wp-admin/admin-ajax.php

User-agent: Yandex
Disallow: /cgi-bin
Disallow: /?
Disallow: /wp-
Disallow: *?s=
Disallow: *&s=
Disallow: /search/
Disallow: /author/
Disallow: /users/
Disallow: */trackback
Disallow: */feed
Disallow: */rss
Disallow: */embed
Disallow: /xmlrpc.php
Allow: /wp-*.jpg
Allow: /wp-admin/admin-ajax.php
Allow: */uploads
Allow: /wp-*.jpeg
Allow: /wp-*.gif
Allow: /*/*.js
Allow: /*/*.css
Allow: /wp-*.png
Clean-Param: utm_source&utm_medium&utm_campaign 

Clean-Param: openstat

Sitemap: https://site.ru/sitemap.xml
Sitemap: https://site.ru/sitemap.xml.gz # Указываем, если для создания карты использовали Google XML Sitemap

Host: https://site.ru # Указываем с протоколом

Несколько очень важных моментов:

  • Если вы используете/собираетесь использовать турбо-страницы Яндекса, то вам необходимо будет разрешить для Яндекса доступ к xml-файлу
  • Когда вы будете копировать содержимое в файл – лучше убрать комментарии (пояснения с #)
  • Как я уже говорил, правило Disallow: /tag/ можно убрать. Лично я убрал метки из индексации из-за огромного количества дублей (страниц с одинаковым содержимым), т.к они пагубно влияют на продвижение.
  • Если вы НЕ используете SSL сертификат (и https протокол), указывать http протокол в Host: НЕ нужно. Директива будет выглядеть как Host: www.site.ru или Host: site.ru.

Почему надо указывать правила для каждого робота?

Благодаря такому подходу, по мнению некоторых оптимизаторов и вебмастеров, можно добиться куда больших результатов в продвижении сайта. И ведь это логично: если в правилах есть прямые указания для каждого робота, то и индексировать они будут активнее и чаще.

Кто-то, кстати говоря, и вовсе расписывает огромное полотно для роботов всех мастей. Там и роботы, которые индексируют картинки (от гугла и яндекса), и роботы других поисковых систем, коих очень и очень много.

Выводы

Собственно, вот так должен выглядеть правильно составленный robots.txt для WordPress в 2018 году. Безусловно, есть еще масса всевозможных вариантов, однако я рекомендую остановиться именно на этом. Я и сам его использую, в чем вы можете убедиться лично (добавьте /robots.txt к адресу моего сайта).

14 КОММЕНТАРИИ

  1. Объясните почему вы Host: указываете с протоколом http. На свех других сайтах говорят пишут: “Серьезная ошибка! Указывать протокол HTTP не нужно . А вот защищенный протокол HTTPS в robots.txt необходим, т.к. показывает роботу как правильно нужно позиционировать ресурс:”
    Есть этому более научное объяснение и практика???

    • Чистят utm-метки. Бытует мнение, что в случае с Яндексом предпочтительнее сделать именно так. Для гугла же просто закрываем их от индексации.

  2. Такой вопрос, гугл вебмастерс показывает ошибку на эти строки:
    Clean-Param: utm_source&utm_medium&utm_campaign

    Clean-Param: openstat
    Это так и должно быть, внимание можно не обращать?
    Спасибо.

  3. Указание главного зеркала посредством прописывания Host устарело, поисковики от него отказались уже, уже не обязательно прописывать

  4. У меня этот файл находится по адресу сайт/public_html/robots.txt. Когда вбиваю адрес сайта/robots.txt, то открывает его. Так значит можно и через паблик хтмл создавать. Не обязательно адрес сайта/robots.txt

  5. Вот в этой статье https://dampi.ru/pravilnyiy-robots-txt-dlya-sayta-na-wordpress автор утверждает о том, что если открыть uploads для всех ботов, то в индексе появляются загруженные PDF и прочие текстовые файлы. А в яндекс вебмастере, в отчете “Исключенные страницы” появляются сообщения об ошибке при индексировании картинок, мол содержимое не поддерживается. Вот и не знаю кому верить…

ОСТАВЬТЕ ОТВЕТ

Please enter your comment!
Please enter your name here