ПОЛНОЕ РУКОВОДСТВО ПО ROBOTS.TXT: СОЗДАНИЕ, НАСТРОЙКА, ТЕСТИРОВАНИЕ

ПОЛНОЕ РУКОВОДСТВО ПО ROBOTS.TXT: СОЗДАНИЕ, НАСТРОЙКА, ТЕСТИРОВАНИЕ

16 минут чтения

Умное управление сканированием и индексированием веб-сайтов является высшим навыком как для веб-мастеров, так и для SEO-специалистов. И есть ряд способов привлечь поисковых ботов на сайт или ограничить доступ к нему. В этой статье мы рассмотрим, как все это сделать с помощью файла robots.txt.

Что такое robots.txt?

Robots.txt — это текстовый файл, содержащий рекомендации по сканированию для ботов. Это часть протокола исключения роботов (REP), группы веб-стандартов, которые регулируют то, как боты просматривают, получают доступ, индексируют и представляют контент пользователям. Файл содержит инструкции (директивы), с помощью которых вы можете ограничить доступ ботов к определенным разделам, страницам и файлам или указать адрес Sitemap.

Большинство основных поисковых систем, таких как Google, Bing и Yahoo, начинают сканирование веб-сайтов, проверяя файл robots.txt и следуя предписанным рекомендациям.

Почему robots.txt важен?

Большинству веб-сайтов, ориентированных в основном на Google, может не понадобиться файл robots.txt. Это связано с тем, что Google рассматривает их исключительно как рекомендации, а Googlebot обычно находит и индексирует все важные страницы независимо от них.

robots.txt
Robots.txt содержит рекомендации для поисковых ботов по навигации по сайту.

Поэтому, если этот файл не будет создан, это не будет критической ошибкой. В этом случае поисковые роботы будут считать, что ограничений нет, и они могут свободно сканировать.

Несмотря на это, есть 3 основные причины, по которым вам следует использовать robots.txt:

  1. Это оптимизирует краулинговый бюджет. Если у вас большой сайт, важно, чтобы поисковые роботы просканировали все важные страницы. Однако иногда сканеры находят и индексируют вспомогательные страницы, например страницы фильтров, игнорируя при этом основные. Вы можете исправить эту ситуацию, заблокировав несущественные страницы через robots.txt.
  2. Он скрывает непубличные страницы. Не все на вашем сайте нужно индексировать. Хорошим примером являются страницы авторизации или тестирования. Хотя объективно они должны существовать, вы можете заблокировать их с помощью файла robots.txt, чтобы они не попадали в индекс поисковых систем и были недоступны для случайных людей.
  3. Это предотвращает индексацию изображений и PDF-файлов. Есть несколько способов предотвратить индексацию страниц без использования robots.txt. Однако ни один из них не работает хорошо, когда дело доходит до медиафайлов. Поэтому, если вы не хотите, чтобы поисковые системы индексировали изображения или PDF-файлы на вашем сайте, проще всего заблокировать их с помощью файла robots.txt.

Требования к файлам

Чтобы поисковые боты корректно обработали файл, необходимо соблюдать правила:

  1. Он должен находиться в корневом каталоге сайта.
  2. Он должен называться «robots.txt» и быть доступен по адресу https://yoursite.com/robots.txt.
  3. Допускается только один такой файл на сайт.
  4. Кодировка UTF-8.

Синтаксис robots.txt

Директивы

Файл robots.txt включает в себя две основные директивы — User-agent и Disallow, но есть и дополнительные, такие как Allow и Sitemap. Давайте подробнее рассмотрим, какую информацию они передают и как правильно ее добавить.

robots дерективы
С помощью правильных директив вы можете заблокировать отдельные страницы или весь сайт.

User-agent

Это обязательная директива. Он определяет, к каким поисковым ботам применяются правила.

Существует множество роботов, которые могут сканировать веб-сайты, наиболее распространенными из которых являются боты поисковых систем.

Некоторые из ботов Google включают:

  • Googlebot;
  • Googlebot-Image;
  • Googlebot-News.

Вы можете найти полный список агентов пользователей, используемых поисковыми системами, в их документации. Для Google это выглядит так.

Имейте в виду, что некоторые поисковые роботы могут иметь более одного токена пользовательского агента. Для корректного применения правила важно, чтобы маркер соответствовал только одному сканеру.

Чтобы обратиться к конкретному боту, например Googlebot Image, вам нужно ввести его имя в строке User-agent:

User-agent: Googlebot-Image

Если вы хотите применить правила ко всем ботам, используйте звездочку (*). Пример:

User-agent: *

Disallow

Это указывает на страницу и каталог корневого домена, которые указанный User-agent не может сканировать. Используйте директиву Disallow, чтобы запретить доступ ко всему сайту, каталогу или определенной странице.

1. Если вы хотите ограничить доступ ко всему сайту, добавьте косую черту (/). Например, чтобы запретить всем роботам доступ ко всему сайту, в файле robots.txt необходимо указать следующее:

User-agent: *
Disallow: /

Вам может понадобиться использовать такую ​​комбинацию, если ваш сайт находится на ранних стадиях разработки, когда вы хотите, чтобы он отображался в результатах поиска полностью завершенным.

2. Чтобы ограничить доступ к содержимому каталога, используйте его имя, за которым следует косая черта. Например, чтобы запретить всем ботам доступ к каталогу блога, нужно прописать в файле следующее:

User-agent: *
Disallow: /blog/

3. Если вам нужно закрыть конкретную страницу, вы должны указать ее URL без хоста. Например, чтобы закрыть страницу https://yoursite.com/blog/website.html, вы должны написать в файле следующее:

User-agent: *
Disallow: /blog/website.html

Allow

Это указывает на страницу и каталог корневого домена, который может быть просканирован указанным User-agent, и считается необязательным. Если ограничение не указано, то по умолчанию боты могут беспрепятственно сканировать сайт. Таким образом, следующее является совершенно необязательным:

User-agent: *
Allow: /

Однако вам нужно будет использовать эту директиву, чтобы переопределить ограничение директивы Disallow. По сути, его можно использовать для сканирования части ограниченного раздела или сайта. Например, если вы хотите ограничить доступ ко всем страницам в каталоге /blog/, кроме https://yoursite.com/blog/website.html, вам потребуется указать следующее:

User-agent: *
Disallow: /blog/
Allow: /blog/website.html

Карта сайта

Эта необязательная директива служит для указания местоположения файла Sitemap.xml сайта. Если на вашем сайте несколько файлов Sitemap, вы можете указать их все.

Обязательно укажите полный URL-адрес файла Sitemap.xml. Директиву можно разместить в любом месте файла, но чаще всего это делается в самом конце. Файл robots.txt со ссылками на несколько Sitemap.xml будет выглядеть так:

User-agent: *
Sitemap: https://yoursite.com.com/sitemap1.xml
Sitemap: https://yoursite.com.com/sitemap2.xml

Специальные символы $, *, /, #

1. Символ звездочки (*) обозначает любую последовательность символов. В приведенном ниже примере использование звездочки запрещает доступ ко всем URL-адресам, содержащим слово веб-сайт:

User-agent: *
Disallow: /*website

Этот специальный символ добавляется в конце каждой строки по умолчанию. Таким образом, два приведенных ниже примера означают одно и то же:

User-agent: *
Disallow: /website*
User-agent: *
Disallow: /website

2. Чтобы переопределить звездочку (*), вы должны включить символ доллара ($) в конце правила.

Например, чтобы запретить доступ к /website, но разрешить доступ к /website.html, вы можете написать:

User-agent: *
Disallow: /website$

3. Косая черта — это основной символ, обычно встречающийся в каждой директиве Allow и Disallow. С его помощью вы можете запретить доступ к папке /blog/ и ее содержимому или ко всем страницам, начинающимся с /blog.

Пример директивы, запрещающей доступ ко всей категории /blog/:

User-agent: *
Disallow: /blog/

Пример директивы, запрещающей доступ ко всем страницам, начинающимся с /blog:

User-agent: *
Disallow: /blog

4. Цифровой знак (#) используется для добавления комментариев внутри файла для себя, пользователей или других веб-мастеров. Поисковые роботы проигнорируют эту информацию.

User-agent: *
Disallow: /blog
#это не так сложно, как может показаться :) 

Пошаговое руководство по созданию robots.txt

1. Создайте файл robots.txt

Для этого можно использовать любой текстовый редактор, например блокнот. Если ваш текстовый редактор предложит вам выбрать кодировку при сохранении файла, обязательно выберите UTF-8.

2. Добавьте правила для роботов

Правила — это инструкции для поисковых ботов, указывающие, какие разделы сайта можно сканировать. В своих рекомендациях Google рекомендует учитывать следующее:

  1. Файл robots.txt включает одну или несколько групп.
  2. Каждая группа начинается со строки User-agent. Это определяет, к какому роботу относятся правила.
  3. В каждую группу может входить несколько директив, но по одной на строку.
  4. Роботы поисковых систем обрабатывают группы сверху вниз. Пользовательский агент может следовать только одному наиболее подходящему для него набору правил, который будет обрабатываться в первую очередь.
  5. По умолчанию агенту пользователя разрешено сканировать любые страницы и каталоги, которые не заблокированы правилом запрета.
  6. Правила чувствительны к регистру.
  7. Строки, не соответствующие ни одной из директив, будут игнорироваться.

3. Загрузите файл robots.txt в корневой каталог.

После создания сохраните файл robots.txt на компьютере, затем загрузите его в корневой каталог вашего сайта и сделайте доступным для поисковых систем.

4. Проверьте наличие и корректность файла robots.txt

Чтобы проверить, доступен ли файл, вам нужно открыть браузер в режиме инкогнито и посетить https://yoursite.com/robots.txt. Если вы видите содержимое и оно соответствует тому, что вы указали, вы можете приступить к проверке корректности директив.

Вы можете протестировать robots.txt с помощью специального инструмента в Google Search Console. Имейте в виду, что его можно использовать только для файлов robots.txt, которые уже доступны на вашем сайте.

консоль поиска Google
Проверив консоль поиска Google, вы можете убедиться, что все директивы были добавлены правильно.

Шаблоны robots.txt для различных CMS

Если на вашем сайте установлена ​​CMS, обратите внимание на страницы, которые она генерирует, особенно на те, которые не должны индексироваться поисковыми системами. Чтобы этого не произошло, нужно закрыть их в robots.txt. Поскольку это распространенная проблема, существуют шаблоны файлов для сайтов, использующих различные популярные CMS. Вот некоторые из них.

Robots.txt для WordPress

User-Agent: * 
Disallow: /wp-login.php 
Disallow: /wp-register.php 
Disallow: /xmlrpc.php 
Disallow: /template.html 
Disallow: /wp-admin 
Disallow: /wp-includes 
Disallow: /wp-content 
Allow: /wp-content/uploads/ 
Disallow: /tag 
Disallow: /category 
Disallow: /archive 
Disallow: */trackback/ 
Disallow: */feed/ 
Disallow: */comments/ 
Disallow: /?feed= 
Disallow: /?s= 
Allow: /wp-content/*.css* 
Allow: /wp-content/*.jpg 
Allow: /wp-content/*.gif 
Allow: /wp-content/*.png 
Allow: /wp-content/*.js* 
Allow: /wp-includes/js/ 
Sitemap: http://yoursite.com/sitemap.xml

Robots.txt для Joomla

User-agent: * 
Disallow: /administrator/ 
Disallow: /cache/ 
Disallow: /components/ 
Disallow: /images/ 
Disallow: /includes/ 
Disallow: /installation/ 
Disallow: /language/ 
Disallow: /libraries/ 
Disallow: /media/ 
Disallow: /modules/ 
Disallow: /plugins/ 
Disallow: /templates/ 
Disallow: /tmp/ 
Disallow: /xmlrpc/ 
Allow: /templates/*.css 
Allow: /templates/*.js 
Allow: /media/*.png 
Allow: /media/*.js 
Allow: /modules/*.css 
Allow: /modules/*.js 
Sitemap: http://yoursite.com/sitemap.xml

Robots.txt для Битрикс

User-agent: * 
Disallow: /*index.php$ 
Disallow: /bitrix/ 
Disallow: /auth/ 
Disallow: /personal/ 
Disallow: /upload/ 
Disallow: /search/ 
Disallow: /*/search/ 
Disallow: /*/slide_show/ 
Disallow: /*/gallery/*order=* 
Disallow: /*?* 
Disallow: /*&print= 
Disallow: /*register= 
Disallow: /*forgot_password= 
Disallow: /*change_password= 
Disallow: /*login= 
Disallow: /*logout= 
Disallow: /*auth= 
Disallow: /*action=* 
Disallow: /*bitrix_*= 
Disallow: /*backurl=* 
Disallow: /*BACKURL=* 
Disallow: /*back_url=* 
Disallow: /*BACK_URL=* 
Disallow: /*back_url_admin=* 
Disallow: /*print_course=Y 
Disallow: /*COURSE_ID= 
Allow: /bitrix/*.css 
Allow: /bitrix/*.js 
Sitemap: http://yoursite.com/sitemap.xml

Некоторые практические вещи, о которых вы могли не знать

Проиндексировано, но заблокировано robots.txt

Иногда вы можете увидеть это предупреждение в консоли поиска Google. Это происходит, когда Google воспринимает директивы, изложенные в robots.txt, как рекомендации, а не как правила, и фактически игнорирует их. И хотя представители Google не видят в этом критической проблемы, на самом деле это может привести к тому, что будет проиндексировано множество ненужных страниц.

Проиндексировано, но заблокировано robots.txt
Экран «Проиндексировано, но заблокировано robots.txt» в Google Search Console

Чтобы решить эту проблему, следуйте этим рекомендациям:

  • Определите, следует ли индексировать эти страницы. Посмотрите, какую информацию они содержат и нужны ли они для привлечения пользователей из поиска.
  • Если вы не хотите, чтобы эти страницы блокировались, найдите директиву, отвечающую за это, в вашем файле robots.txt. Если ответ не очевиден без сторонних инструментов, вы можете сделать это с помощью тестового инструмента robots.txt.
Инструмент для тестирования robots.txt
Результаты после проверки того, какая директива блокирует URL-адрес

Обновите файл robots.txt, не включая эту директиву. Кроме того, вы можете указать URL-адрес, который вы хотите проиндексировать, с помощью Разрешить, если вам это нужно, чтобы скрыть другие менее полезные URL-адреса.

Robots.txt — не самый надежный механизм, если вы хотите заблокировать эту страницу для поиска Google. Чтобы избежать индексации, удалите предыдущую строку, использовавшуюся для этого, в файле robots.txt и добавьте на страницу мета «noindex».

Важный! Для работы директивы noindex файл robots.txt не должен блокировать доступ к странице для поисковых роботов. В противном случае боты не смогут обработать код страницы и не обнаружат метатег noindex. В результате содержимое этой страницы по-прежнему будет отображаться в результатах поиска, если, например, другие сайты предоставляют на него ссылки.

Если вам нужно закрыть сайт на время с 503, не делайте этого для robots.txt

Когда на сайте проводятся обширные работы по техническому обслуживанию или есть другие важные причины, вы можете временно приостановить или отключить его, тем самым лишив доступа как ботов, так и пользователей. Для этого они используют код ответа сервера 503.

Однако Джон Мюллер, советник по поиску в Google, показал в ветке Twitter, что вам нужно сделать и проверить, чтобы временно приостановить работу вашего сайта.

По словам Джона, файл robots.txt никогда не должен возвращать ошибку 503, потому что робот Google будет считать, что сайт полностью заблокирован через robots.txt. Для этого файл robots.txt должен возвращать 200 OK, имея в файле все необходимые директивы, или 404.

robots
Если в файле robots.txt указан код 503, роботы будут считать, что сайт полностью заблокирован файлом robots.txt.

Заключение

Robots.txt — это полезный инструмент для создания взаимодействия между сканерами поисковых систем и вашим сайтом. При правильном сборе это может быть полезно для использования на рейтинге сайта, используемого для удобного управления индексацией ваших документов.

Мы надеемся, что это руководство поможет вам понять, как работают файлы robots.txt, как они организованы и как их правильно использовать.

0 0 голоса
Рейтинг статьи