Какая из директив не включена в текстовый файл robots

Обновлено: 01.07.2024

В этом разделе нашего руководства по директивам для роботов мы более подробно расскажем о текстовом файле robots.txt и о том, как его можно использовать для инструктирования поисковых роботов. Этот файл особенно полезен для управления краулинговым бюджетом и обеспечения того, чтобы поисковые системы эффективно проводили время на вашем сайте и сканировали только важные страницы.

Для чего используется текстовый файл robots?

Файл robots.txt сообщает сканерам и роботам, какие URL-адреса на вашем веб-сайте им не следует посещать. Это важно, чтобы помочь им избежать сканирования страниц низкого качества или застрять в ловушках сканирования, где потенциально может быть создано бесконечное количество URL-адресов, например раздел календаря, который создает новый URL-адрес на каждый день.

Как объясняет Google в своем руководстве по спецификациям robots.txt, формат файла должен быть простым текстом в кодировке UTF-8. Записи файла (или строки) должны быть разделены символами CR, CR/LF или LF.

Вы должны помнить о размере файла robots.txt, так как у поисковых систем есть собственные ограничения на максимальный размер файла. Максимальный размер для Google составляет 500 КБ.

Где должен находиться файл robots.txt?

Файл robots.txt всегда должен находиться в корне домена, например:

DeepCrawl

Когда следует использовать правила robots.txt?

Как правило, веб-сайты должны стараться как можно меньше использовать файл robots.txt для контроля сканирования. Гораздо лучшее решение — улучшить архитектуру вашего веб-сайта и сделать его чистым и доступным для поисковых роботов. Однако рекомендуется использовать файл robots.txt там, где это необходимо для предотвращения доступа поисковых роботов к некачественным разделам сайта, если эти проблемы не могут быть устранены в ближайшее время.

Google рекомендует использовать robots.txt только в случае возникновения проблем с сервером или проблем с эффективностью сканирования, например, когда робот Googlebot тратит много времени на сканирование неиндексируемого раздела сайта.

  • Страницы категорий с нестандартной сортировкой, так как это обычно приводит к дублированию страницы основной категории.
  • Созданный пользователями контент, который нельзя модерировать
  • Страницы с конфиденциальной информацией
  • Внутренние страницы поиска, поскольку таких страниц результатов может быть бесконечное количество, что усложняет взаимодействие с пользователем и тратит впустую краулинговый бюджет.

Когда не следует использовать robots.txt?

Файл robots.txt — полезный инструмент при правильном использовании, однако бывают случаи, когда это не лучшее решение. Вот несколько примеров, когда не следует использовать файл robots.txt для управления сканированием:

1. Блокировка Javascript/CSS

Поисковые системы должны иметь доступ ко всем ресурсам на вашем сайте для правильного отображения страниц, что является необходимой частью поддержания хорошего рейтинга. Файлы JavaScript, которые существенно изменяют взаимодействие с пользователем, но не могут быть просканированы поисковыми системами, могут привести к ручным или алгоритмическим санкциям.

Например, если вы показываете межстраничное объявление или перенаправляете пользователей с помощью JavaScript, к которому у поисковой системы нет доступа, это может рассматриваться как маскировка, и рейтинг вашего контента может быть соответствующим образом скорректирован.

2. Блокировка параметров URL

Вы можете использовать robots.txt для блокировки URL-адресов, содержащих определенные параметры, но это не всегда лучший способ действий. Лучше обрабатывать их в консоли поиска Google, так как там есть больше параметров для конкретных параметров, чтобы сообщить Google о предпочтительных методах сканирования.

3. Блокировка URL-адресов с обратными ссылками

Запрет URL-адресов в файле robots.txt предотвращает переход ссылочного веса на веб-сайт. Это означает, что если поисковые системы не могут переходить по ссылкам с других веб-сайтов, поскольку целевой URL-адрес запрещен, ваш веб-сайт не получит авторитета, через который проходят эти ссылки, и в результате ваш рейтинг может ухудшиться.

4. Деиндексация проиндексированных страниц

Использование Disallow не приводит к деиндексации страниц, и даже если URL-адрес заблокирован и поисковые системы никогда не сканировали страницу, запрещенные страницы все равно могут быть проиндексированы. Это связано с тем, что процессы сканирования и индексирования в значительной степени разделены.

5. Установка правил, которые игнорируют сканеры социальных сетей

Даже если вы не хотите, чтобы поисковые системы сканировали и индексировали страницы, вы можете захотеть, чтобы социальные сети могли получить доступ к этим страницам, чтобы можно было создать фрагмент страницы. Например, Facebook попытается посетить каждую страницу, которая публикуется в сети, чтобы предоставить соответствующий фрагмент. Учитывайте это при настройке правил robots.txt.

6. Блокировка доступа с промежуточных сайтов или сайтов разработки

Использование файла robots.txt для блокировки всего пробного сайта не рекомендуется.Google рекомендует не индексировать страницы, но разрешить их сканирование, но в целом лучше сделать сайт недоступным для внешнего мира.

7. Когда нечего блокировать

Некоторым веб-сайтам с очень чистой архитектурой не нужно блокировать поисковые роботы на любых страницах. В этой ситуации вполне допустимо не иметь файла robots.txt и возвращать статус 404 по запросу.

Синтаксис и форматирование robots.txt

Теперь, когда мы узнали, что такое robots.txt и когда его следует и не следует использовать, давайте взглянем на стандартизированный синтаксис и правила форматирования, которых следует придерживаться при написании файла robots.txt.< /p>

Пример файла robots.txt

Комментарии

Указание агента пользователя

Блок правил можно применить к определенным пользовательским агентам с помощью директивы User-agent. Например, если вы хотите, чтобы определенные правила применялись к Google, Bing и Яндексу; но не Facebook и рекламные сети, этого можно добиться, указав токен пользовательского агента, к которому применяется набор правил.

У каждого поискового робота есть собственный токен агента пользователя, который используется для выбора соответствующих блоков.

Сканеры будут следовать наиболее конкретным правилам пользовательского агента, установленным для них, с именами, разделенными дефисами, а затем обратятся к более общим правилам, если точное соответствие не будет найдено. Например, Googlebot News будет искать соответствие "googlebot-news", затем "googlebot", а затем "*".

Вот некоторые из наиболее распространенных токенов агента пользователя, с которыми вы столкнетесь:

  • * – Правила применяются ко всем ботам, если не существует более конкретного набора правил.
  • Googlebot — все поисковые роботы Google
  • Googlebot-News — поисковый робот для новостей Google
  • Googlebot-Image — сканер изображений Google.
  • Mediapartners-Google — поисковый робот Google AdSense
  • Bingbot — поисковый робот Bing
  • Яндекс — поисковый робот Яндекса
  • Baiduspider — поисковый робот Baidu
  • Facebot — поисковый робот Facebook
  • Twitterbot — поисковый робот Twitter

Этот список токенов пользовательских агентов ни в коем случае не является исчерпывающим, поэтому, чтобы узнать больше о некоторых поисковых роботах, ознакомьтесь с документацией, опубликованной Google, Bing, Яндекс, Baidu, Facebook и Twitter.

При сопоставлении токена пользовательского агента с блоком robots.txt регистр не учитывается. Например. «googlebot» будет соответствовать токену пользовательского агента Google «Googlebot».

URL-адреса, соответствующие шаблону

Возможно, у вас есть определенная строка URL, которую вы хотите заблокировать от сканирования, так как это намного эффективнее, чем включение полного списка полных URL, которые нужно исключить в файле robots.txt.

Чтобы уточнить пути URL, можно использовать символы * и $. Вот как они работают:

  • * — это подстановочный знак, представляющий любое количество любых символов. Он может быть в начале или в середине URL-адреса, но не обязателен в конце. В строке URL можно использовать несколько подстановочных знаков, например, «Disallow: */products?*sort=». Правила с полными путями не должны начинаться с подстановочного знака.
  • $ — этот символ означает конец строки URL-адреса, поэтому «Disallow: */dress$» будет соответствовать только URL-адресам, оканчивающимся на «/dress», и а не «/dress?parameter».

Стоит отметить, что правила robots.txt чувствительны к регистру, а это означает, что если вы запретите URL-адреса с параметром «search» (например, «Disallow: *?search= "), роботы могут по-прежнему сканировать URL-адреса, написанные с заглавных букв, например "?Search=anything".

Если вы не добавите соответствие директивы start a с помощью / или *, оно не будет соответствовать чему-либо. Например. «Запретить: запуск» никогда не будет соответствовать чему-либо.

Чтобы наглядно представить, как работают различные правила URL, мы собрали для вас несколько примеров:

Правило Robots.txt примеры

Robots.txt Ссылка на файл Sitemap

Директива карты сайта в файле robots.txt сообщает поисковым системам, где найти XML-карту сайта, которая помогает им обнаруживать все URL-адреса на веб-сайте. Чтобы узнать больше о файлах Sitemap, ознакомьтесь с нашим руководством по аудиту файлов Sitemap и расширенной настройке.

Поисковые системы обнаружат и могут сканировать файлы Sitemap, перечисленные в вашем файле robots.txt, однако эти файлы Sitemap не будут отображаться в Google Search Console или Bing Webmaster Tools без отправки вручную.

Блокирует robots.txt

Правило «запретить» в файле robots.txt можно использовать разными способами для разных пользовательских агентов. В этом разделе мы рассмотрим несколько различных способов форматирования комбинаций блоков.

Важно помнить, что директивы в файле robots.txt — это всего лишь инструкции.Вредоносные сканеры будут игнорировать ваш файл robots.txt и сканировать любую общедоступную часть вашего сайта, поэтому не следует использовать запрет вместо надежных мер безопасности.

Несколько блоков User-agent

Вы можете сопоставить блок правил с несколькими пользовательскими агентами, перечислив их перед набором правил, например, следующие правила запрета будут применяться как к Googlebot, так и к Bing в следующем блоке правил:

Агент пользователя: googlebot
Агент пользователя: bing
Запретить: /a

Интервал между блоками директив

Google будет игнорировать пробелы между директивами и блоками. В этом первом примере будет выбрано второе правило, даже если две части правила разделены пробелом:

[code]
Агент пользователя: *
Запретить: /disallowed/

Запретить: /test1/robots_excluded_blank_line
[/code]

Во втором примере Googlebot-mobile унаследует те же правила, что и Bingbot:

[код]
Агент пользователя: googlebot-mobile

Агент пользователя: bing
Запретить: /test1/deepcrawl_excluded
[/code]

Отдельные блоки объединены

Несколько блоков с одним и тем же агентом пользователя объединяются. Таким образом, в приведенном ниже примере верхний и нижний блоки будут объединены, и роботу Googlebot будет запрещено сканировать «/b» и «/a».

Агент пользователя: googlebot
Запретить: /b

Агент пользователя: bing
Запретить: /a

Агент пользователя: googlebot
Запретить: /a

Robots.txt Разрешить

Правило «разрешить» в файле robots.txt явно разрешает сканирование определенных URL-адресов. Хотя это значение по умолчанию для всех URL-адресов, это правило можно использовать для перезаписи правила запрета. Например, если «/locations» запрещен, вы можете разрешить сканирование «/locations/london», установив специальное правило «Разрешить: / местоположения/лондон».

Приоритет файла robots.txt

Если к URL-адресу применяется несколько разрешающих и запрещающих правил, применяется правило с самым длинным соответствием. Давайте посмотрим, что произойдет с URL «/home/search/shirts» со следующими правилами:

В этом случае URL-адрес можно сканировать, поскольку правило разрешения содержит 9 символов, а правило запрета — только 7. Если вам нужно разрешить или запретить определенный путь URL-адреса, вы можете использовать символ *, чтобы сделать строка длиннее. Например:

Если URL-адрес соответствует как разрешающему, так и запрещающему правилу, но правила имеют одинаковую длину, будет применяться запрет. Например, URL «/search/shirts» будет запрещен в следующем сценарии:

Директивы robots.txt

Директивы на уровне страницы (о которых мы поговорим позже в этом руководстве) — отличные инструменты, но проблема с ними заключается в том, что поисковые системы должны просканировать страницу, прежде чем смогут прочитать эти инструкции, что может привести к расходу краулингового бюджета.< /p>

Директивы robots.txt могут помочь уменьшить нагрузку на бюджет сканирования, поскольку вы можете добавлять директивы непосредственно в файл robots.txt, а не ждать, пока поисковые системы просканируют страницы, прежде чем предпринимать какие-либо действия. Это решение намного быстрее и проще в управлении.

Следующие директивы robots.txt работают так же, как директивы allow и disallow, в том смысле, что вы можете указать подстановочные знаки (*) и использовать символ $ для обозначают конец строки URL.

Robots.txt без индекса

Robots.txt noindex – это полезный инструмент для управления индексацией поисковыми системами без расходования краулингового бюджета. Запрет страницы в robots.txt не означает ее удаление из индекса, поэтому директиву noindex гораздо эффективнее использовать для этой цели.

Google официально не поддерживает файл robots.txt noindex, и вам не следует на него полагаться, потому что сегодня он работает, а завтра может перестать работать. Этот инструмент может быть полезен, и его следует использовать в качестве краткосрочного исправления в сочетании с другими долгосрочными элементами управления индексом, но не в качестве критически важной директивы. Взгляните на тесты, проведенные ohgm и Stone Temple, которые доказывают, что функция работает эффективно.

Вот пример использования файла robots.txt noindex:

Помимо noindex, Google в настоящее время неофициально соблюдает несколько других директив индексации, когда они помещаются в robots.txt. Важно отметить, что не все поисковые системы и краулеры поддерживают эти директивы, а те, которые поддерживают, могут перестать их поддерживать в любое время — не стоит полагаться на их постоянную работу.

Распространенные проблемы с файлом robots.txt

Есть несколько ключевых вопросов и соображений относительно файла robots.txt и его влияния на производительность сайта. Мы нашли время, чтобы перечислить некоторые ключевые моменты, которые следует учитывать при работе с robots.txt, а также некоторые из наиболее распространенных проблем, которых вы, надеюсь, сможете избежать.

  1. Имейте резервный блок правил для всех ботов. Использование блоков правил для определенных строк пользовательского агента без резервного блока правил для всех остальных ботов означает, что ваш веб-сайт в конечном итоге столкнется с ботом, у которого нет наборов правил, которым нужно следовать. .
  2. Важно, чтобы файл robots.txt обновлялся. Относительно распространенная проблема возникает, когда файл robots.txt устанавливается на начальном этапе разработки веб-сайта, но не обновляется по мере роста веб-сайта, а это означает, что он потенциально полезен. страницы запрещены.
  3. Остерегайтесь перенаправления поисковых систем через запрещенные URL-адреса. Например, /product >/disallowed >/category
  4. Чувствительность к регистру может вызвать много проблем. Веб-мастера могут ожидать, что часть веб-сайта не будет просканирована, но эти страницы могут быть просканированы из-за альтернативных регистров, например, «Disallow: /admin» существует, но поисковые системы сканируют «/АДМИН».
  5. Не запрещайте URL-адреса с обратными ссылками. Это предотвратит попадание PageRank на ваш сайт от других пользователей, ссылающихся на вас.
  6. Задержка сканирования может вызвать проблемы с поиском. Директива crawl-delay заставляет поисковых роботов посещать ваш веб-сайт медленнее, чем им хотелось бы, а это означает, что ваши важные страницы могут сканироваться реже, чем оптимально. . Этой директиве не следуют ни Google, ни Baidu, но ее поддерживают Bing и Яндекс.
  7. Убедитесь, что robots.txt возвращает код состояния 5xx только в том случае, если весь сайт недоступен. Возврат кода состояния 5xx для /robots.txt указывает поисковым системам, что веб-сайт закрыт на техническое обслуживание. . Обычно это означает, что позже они снова попытаются просканировать веб-сайт.
  8. Запрет файла robots.txt переопределяет инструмент удаления параметров. Помните, что ваши правила robots.txt могут переопределять обработку параметров и любые другие подсказки по индексации, которые вы могли дать поисковым системам.
  9. Разметка поля поиска дополнительных ссылок будет работать с заблокированными страницами внутреннего поиска. Чтобы разметка окна поиска дополнительных ссылок работала, страницы внутреннего поиска на сайте не должны быть просканированы.
  10. Запрет переноса домена повлияет на успешность переноса. Если вы запретите перенос домена, поисковые системы не смогут выполнять какие-либо перенаправления со старого сайта на новый, поэтому перенос маловероятен. быть успешным.

Тестирование и аудит robots.txt

Учитывая, насколько опасным может быть файл robots.txt, если содержащиеся в нем директивы обрабатываются неправильно, существует несколько различных способов проверить его правильность настройки. Взгляните на это руководство о том, как проверять URL-адреса, заблокированные файлом robots.txt, а также на эти примеры:

  • Используйте DeepCrawl. Отчеты о запрещенных страницах и запрещенных URL (непросканированных) могут показать вам, какие страницы заблокированы для поисковых систем вашим файлом robots.txt.
  • Используйте Google Search Console. С помощью инструмента тестирования GSC robots.txt вы можете просмотреть последнюю кешированную версию страницы, а также использовать инструмент Fetch and Render, чтобы увидеть визуализацию от пользовательского агента Googlebot, а также от пользователя браузера. агент. Обратите внимание: GSC работает только с агентами пользователей Google, и тестировать можно только отдельные URL.
  • Попробуйте объединить результаты обоих инструментов, выборочно проверяя запрещенные URL-адреса, которые DeepCrawl пометил в инструменте тестирования GSC robots.txt, чтобы уточнить конкретные правила, которые приводят к запрету.

Отслеживание изменений файла robots.txt

Когда над сайтом работает много людей, и проблемы, которые могут возникнуть, если хотя бы один символ находится не на своем месте в файле robots.txt, постоянное отслеживание файла robots.txt имеет решающее значение. Вот несколько способов проверить наличие проблем:

  • Проверьте консоль поиска Google, чтобы увидеть текущий файл robots.txt, который использует Google. Иногда файл robots.txt может быть доставлен условно на основе пользовательских агентов, поэтому это единственный способ увидеть именно то, что видит Google.
  • Проверьте размер файла robots.txt, если вы заметили значительные изменения, чтобы убедиться, что он не превышает ограничения Google в 500 КБ.
  • Перейдите к отчету о статусе индекса Google Search Console в расширенном режиме, чтобы сверить изменения в файле robots.txt с количеством запрещенных и разрешенных URL-адресов на вашем сайте.
  • Запланируйте регулярное сканирование с помощью DeepCrawl, чтобы постоянно видеть количество запрещенных страниц на вашем сайте и отслеживать изменения.
Рэйчел Костелло

Рэйчел Костелло (Rachel Costello) — бывший технический специалист по поисковой оптимизации и контент-менеджеру в Deepcrawl. Чаще всего вы увидите, как она пишет и говорит обо всем, что связано с SEO.

Содержание

Выберите лучший способ роста

Благодаря инструментам, которые помогут вам реализовать истинный потенциал вашего веб-сайта, и поддержке, которая поможет вам в этом, развитие вашего корпоративного бизнеса в Интернете никогда не было таким простым.

Роботы.txt — это текстовый файл, который веб-мастера создают, чтобы инструктировать веб-роботов (обычно роботов поисковых систем), как сканировать страницы на их веб-сайте. Файл robots.txt является частью протокола исключения роботов (REP), группы веб-стандартов, которые регулируют, как роботы сканируют Интернет, получают доступ и индексируют контент, а также предоставляют этот контент пользователям. REP также включает такие директивы, как метароботы, а также инструкции для страницы, подкаталога или сайта о том, как поисковые системы должны обрабатывать ссылки (например, «follow» или «nofollow»).

На практике файлы robots.txt указывают, могут ли определенные пользовательские агенты (программное обеспечение для веб-сканирования) сканировать части веб-сайта. Эти инструкции по обходу указываются путем «запрета» или «разрешения» определенных (или всех) пользовательских агентов.

Основной формат:

Вместе эти две строки считаются полным файлом robots.txt, хотя один файл robots может содержать несколько строк пользовательских агентов и директив (например, запрещает, разрешает, задерживает сканирование и т. д.).

В файле robots.txt каждый набор директив пользовательского агента отображается как отдельный набор, разделенный разрывом строки:

Директивы агента пользователя, указанные разрывами строк.

В файле robots.txt с несколькими директивами пользовательского агента каждое запрещающее или разрешающее правило применяется только к пользовательскому агенту (агентам), указанным в этом конкретном наборе, разделенном разрывом строки. Если файл содержит правило, которое применяется более чем к одному пользовательскому агенту, сканер будет обращать внимание (и следовать указаниям) только на наиболее конкретную группу инструкций.

Вот пример:

Msnbot, discobot и Slurp вызываются специально, поэтому эти пользовательские агенты будут обращать внимание только на директивы в своих разделах файла robots.txt. Все остальные пользовательские агенты будут следовать директивам в группе пользовательских агентов: *.

Пример robots.txt:

Блокировка всех поисковых роботов для всего контента
Предоставление всем поисковым роботам доступа ко всему контенту
Блокировка определенного поискового робота в определенной папке
Блокировка определенного поискового робота на определенной веб-странице

Как работает файл robots.txt?

Поисковые системы выполняют две основные функции:

  1. Сканирование в Интернете для обнаружения контента;
  2. Индексировать этот контент, чтобы его можно было показывать пользователям, которые ищут информацию.

Чтобы сканировать сайты, поисковые системы переходят по ссылкам, чтобы перейти с одного сайта на другой, и в конечном итоге сканируют многие миллиарды ссылок и веб-сайтов. Такое поведение сканирования иногда называют «пауками».

После перехода на веб-сайт, но до его сканирования, поисковый робот будет искать файл robots.txt. Если он найдет его, сканер сначала прочитает этот файл, прежде чем продолжить просмотр страницы. Поскольку файл robots.txt содержит информацию о том, как должна сканировать поисковая система, найденная в нем информация будет указывать дальнейшие действия сканера на этом конкретном сайте. Если файл robots.txt не содержит какие-либо директивы, запрещающие действия пользовательского агента (или если на сайте нет файла robots.txt), он продолжит сканирование другой информации на сайт.

Другие важные сведения о файле robots.txt:

(более подробно обсуждается ниже)

Чтобы его можно было найти, файл robots.txt должен быть помещен в каталог верхнего уровня веб-сайта.

Robots.txt чувствителен к регистру: файл должен называться «robots.txt» (не Robots.txt, robots.TXT и т. д.).

Некоторые пользовательские агенты (роботы) могут игнорировать ваш файл robots.txt. Это особенно характерно для более опасных поисковых роботов, таких как вредоносные роботы или программы для очистки адресов электронной почты.

Файл /robots.txt является общедоступным: просто добавьте /robots.txt в конец любого корневого домена, чтобы увидеть директивы этого веб-сайта (если на этом сайте есть файл robots.txt! ). Это означает, что любой может видеть, какие страницы вы сканируете, а какие не хотите, поэтому не используйте их для сокрытия личной информации пользователя.

Как правило, рекомендуется указывать расположение любых файлов Sitemap, связанных с этим доменом, в нижней части файла robots.txt. Вот пример:

 Файлы Sitemap в robots.txt

Выявление критических предупреждений robots.txt с помощью Moz Pro

Функция сканирования сайта Moz Pro проверяет ваш сайт на наличие проблем и выделяет срочные ошибки, которые могут помешать вам появиться в Google. Воспользуйтесь 30-дневной бесплатной пробной версией и узнайте, чего вы можете достичь:

Технический синтаксис robots.txt

Синтаксис robots.txt можно рассматривать как «язык» файлов robots.txt. Есть пять общих терминов, которые вы, вероятно, встретите в файле robots. К ним относятся:

Агент пользователя: определенный поисковый робот, которому вы даете инструкции по сканированию (обычно это поисковая система). Список большинства пользовательских агентов можно найти здесь.

Запретить: команда, используемая для указания агенту пользователя не сканировать определенный URL-адрес. Для каждого URL допускается только одна строка «Запретить:».

Разрешить (применимо только для робота Googlebot): команда, сообщающая роботу Googlebot, что он может получить доступ к странице или вложенной папке, даже если его родительская страница или вложенная папка могут быть запрещены.

Crawl-delay: сколько секунд должен ждать сканер перед загрузкой и сканированием содержимого страницы. Обратите внимание, что Googlebot не подтверждает эту команду, но скорость сканирования можно установить в Google Search Console.

Карта сайта: используется для указания местоположения любой карты сайта в формате XML, связанной с этим URL-адресом. Обратите внимание, что эта команда поддерживается только Google, Ask, Bing и Yahoo.

Соответствие шаблону

Когда дело доходит до фактических URL-адресов, которые нужно блокировать или разрешать, файлы robots.txt могут быть довольно сложными, поскольку они позволяют использовать сопоставление с шаблоном для охвата диапазона возможных вариантов URL-адресов. Google и Bing поддерживают два регулярных выражения, которые можно использовать для идентификации страниц или подпапок, которые SEO хочет исключить. Этими двумя символами являются звездочка (*) и знак доллара ($).

  • * – это подстановочный знак, обозначающий любую последовательность символов.
  • $ соответствует концу URL

Google предлагает большой список возможных вариантов синтаксиса сопоставления с образцом и примеры здесь.

Где файл robots.txt размещается на сайте?

Чтобы убедиться, что ваш файл robots.txt найден, всегда включайте его в свой основной каталог или корневой домен.

Зачем вам нужен файл robots.txt?

Файлы robots.txt контролируют доступ поисковых роботов к определенным областям вашего сайта. Хотя это может быть очень опасно, если вы случайно запретите роботу Googlebot сканировать весь ваш сайт (!!), в некоторых ситуациях файл robots.txt может оказаться очень полезным.

Некоторые распространенные варианты использования включают:

  • Предотвращение дублирования контента в поисковой выдаче (обратите внимание, что метароботы часто лучше подходят для этого)
  • Сохранение конфиденциальности целых разделов веб-сайта (например, пробного сайта вашей инженерной группы)
  • Предотвращение отображения страниц с результатами внутреннего поиска в общедоступной поисковой выдаче.
  • Указание местоположения файлов Sitemap
  • Предотвращение индексации поисковыми системами определенных файлов на вашем веб-сайте (изображений, PDF-файлов и т. д.)
  • Указание задержки сканирования, чтобы предотвратить перегрузку серверов, когда сканеры одновременно загружают несколько фрагментов контента.

Если на вашем сайте нет областей, к которым вы хотите контролировать доступ агента пользователя, возможно, вам вообще не нужен файл robots.txt.

Проверка наличия файла robots.txt

Если страница .txt не отображается, у вас в настоящее время нет (действующей) страницы robots.txt.

Как создать файл robots.txt

Если вы обнаружили, что у вас нет файла robots.txt или вы хотите изменить свой, создать его несложно. В этой статье Google рассматривается процесс создания файла robots.txt, и этот инструмент позволяет вам проверить, правильно ли настроен ваш файл.

Хотите попрактиковаться в создании файлов robots? В этом сообщении блога рассматриваются некоторые интерактивные примеры.

Оптимальные методы SEO

Убедитесь, что вы не блокируете содержание или разделы своего веб-сайта, которые хотите просканировать.

Ссылки на страницы, заблокированные файлом robots.txt, не будут открываться. Это означает, что 1.) Если на них также не ссылаются другие страницы, доступные для поисковых систем (т. е. страницы, не заблокированные через robots.txt, meta robots или иным образом), связанные ресурсы не будут сканироваться и не могут быть проиндексированы. 2.) Никакой вес ссылок не может быть передан с заблокированной страницы на место назначения ссылки. Если у вас есть страницы, на которые вы хотите передать право собственности, используйте другой механизм блокировки, отличный от robots.txt.

Не используйте robots.txt, чтобы предотвратить появление конфиденциальных данных (например, личной информации пользователя) в результатах поисковой выдачи. Поскольку другие страницы могут напрямую ссылаться на страницу, содержащую личную информацию (таким образом, в обход директив robots.txt на вашем корневом домене или домашней странице), она все равно может быть проиндексирована. Если вы хотите заблокировать свою страницу в результатах поиска, используйте другой метод, например защиту паролем или мета-директиву noindex.

Некоторые поисковые системы имеют несколько пользовательских агентов. Например, Google использует Googlebot для обычного поиска и Googlebot-Image для поиска изображений. Большинство пользовательских агентов одной и той же поисковой системы следуют одним и тем же правилам, поэтому нет необходимости задавать директивы для каждого из нескольких поисковых роботов поисковой системы, но возможность сделать это позволяет точно настроить сканирование содержимого вашего сайта.< /p>

Роботы Google бывают двух типов. Самостоятельно (поисковые) возникают автоматически и аварийные ситуации для роботов (REP). Это означает, что перед сканированием сайта они скачивают и анализируют файл robots.txt, чтобы узнать, какие разделы сайта для них открыты.Другие контролируются пользователями (например, собирают контент для фидов), проявляются или проявляются в их безопасности (например, выютывают вредоносное ПО). Они не соответствуют этому стандарту.

Что такое файл robots.txt

Расположение и область действия файла

Правила, перечисленные в файле robots.txt, исключительно в отношении хоста, где находится тот файл, и протокол и номер порта, по доступу к этому файлу.

Примеры действительных URL файла robots.txt

Примеры URL-адреса файла robots.txt и URL-адреса, для которых они указаны, приведены в таблице ниже.

Google не вызывает случая перенаправления в файлах robots.txt (обновление фреймов, JavaScript или метатегов).

Поисковые роботы Google воспринимают все ошибки 4xx (кроме ошибок 429 ) так, как если бы действительно отсутствовал файл robots.txt. При этом сканирование стоило без ограничений.

Кеширование

Формат файла

В файле robots.txt должен быть стандартный текст в кодировке UTF-8. В качестве разделителей строк используются символы CR , CR/LF и LF .

Добавляемая в начало файла robots.txt метка порядка байтов Unicode BOM увеличивается, как и недопустимые строки. Например, если вместо правил robots.txt Google предоставляет HTML-контент, система загружает контент и правила потребления. Все остальное будет проигнорировано.

Если для файла robots.txt используется не UTF-8, другая кодировка, Google может проигнорировать символы, не встречающиеся в UTF-8. В таких случаях правила из файла robots.txt не будут работать.

В настоящее время максимальный размер файла, установленный Google, составляет 500 кибибайт (КиБ). Содержание сверх этого лимита ухудшается. Чтобы не превысить его, применяйте более общие директивы. Например, поместите все материалы, которые не нужно сканировать, в один каталог.

Синтаксис

Google поддерживает поля:

  • user-agent : агент пользователя робота, для участия в котором действует правило.
  • разрешить : URL-адрес пути, который можно сканировать.
  • disallow : URL пути, который запрещено сканировать.
  • карта сайта: полный URL файла Sitemap.

Поля allow и disallow также подвержены директивам. Они всегда задаются в директиве формата: [путь] , где значение [путь] указывается необязательно. По умолчанию роботы могут сканировать весь контент. Они продвигают директивы без [path] .

Значения [путь] удалено от корневого каталога сайта, на котором находится файл robots.txt (используется тот же протокол, порт, хост и домен). Значение пути начинается с символа / , открытие корневого каталога. Регистр Подробнее о значении соответствия различных путей URL…

агент пользователя

Строка user-agent определяется по правилу участия в роботах. Полный список поисковых роботов Google и строки для различных агентов пользователя, которые можно добавить в файл robots.txt, вы можете найти здесь.

Значение строки пользовательского агента вычисляется без учета регистра.

запретить

Директива disallow определяет, какие пути не должны сканироваться поисковыми роботами, нацелены на строки агента пользователя, с которым сгруппирована директива disallow . Роботы рекомендуют директиву без указаний пути.

Значение директивы запрещает перечисление с учетом регистра.

разрешить

Директива позволяет пути определить, которые могут сканироваться поисковыми роботами. Если путь не указан, она думается.

Значение директивы позволяет вычислять с учетом регистра.

карта сайта

Значение поля карта сайта упоминается с учетом регистра.

Строка [absoluteURL] ошибка в расположении файла Sitemap или файла индекса Sitemap. URL-адрес должен быть полным, с доступом к протоколу и хосту. Нет необходимости кодировать URL. URL-адрес хоста не обязательно должен быть таким же, как и у файла robots.txt. Вы можете добавить несколько полей карта сайта . Эти поля не покрываются каким-либо эмоциональным агентом пользователя. Если их сканирование не запрещено, они распространяются на всех поисковых роботов.

Группировка строк и правил

Вы можете группировать правила, которые применяются для разных агентов пользователей. Просто введите строку user-agent для каждого поискового робота.

В этом распространении четыре группы правил:

  • первая – для агента пользователя "a";
  • вторая – для агента пользователя "b";
  • третья – одновременно для агентов пользователей "e" и "f";
  • четвертая – для агента пользователя "h".

Техническое описание группы вы можете найти в разделе 2.1 этого документа.

Приоритет агентов пользователей

Для отдельного поискового робота действительна только одна группа. Он должен найти ту, в которой наиболее конкретно указан агент пользователя из числа подходящих. Другие группы страдают.Весь неподходящий текст кажется. Например, значения googlebot/1.2 и googlebot* эквивалентны настройке googlebot . Порядок группы в файле robots.txt не важен.

Если агенту пользователя соответствует несколько групп, то все основные правила из всех групп объединяются в одну. Группы, представляющие интерес для агентов, не объединяются с общими группами пользователей, которые имеют определенное значение * .

Примеры

Сопоставление полей user-agent

Поисковые роботы вы берете нужные группы советующим образом:

Группировка правил

Если в файле robots.txt есть несколько групп для определенного агента пользователя, высокая вероятность объединения этой группы. Пример:

Поисковые роботы объединяются с учетом правил агента пользователя, как указано в описании кода ниже.

Парсер для файлов robots.txt подчеркивает все правила, кроме следующих: allow , disallow , user-agent . В результате указанный фрагмент файла robots.txt представляет собой единую группу и, как правило, запрещает: / : встречает как на user-agent a , так и на b :

При обработке правил в файле robots.txt поисковые роботы портят карту сайта . Например, вот как роботы обработали приведенный выше фрагмент файла robots.txt:

Соответствие значения пути URL

Google использует стандартные пути в директивах allow и disallow , чтобы определить, должно ли правило охватывать авторитетное URL-адрес на сайте. Для этого обычно используется поисковый робот. Символы, не входящие в набор 7-битных символов ASCII, можно указать в виде отображаемых значений в кодировке UTF-8 (см. RFC 3986).

Google, Bing и другие широкомасштабные поисковые системы устойчивости личности подстановочные признаки для путей:

  • * обозначает 0 или более вхождений любого действительного символа.
  • $ отмечает конец URL.

Соответствует всем путям, которые начинаются с /fish .

  • /рыба
  • /fish.html
  • /fish/salmon.html
  • /рыбные головы
  • /fishheads/yummy.html
  • /fish.php?id=все
  • /Fish.asp
  • /сом
  • /?id=рыба
  • /пустыня/рыба

Аналогичен элементу /fish . Подстановочный знак рекламируется.

  • /рыба
  • /fish.html
  • /fish/salmon.html
  • /рыбные головы
  • /fishheads/yummy.html
  • /fish.php?id=все

Соответствует распространенным элементам в папке /fish/ .

  • /рыба/
  • /животные/рыбы/
  • /fish/?id=что-нибудь
  • /fish/salmon.htm

Соответствует всем путям, которые встречаются .php .

  • /index.php
  • /имя_файла.php
  • /папка/имя_файла.php
  • /folder/filename.php?parameters
  • /folder/any.php.file.html
  • /имя_файла.php/
  • / ( хотя и соответствует /index.php)
  • /windows.PHP

Соответствует всем путям, которые заканчиваются на .php .

  • /filename.php?параметры
  • /имя_файла.php/
  • /имя_файла.php5
  • /windows.PHP

Соответствует всем путям, которые встречаются /fish и .php (именно в таком порядке).

  • /fish.php
  • /fishheads/catfish.php?параметры

Не соответствует: /Fish.PHP

Порядок применения правил

Когда роботы соотносят правила из файла robots.txt с URL-адресом, они используют самое строгое правило (с более длительным значением пути). При наличии конфликтующих правил (в том числе с подстановочными знаками) выявляется то, что предполагает наименьшие ограничения.

Ознакомьтесь с примерами ниже.

Применяемое правило: allow: /p , поскольку оно наиболее строгое.

Применяемое правило: allow: /folder , поскольку при наличии конфликтующих правил используется предельная строгость.

Применяемое правило: disallow: /*.htm, поскольку оно имеет более длинное значение пути и точнее указывает с символами в URL, поэтому является более строгим.

Применяемое правило: allow: /page , поскольку при наличии конфликтующих правил используется крайне строгое.

Применяемое правило: allow: /$ , поскольку оно наиболее строгое.

Применяемое правило: disallow: / , поскольку правило разрешает действовать только для корневого URL.

Если не указано иное, содержимое этой страницы предоставляется по лицензии Creative Commons Attribution 4.0, а образцы кода — по лицензии Apache 2.0. Подробнее см. в Правилах сайта Google Developers. Java является зарегистрированным товарным знаком Oracle и/или ее дочерних компаний.

В файле robots.txt встречаются инструкции, которые говорят поисковым роботам, какие URL-адреса на следующем сайте им разрешено обрабатывать.С его помощью можно уменьшить количество поступающих на сканирование и тем самым уменьшить нагрузку на сайт. Файл robots.txt не предназначен для того, чтобы запретить показ ваших материалов в разделе Google. Если вы не хотите, чтобы какие-либо сайты были представлены в Google, добавьте страницы на их директиву no onlyindex или выполните их доступными по паролю.

Для чего служит файл robots.txt

Файл robots.txt используется главным образом для управления трафиком поисковых роботов. Как правило, с его помощью также можно поддерживать содержание результатов поиска Google (это зависит от типа накопления).

Файл robots.txt позволяет управлять сканированием веб-страниц в форматах, которые робот Googlebot может обработать (он поддерживает, например, HTML или PDF, но неиспользуемые файлы). С помощью вы можете уменьшить количество поступающих, которые Google отправляет на ваш сервер или запрещает сканировать разделы сайта, в которых содержится неважная или повторяющаяся информация.

Файл robots.txt не предназначен для блокировки показа веб-страницы в офисе Google.

Если на странице приведены ссылки с информативным текстом, размещенные на других сайтах, то робот Googlebot может добавить эту страницу в индекс, даже не открывая. Чтобы исправить ее из результатов поиска, следует использовать другой метод, например, заблокировать доступ к ней с помощью алгоритма или директивы noindex .

Файл robots.txt может использоваться как для управления трафиком поисковых роботов, так и для блокировки показа изображений, видеороликов и аудиофайлов в офисе поиска Google. Такая блокировка не мешает другим владельцам сайтов и пользователей пользоваться услугами вашего медиаконтента. Советуем ознакомиться с популярными статьями:

Какие кадры при сборе файла robots.txt

Прежде чем создать или изменить файл robots.txt, проанализируйте риски, связанные с этим методом. Иногда для запрета индексирования URL лучше выбирать другие средства.

Как создать файл robots.txt

Если не указано иное, содержимое этой страницы предоставляется по лицензии Creative Commons Attribution 4.0, а образцы кода — по лицензии Apache 2.0. Подробнее см. в Правилах сайта Google Developers. Java является зарегистрированным товарным знаком Oracle и/или ее дочерних компаний.


Файл robots.txt — это один из основных способов сообщить поисковой системе, где на вашем веб-сайте можно, а где нельзя. Все основные поисковые системы поддерживают основные функции, которые они предлагают, но некоторые из них реагируют на некоторые дополнительные правила, которые также могут быть полезны. В этом руководстве описаны все способы использования файла robots.txt на вашем веб-сайте.

Внимание!

Любые ошибки, допущенные вами в файле robots.txt, могут серьезно повредить вашему сайту, поэтому убедитесь, что вы прочитали и поняли всю эту статью, прежде чем погрузиться в нее.

Оглавление

Что такое файл robots.txt?

Указания по сканированию

Файл robots.txt является одной из директив сканирования. У нас есть руководства по всем из них, и вы найдете их здесь.

Файл robots.txt – это текстовый файл, который считывается поисковой системой (и другими системами). Файл robots.txt, также называемый «Протокол исключения роботов», является результатом консенсуса среди первых разработчиков поисковых систем. Это не официальный стандарт, установленный какой-либо организацией по стандартизации; хотя его придерживаются все основные поисковые системы.

Что делает файл robots.txt?

Кэширование

Поисковые системы обычно кешируют содержимое файла robots.txt, поэтому им не нужно его загружать, но обычно они обновляют его несколько раз в день. Это означает, что изменения в инструкциях обычно отражаются довольно быстро.

Поисковые системы обнаруживают и индексируют Интернет, сканируя страницы. По мере сканирования они обнаруживают ссылки и переходят по ним. Это переносит их с сайта A на сайт B, затем на сайт C и так далее. Но прежде чем поисковая система посетит любую страницу домена, с которой она раньше не сталкивалась, она откроет файл robots.txt этого домена. Это позволяет им узнать, какие URL-адреса на этом сайте им разрешено посещать (а какие нет).

Куда мне поместить файл robots.txt?

Также очень важно, чтобы ваш файл robots.txt действительно назывался robots.txt. Имя чувствительно к регистру, поэтому сделайте это правильно, иначе оно просто не будет работать.

Плюсы и минусы использования robots.txt

Pro: управление краулинговым бюджетом

Принято считать, что поисковый паук заходит на веб-сайт с заранее определенным «допуском» в отношении того, сколько страниц он будет сканировать (или сколько ресурсов/времени он потратит, в зависимости от авторитетности/размера/размера сайта). репутацию и насколько эффективно отвечает сервер). Оптимизаторы называют это бюджетом сканирования.

Если вы считаете, что у вашего веб-сайта проблемы с краулинговым бюджетом, то запрет поисковым системам "растрачивать" энергию на несущественные части вашего сайта может означать, что вместо этого они сосредоточатся на тех разделах, которые действительны.

Иногда может быть полезно запретить поисковым системам сканировать проблемные разделы вашего сайта, особенно на тех сайтах, где необходимо выполнить большую SEO-очистку. После того, как вы уберете вещи, вы можете впустить их обратно.

Примечание о блокировке параметров запроса

Одна из ситуаций, когда краулинговый бюджет особенно важен, — это когда на вашем сайте используется множество параметров строки запроса для фильтрации или сортировки списков. Допустим, у вас есть 10 различных параметров запроса, каждый из которых имеет разные значения, которые можно использовать в любой комбинации (например, футболки разных цветов и размеров). Это приводит к множеству возможных допустимых URL-адресов, и все они могут быть просканированы. Блокирование сканирования параметров запроса поможет убедиться, что поисковая система просматривает только основные URL-адреса вашего сайта и не попадет в огромную ловушку, которую вы в противном случае создали бы.

Против: страница не удаляется из результатов поиска

Несмотря на то, что вы можете использовать файл robots.txt, чтобы сообщить роботу-пауку, куда ему нельзя заходить на вашем сайте, вы не можете использовать его, чтобы указать поисковой системе, какие URL не показывать в результаты поиска – другими словами, его блокировка не остановит его индексацию. Если поисковая система найдет достаточное количество ссылок на этот URL, она включит его, просто не будет знать, что находится на этой странице. Таким образом, ваш результат будет выглядеть так:


Если вы хотите надежно заблокировать отображение страницы в результатах поиска, вам нужно использовать метатег robots noindex. Это означает, что для того, чтобы найти тег noindex, поисковая система должна иметь доступ к этой странице, поэтому не блокируйте ее с помощью robots.txt.

Директивы Noindex

Раньше можно было добавить директивы noindex в файл robots.txt, чтобы удалить URL-адреса из результатов поиска Google и избежать появления этих «фрагментов». Это больше не поддерживается (и технически никогда не поддерживалось).

Против: не распространяет значение ссылки

Если поисковая система не может просканировать страницу, она не может распределить значение ссылки по ссылкам на этой странице. Когда страница заблокирована с помощью robots.txt, это тупик. Любое значение ссылки, которое могло попасть на эту страницу (и пройти через нее), будет потеряно.

Синтаксис robots.txt

WordPress robots.txt

У нас есть целая статья о том, как лучше всего настроить файл robots.txt для WordPress. Не забывайте, что вы можете редактировать файл robots.txt своего сайта в разделе Инструменты Yoast SEO → Редактор файлов.

Файл robots.txt состоит из одного или нескольких блоков директив, каждый из которых начинается со строки пользовательского агента. «User-agent» — это имя конкретного паука, к которому он обращается. Вы можете иметь один блок для всех поисковых систем, используя подстановочный знак для пользовательского агента, или отдельные блоки для определенных поисковых систем. Поисковый робот всегда выбирает блок, который лучше всего соответствует его названию.

Эти блоки выглядят так (не пугайтесь, мы объясним ниже):

Директивы, такие как Разрешить и Запретить, не должны быть чувствительны к регистру, поэтому вам решать, писать ли их строчными буквами или заглавными. Значения вводятся с учетом регистра, однако /photo/ не совпадает с /Photo/ . Нам нравится писать директивы с заглавной буквы, потому что это облегчает чтение файла (для людей).

Директива агента пользователя

Первым битом каждого блока директив является пользовательский агент, который идентифицирует конкретного паука. Поле user-agent сопоставляется с user-agent конкретного паука (обычно более длинного), поэтому, например, наиболее распространенный паук от Google имеет следующий user-agent:

Поэтому, если вы хотите сказать этому пауку, что делать, достаточно простой строки User-agent: Googlebot.

Большинство поисковых систем имеют несколько поисковых роботов. Они будут использовать определенный поисковый робот для своего обычного индекса, для своих рекламных программ, для изображений, для видео и т. д.

Поисковые системы всегда выбирают наиболее конкретный блок директив, который они могут найти. Допустим, у вас есть 3 набора директив: один для * , один для Googlebot и один для Googlebot-News . Если приходит бот, чей пользовательский агент Googlebot-Video, он будет следовать ограничениям Googlebot. Бот с пользовательским агентом Googlebot-News будет использовать более конкретные директивы Googlebot-News.

Наиболее распространенные пользовательские агенты для поисковых роботов

Вот список пользовательских агентов, которые вы можете использовать в файле robots.txt для соответствия наиболее часто используемым поисковым системам:

< td>Общие
Поисковая системаПолеАгент пользователя
BaiduОбщие baiduspider
BaiduИзображения baiduspider-image
BaiduMobile baiduspider-mobile
BaiduНовости baiduspider-news
BaiduВидео baiduspider -video
BingОбщие bingbot
BingОбщие msnbot
BingИзображения и видео msnbot-media< /td>
BingРеклама adidxbot
Google Googlebot
GoogleИзображения Googlebot-Image
GoogleMobile Googlebot-Mobile
GoogleНовости Googlebot-Новости
GoogleВидео Googlebot-Видео
GoogleAdSense Мед iapartners-Google
GoogleAdWords AdsBot-Google
Yahoo!Общие slurp
ЯндексОбщие yandex< /td>

Директива запрета

Второй строкой в ​​любом блоке директив является строка Disallow. У вас может быть одна или несколько таких строк, указывающих, к каким частям сайта не может получить доступ указанный паук. Пустая строка Disallow означает, что вы ничего не запрещаете, поэтому в основном это означает, что паук может получить доступ ко всем разделам вашего сайта.

Приведенный ниже пример заблокирует сканирование вашего сайта всеми поисковыми системами, которые «прослушивают» файл robots.txt.

Если в приведенном ниже примере всего на один символ меньше, разрешить всем поисковым системам сканировать весь ваш сайт.

В приведенном ниже примере Google не сможет сканировать каталог фотографий на вашем сайте и все, что в нем находится.

Это означает, что все подкаталоги каталога /Photo также не будут сканироваться. Это не блокировало бы Google от сканирования каталога /photo, поскольку эти строки чувствительны к регистру.

Это также заблокирует доступ Google к URL-адресам, содержащим /Photo , например /Photography/ .

Как использовать подстановочные знаки/регулярные выражения

Официально стандарт robots.txt не поддерживает регулярные выражения или подстановочные знаки, однако его понимают все основные поисковые системы. Это означает, что вы можете использовать такие строки для блокировки групп файлов:

В приведенном выше примере * заменяется на любое имя файла, которому оно соответствует. Обратите внимание, что остальная часть строки по-прежнему чувствительна к регистру, поэтому вторая строка выше не блокирует сканирование файла с именем /copyrighted-images/example.JPG.

Некоторые поисковые системы, например Google, позволяют использовать более сложные регулярные выражения, но имейте в виду, что некоторые поисковые системы могут не понимать эту логику. Самая полезная функция, которую это добавляет, — это $, который указывает на конец URL-адреса. В следующем примере вы можете увидеть, что это делает:

Это означает, что /index.php нельзя индексировать, но /index.php?p=1 может индексироваться. Конечно, это полезно только в очень специфических обстоятельствах, а также довольно опасно: легко разблокировать то, что вы на самом деле не хотели разблокировать.

Нестандартные директивы сканирования robots.txt

Помимо директив Disallow и User-agent, вы можете использовать еще несколько директив сканирования. Эти директивы поддерживаются не всеми сканерами поисковых систем, поэтому убедитесь, что вы знаете об их ограничениях.

Директива разрешения

Хотя в исходной «спецификации» этого не было, в самом начале речь шла о разрешающей директиве. Похоже, что большинство поисковых систем его понимают, и он позволяет использовать простые и легко читаемые директивы, подобные этим:

Единственным другим способом достижения того же результата без директивы allow было бы специально запретить каждый отдельный файл в папке wp-admin.

Директива хоста

Директива о задержке сканирования

Иногда Bing и Яндекс могут быть очень требовательны к сканированию, но, к счастью, все они реагируют на директиву о задержке сканирования, которая замедляет их работу. И хотя эти поисковые системы немного по-разному читают директиву, конечный результат в основном одинаков.

Строка, подобная приведенной ниже, указывает этим поисковым системам изменить частоту запросов страниц на вашем сайте.

Разные интерпретации

Обратите внимание, что Bing интерпретирует это как указание подождать 10 секунд после сканирования, а Яндекс интерпретирует это как указание заходить на ваш сайт только один раз в каждые 10 секунд. Это небольшая разница, но все равно интересно узнать.

Соблюдайте осторожность при использовании директивы Crawl-delay. Установив задержку сканирования на 10 секунд, вы разрешаете этим поисковым системам доступ только к 8640 страницам в день. Этого может показаться много для небольшого сайта, но на больших сайтах этого не так много.С другой стороны, если вы почти не получаете трафика от этих поисковых систем, это хороший способ сэкономить трафик.

Директива карты сайта для файлов Sitemap в формате XML

Используя директиву карты сайта, вы можете указать поисковым системам, в частности Bing, Yandex и Google, где найти вашу XML-карту сайта. Конечно, вы также можете отправлять свои XML-карты сайта в каждую поисковую систему, используя соответствующие инструменты для веб-мастеров, и мы настоятельно рекомендуем вам это делать, потому что программы инструментов для веб-мастеров поисковых систем предоставят вам много ценной информации о вашем сайте. Если вы не хотите этого делать, хорошей быстрой альтернативой будет добавление строки карты сайта в файл robots.txt.

Проверьте файл robots.txt

Существуют различные инструменты, которые могут помочь вам проверить файл robots.txt, но когда дело доходит до проверки директив сканирования, мы всегда предпочитаем обращаться к источнику. У Google есть инструмент тестирования robots.txt в консоли поиска Google (в меню «Старая версия»), и мы настоятельно рекомендуем использовать его:


Тестирование файла robots.txt в Google Search Console

Не забудьте тщательно протестировать свои изменения, прежде чем вводить их в действие! Вы не будете первым, кто случайно использует robots.txt, чтобы заблокировать весь ваш сайт и попасть в забвение поисковой системы!

Посмотреть код

В июле 2019 г. компания Google объявила, что открывает исходный код парсера robots.txt. Это означает, что если вы действительно хотите разобраться в тонкостях, вы можете пойти и посмотреть, как работает их код (и даже использовать его самостоятельно или предложить модификации).

Йост де Валк – основатель и директор по продукту Yoast. Он интернет-предприниматель, который помимо основания Yoast инвестировал и консультировал несколько стартапов. Его основная специализация — разработка программного обеспечения с открытым исходным кодом и цифровой маркетинг.

Читайте также: