Исправьте текстовый файл robots
Обновлено: 24.11.2024
Robots.txt — это файл, который сообщает поисковым роботам, что определенные страницы или разделы веб-сайта не должны сканироваться. Большинство основных поисковых систем (включая Google, Bing и Yahoo) распознают и обрабатывают запросы Robots.txt.
Почему Robots.txt важен?
Большинству веб-сайтов файл robots.txt не нужен.
Это связано с тем, что Google обычно может найти и проиндексировать все важные страницы вашего сайта.
И они НЕ будут автоматически индексировать страницы, которые не важны, или дублировать версии других страниц.
Тем не менее, есть 3 основные причины, по которым вы хотели бы использовать файл robots.txt.
Блокировка закрытых страниц. Иногда на вашем сайте есть страницы, которые вы не хотите индексировать. Например, у вас может быть промежуточная версия страницы. Или страница входа. Эти страницы должны существовать. Но вы же не хотите, чтобы на них попадали случайные люди. Это тот случай, когда вы должны использовать robots.txt, чтобы заблокировать эти страницы от сканеров поисковых систем и ботов.
Максимум краулингового бюджета. Если вам сложно проиндексировать все ваши страницы, возможно, у вас проблемы с краулинговым бюджетом. Блокируя неважные страницы с помощью файла robots.txt, робот Googlebot может тратить больше вашего краулингового бюджета на страницы, которые действительно важны.
Предотвращение индексации ресурсов. Использование метадиректив может работать так же хорошо, как и файл robots.txt, для предотвращения индексации страниц. Однако метадирективы плохо работают с мультимедийными ресурсами, такими как PDF-файлы и изображения. Вот где в игру вступает robots.txt.
Вывод? Robots.txt указывает поисковым роботам не сканировать определенные страницы вашего веб-сайта.
Вы можете проверить количество проиндексированных страниц в Google Search Console.
Если число соответствует количеству страниц, которые вы хотите проиндексировать, вам не нужно возиться с файлом Robots.txt.
Но если это число выше, чем вы ожидали (и вы заметили проиндексированные URL-адреса, которые не должны быть проиндексированы), пришло время создать файл robots.txt для вашего веб-сайта.
Рекомендации
Создайте файл robots.txt
Ваш первый шаг – создать файл robots.txt.
Поскольку это текстовый файл, вы можете создать его с помощью блокнота Windows.
И неважно, как вы в конечном итоге создадите файл robots.txt, его формат останется прежним:
User-agent — это конкретный бот, с которым вы разговариваете.
И все, что идет после слова «запретить», — это страницы или разделы, которые вы хотите заблокировать.
Вот пример:
Агент пользователя: googlebot
Запретить: /images
Это правило указывает роботу Googlebot не индексировать папку с изображениями на вашем веб-сайте.
Вы также можете использовать звездочку (*), чтобы обратиться ко всем без исключения ботам, которые заходят на ваш сайт.
Вот пример:
Агент пользователя: *
Запретить: /images
Значок "*" указывает всем поисковым роботам НЕ сканировать вашу папку с изображениями.
Это лишь один из многих способов использования файла robots.txt. Это полезное руководство от Google содержит дополнительную информацию о различных правилах, которые вы можете использовать, чтобы запретить или разрешить ботам сканировать разные страницы вашего сайта.
Сделайте так, чтобы файл robots.txt было легко найти
После того как у вас есть файл robots.txt, пришло время запустить его.
Технически вы можете поместить файл robots.txt в любой основной каталог вашего сайта.
Но чтобы повысить вероятность того, что ваш файл robots.txt будет найден, я рекомендую разместить его по адресу:
(Обратите внимание, что ваш файл robots.txt чувствителен к регистру. Поэтому обязательно используйте строчную букву «r» в имени файла)
Проверить наличие ошибок и недочетов
ДЕЙСТВИТЕЛЬНО важно, чтобы файл robots.txt был настроен правильно. Одна ошибка, и весь ваш сайт может быть деиндексирован.
К счастью, вам не нужно надеяться, что ваш код настроен правильно. У Google есть отличный инструмент для тестирования роботов, который вы можете использовать:
Он показывает ваш файл robots.txt… и все ошибки и предупреждения, которые он находит:
Как видите, мы блокируем доступ пауков к нашей административной странице WP.
Мы также используем файл robots.txt, чтобы заблокировать сканирование автоматически созданных страниц тегов WordPress (для ограничения дублирования контента).
Robots.txt и метадирективы
Зачем использовать robots.txt, если можно заблокировать страницы на уровне страницы с помощью метатега noindex?
Как я упоминал ранее, тег noindex сложно применить к мультимедийным ресурсам, таким как видео и PDF-файлы.
Кроме того, если у вас есть тысячи страниц, которые вы хотите заблокировать, иногда проще заблокировать весь раздел этого сайта с помощью robots.txt, чем вручную добавлять тег noindex на каждую страницу.
Есть также крайние случаи, когда вы не хотите тратить краулинговый бюджет на переход Google на страницы с тегом noindex.
Если вы пользуетесь сервисом веб-хостинга (например, Wix или Blogger), скорее всего, вам никогда не понадобится файл robots.txt или у вас даже не будет такой возможности. Вместо этого ваш провайдер будет предоставлять систему поиска, необходимо ли сканировать ваш контент, с помощью настроек страницы поиска или другого инструмента.
Если вы хотите самостоятельно запретить или разрешить поисковый системный процесс обработки страницы вашего сайта, попробуйте найти информацию об этом в сервисе управления хостингом. Пример страницы запроса: "wix как скрыть от поисковых систем".
Ниже представлен пример простого файла robots.txt с представлением.
Более подробные сведения вы найдете в разделе Синтаксис.
Основные рекомендации по версии файла robots.txt
Работа с файлом robots.txt включает четыре этапа.
Как создать файл robots.txt
Создать файл robots.txt можно в любом редакторе текстов, таких как Блокнот, TextEdit, vi или Emacs. Не використовывайте офисные приложения, поскольку они часто сохраняют файлы в собственном формате и добавляют в них лишние символы, например, фигурные кавычки, которые не распознаются поисковыми роботами. Обязательно сохраните файл в кодировке UTF-8, если вам будет предложено выбрать кодировку.
Правила в отношении расположения и расположения файла
Как добавить правила в файл robots.txt
Правила – это инструкции для поисковых роботов, указывающие, какие разделы сайта можно сканировать. Добавьте правила в файл robots.txt, учите назначайте:
- Файл robots.txt состоит из одной или более групп.
- Каждая группа может отображать несколько правил по одной из строк. Эти правила также являются директивами или стандартами. Каждая группа начинается со строки User-agent, наблюдающей, какому роботу адресованы правила в ней.
- Группа содержит информацию:
- К какому агенту относятся директивы группы.
- К каким каталогам или файлам у этого агента есть доступ.
- К каким каталогам или файлам у этого агента нет доступа.
Директивы в файлах robots.txt, наличие роботов Google
Все директивы, кроме карты сайта, встречается подстановочный знак * для обозначения префикса или суффикса пути, а также всего пути.
Строки, некогда ни одной из этих директив, корректируются.
Ознакомьтесь со спецификацией Google для файлов robots.txt, где подробно представлены все директивы.
Как загрузить файл robots.txt
Сохраненный на компьютере файл robots.txt необходимо загрузить на сайт и сделать доступным для поиска роботов. Специального инструмента для этого не существует, поскольку загрузка зависит от вашего сайта и серверной архитектуры. Обратитесь к собственному хостинг-провайдеру или попробуйте самостоятельно найти его документацию (пример запроса: "загрузка файлов инфоманиак").
После загрузки файла robots.txt проверьте, доступен ли он для роботов и может ли Google обработать его.
Как протестировать разметку файла robots.txt
Для этой цели Google предлагает два средства:
- Инструмент проверки файла robots.txt в Search Console. Этот инструмент можно использовать только для файлов robots.txt, которые уже вышли на следующий сайт.
- Если вы разработчик, мы рекомендуем рекомендуемую библиотеку с исходным кодом, который также присоединен к Google Searche. С помощью этого инструмента файлы robots.txt можно настроить прямо на компьютере.
Когда вы загружаете и протестируете файл robots.txt, поисковые роботы Google автоматически наступают и начинают применение. С вашей стороны никаких действий не требуется. Если вы внесли в файл robots.txt изменения и хотите быстро обновить кешированную версию, следуйте за канцелярией в этой статье.
Полезные правила
Вот несколько часто встречающихся правил в файлах robots.txt.
Следует учесть, что в некоторых случаях URL-адрес сайта индексируется, даже если они не были просканированы.
Сканировать весь сайт может только робот googlebot-news .
Робот Unnecessarybot не может сканировать сайт, а все остальные базы данных.
Это правило запрещает сканирование отдельных страниц.
Например, можно запретить сканирование страницы useless_file.html .
Как правило, обнаруживается обнаружение изображения роботом Google Картинок.
Например, вы можете запретить сканировать изображение dogs.jpg .
Это правило скрывает все изображения на сайте робота Google Картинок.
Google не может индексировать изображения и видео, доступные для мощного компьютера.
Это правило запрещает сканировать все файлы определенного типа.
Например, вы можете запретить роботам доступ ко всем файлам .jpg .
Это правило запрещает сканировать весь сайт, но при этом он может загружаться роботом Mediapartners-Google
Робот Mediapartners-Google может получить доступ к удаленным пользователям из результатов поиска страницы, чтобы подобрать объявление для показа или иному пользователю.
Например, эта функция позволяет исправить все файлы .xls .
Если не указано иное, содержимое этой страницы предоставляется по лицензии Creative Commons Attribution 4.0, а образцы кода — по лицензии Apache 2.0. Подробнее см. в Правилах сайта Google Developers. Java является зарегистрированным товарным знаком Oracle и/или ее дочерних компаний.
В этом разделе нашего руководства по директивам для роботов мы более подробно расскажем о текстовом файле robots.txt и о том, как его можно использовать для инструктирования поисковых роботов. Этот файл особенно полезен для управления краулинговым бюджетом и обеспечения того, чтобы поисковые системы эффективно проводили время на вашем сайте и сканировали только важные страницы.
Для чего используется текстовый файл robots?
Файл robots.txt сообщает сканерам и роботам, какие URL-адреса на вашем веб-сайте им не следует посещать. Это важно, чтобы помочь им избежать сканирования страниц низкого качества или застревания в ловушках сканирования, где потенциально может быть создано бесконечное количество URL-адресов, например раздел календаря, который создает новый URL-адрес каждый день.
Как объясняет Google в своем руководстве по спецификациям robots.txt, формат файла должен быть простым текстом в кодировке UTF-8. Записи файла (или строки) должны быть разделены символами CR, CR/LF или LF.
Вы должны помнить о размере файла robots.txt, так как у поисковых систем есть собственные ограничения на максимальный размер файла. Максимальный размер для Google составляет 500 КБ.
Где должен находиться файл robots.txt?
Файл robots.txt всегда должен находиться в корне домена, например:
Когда следует использовать правила robots.txt?
Как правило, веб-сайты должны стараться как можно меньше использовать файл robots.txt для контроля сканирования. Гораздо лучшее решение — улучшить архитектуру вашего веб-сайта и сделать его чистым и доступным для поисковых роботов. Тем не менее, рекомендуется использовать файл robots.txt там, где это необходимо для предотвращения доступа поисковых роботов к разделам сайта низкого качества, если эти проблемы не могут быть устранены в ближайшее время.
Google рекомендует использовать robots.txt только в случае возникновения проблем с сервером или проблем с эффективностью сканирования, например, когда робот Googlebot тратит много времени на сканирование неиндексируемого раздела сайта.
- Страницы категорий с нестандартной сортировкой, так как это обычно приводит к дублированию страницы основной категории.
- Созданный пользователями контент, который нельзя модерировать
- Страницы с конфиденциальной информацией
- Внутренние страницы поиска, поскольку таких страниц результатов может быть бесконечное количество, что усложняет взаимодействие с пользователем и тратит впустую краулинговый бюджет.
Когда не следует использовать robots.txt?
Файл robots.txt — полезный инструмент при правильном использовании, однако бывают случаи, когда это не лучшее решение. Вот несколько примеров, когда не следует использовать файл robots.txt для управления сканированием:
1. Блокировка Javascript/CSS
Поисковые системы должны иметь доступ ко всем ресурсам на вашем сайте для правильного отображения страниц, что является необходимой частью поддержания хорошего рейтинга. Файлы JavaScript, которые существенно изменяют взаимодействие с пользователем, но не сканируются поисковыми системами, могут привести к ручным или алгоритмическим санкциям.
Например, если вы показываете межстраничное объявление или перенаправляете пользователей с помощью JavaScript, к которому у поисковой системы нет доступа, это может рассматриваться как маскировка, и рейтинг вашего контента может быть соответствующим образом скорректирован.
2. Блокировка параметров URL
Вы можете использовать robots.txt для блокировки URL-адресов, содержащих определенные параметры, но это не всегда лучший способ действий. Их лучше обрабатывать в консоли поиска Google, так как там есть больше параметров для конкретных параметров, чтобы сообщить Google о предпочтительных методах сканирования.
3. Блокировка URL-адресов с обратными ссылками
Запрет URL-адресов в файле robots.txt предотвращает переход ссылочного веса на веб-сайт.Это означает, что если поисковые системы не могут переходить по ссылкам с других веб-сайтов, поскольку целевой URL-адрес запрещен, ваш веб-сайт не получит авторитета, через который проходят эти ссылки, и в результате ваш рейтинг может ухудшиться.
4. Деиндексация проиндексированных страниц
Использование Disallow не приводит к деиндексации страниц, и даже если URL-адрес заблокирован и поисковые системы никогда не сканировали страницу, запрещенные страницы все равно могут быть проиндексированы. Это связано с тем, что процессы сканирования и индексирования в значительной степени разделены.
5. Установка правил, которые игнорируют сканеры социальных сетей
Даже если вы не хотите, чтобы поисковые системы сканировали и индексировали страницы, вы можете захотеть, чтобы социальные сети могли получить доступ к этим страницам, чтобы можно было создать фрагмент страницы. Например, Facebook попытается посетить каждую страницу, которая публикуется в сети, чтобы предоставить соответствующий фрагмент. Учитывайте это при настройке правил robots.txt.
6. Блокировка доступа с промежуточных сайтов или сайтов разработки
Использование файла robots.txt для блокировки всего пробного сайта не рекомендуется. Google рекомендует не индексировать страницы, но разрешить их сканирование, но в целом лучше сделать сайт недоступным для внешнего мира.
7. Когда нечего блокировать
Некоторым веб-сайтам с очень чистой архитектурой не нужно блокировать поисковые роботы на любых страницах. В этой ситуации вполне допустимо не иметь файла robots.txt и возвращать статус 404 по запросу.
Синтаксис и форматирование robots.txt
Теперь, когда мы узнали, что такое robots.txt и когда его следует и не следует использовать, давайте взглянем на стандартизированный синтаксис и правила форматирования, которых следует придерживаться при написании файла robots.txt.< /p>
Комментарии
Указание агента пользователя
Блок правил можно применить к определенным пользовательским агентам с помощью директивы User-agent. Например, если вы хотите, чтобы определенные правила применялись к Google, Bing и Яндексу; но не Facebook и рекламные сети, этого можно добиться, указав токен пользовательского агента, к которому применяется набор правил.
У каждого поискового робота есть собственный токен агента пользователя, который используется для выбора соответствующих блоков.
Сканеры будут следовать наиболее конкретным правилам пользовательского агента, установленным для них, с именами, разделенными дефисами, а затем вернутся к более общим правилам, если точное соответствие не будет найдено. Например, Googlebot News будет искать соответствие "googlebot-news", затем "googlebot", а затем "*". р>
Вот некоторые из наиболее распространенных токенов агента пользователя, с которыми вы столкнетесь:
- * – Правила применяются ко всем ботам, если не существует более конкретного набора правил.
- Googlebot — все поисковые роботы Google
- Googlebot-News — поисковый робот для новостей Google
- Googlebot-Image — сканер изображений Google.
- Mediapartners-Google — поисковый робот Google AdSense
- Bingbot — поисковый робот Bing
- Яндекс — поисковый робот Яндекса
- Baiduspider — поисковый робот Baidu
- Facebot — поисковый робот Facebook
- Twitterbot — поисковый робот Twitter
Этот список токенов пользовательских агентов ни в коем случае не является исчерпывающим, поэтому, чтобы узнать больше о некоторых поисковых роботах, ознакомьтесь с документацией, опубликованной Google, Bing, Яндекс, Baidu, Facebook и Twitter.
При сопоставлении токена пользовательского агента с блоком robots.txt регистр не учитывается. Например. «googlebot» будет соответствовать токену пользовательского агента Google «Googlebot».
URL-адреса, соответствующие шаблону
Возможно, у вас есть определенная строка URL, которую вы хотите заблокировать от сканирования, так как это намного эффективнее, чем включение полного списка полных URL, которые нужно исключить в файле robots.txt.
Чтобы уточнить пути URL, можно использовать символы * и $. Вот как они работают:
- * — это подстановочный знак, представляющий любое количество любых символов. Он может быть в начале или в середине URL-адреса, но не обязателен в конце. В строке URL можно использовать несколько подстановочных знаков, например, «Disallow: */products?*sort=». Правила с полными путями не должны начинаться с подстановочного знака.
- $ — этот символ означает конец строки URL, поэтому «Disallow: */dress$» будет соответствовать только URL-адресам, оканчивающимся на «/dress», и а не «/dress?parameter».
Стоит отметить, что правила robots.txt чувствительны к регистру, а это означает, что если вы запретите URL-адреса с параметром «search» (например, «Disallow: *?search= "), роботы могут по-прежнему сканировать URL-адреса, написанные с заглавных букв, например "?Search=anything".
Если вы не добавите соответствие директивы start a с помощью / или *, оно не будет соответствовать чему-либо. Например. «Запретить: запуск» никогда не будет соответствовать чему-либо.
Чтобы наглядно представить, как работают различные правила URL, мы собрали для вас несколько примеров:
Robots.txt Ссылка на файл Sitemap
Директива карты сайта в файле robots.txt сообщает поисковым системам, где найти XML-карту сайта, которая помогает им обнаруживать все URL-адреса на веб-сайте. Чтобы узнать больше о файлах Sitemap, ознакомьтесь с нашим руководством по аудиту файлов Sitemap и расширенной настройке.
Поисковые системы обнаружат и могут сканировать файлы Sitemap, перечисленные в вашем файле robots.txt, однако эти файлы Sitemap не будут отображаться в Google Search Console или Bing Webmaster Tools без отправки вручную.
Блокирует robots.txt
Правило «запретить» в файле robots.txt можно использовать разными способами для разных пользовательских агентов. В этом разделе мы рассмотрим несколько различных способов форматирования комбинаций блоков.
Важно помнить, что директивы в файле robots.txt — это всего лишь инструкции. Вредоносные сканеры будут игнорировать ваш файл robots.txt и сканировать любую общедоступную часть вашего сайта, поэтому не следует использовать запрет вместо надежных мер безопасности.
Несколько блоков User-agent
Вы можете сопоставить блок правил с несколькими пользовательскими агентами, перечислив их перед набором правил, например, следующие правила запрета будут применяться как к Googlebot, так и к Bing в следующем блоке правил:
Агент пользователя: googlebot
Агент пользователя: bing
Запретить: /aИнтервал между блоками директив
Google будет игнорировать пробелы между директивами и блоками. В этом первом примере будет выбрано второе правило, даже если две части правила разделены пробелом:
[code]
Агент пользователя: *
Запретить: /disallowed/Запретить: /test1/robots_excluded_blank_line
[/code] р>цитата>Во втором примере Googlebot-mobile унаследует те же правила, что и Bingbot:
[код]
Агент пользователя: googlebot-mobileАгент пользователя: bing
Запретить: /test1/deepcrawl_excluded
[/code]Отдельные блоки объединены
Несколько блоков с одним и тем же агентом пользователя объединяются. Таким образом, в приведенном ниже примере верхний и нижний блоки будут объединены, и роботу Googlebot будет запрещено сканировать «/b» и «/a».
Агент пользователя: googlebot
Запретить: /bАгент пользователя: bing
Запретить: /aАгент пользователя: googlebot
Запретить: /aRobots.txt Разрешить
Правило «разрешить» в файле robots.txt явно разрешает сканирование определенных URL-адресов. Хотя это значение по умолчанию для всех URL-адресов, это правило можно использовать для перезаписи правила запрета. Например, если «/locations» запрещен, вы можете разрешить сканирование «/locations/london», установив специальное правило «Разрешить: / местоположения/лондон».
Приоритет файла robots.txt
Если к URL-адресу применяется несколько разрешающих и запрещающих правил, применяется правило с самым длинным соответствием. Давайте посмотрим, что произойдет с URL «/home/search/shirts» со следующими правилами:
В этом случае URL-адрес можно сканировать, поскольку правило разрешения содержит 9 символов, а правило запрета — только 7. Если вам нужно разрешить или запретить определенный путь URL-адреса, вы можете использовать символ *, чтобы сделать строка длиннее. Например:
Если URL-адрес соответствует как разрешающему, так и запрещающему правилу, но правила имеют одинаковую длину, будет применяться запрет. Например, URL «/search/shirts» будет запрещен в следующем сценарии:
Директивы robots.txt
Директивы на уровне страницы (о которых мы поговорим позже в этом руководстве) — отличные инструменты, но проблема с ними заключается в том, что поисковые системы должны просканировать страницу, прежде чем смогут прочитать эти инструкции, что может привести к расходу краулингового бюджета.< /p>
Директивы robots.txt могут помочь уменьшить нагрузку на бюджет сканирования, поскольку вы можете добавлять директивы непосредственно в файл robots.txt, а не ждать, пока поисковые системы просканируют страницы, прежде чем предпринимать какие-либо действия. Это решение намного быстрее и проще в управлении.
Следующие директивы robots.txt работают так же, как директивы allow и disallow, в том смысле, что вы можете указать подстановочные знаки (*) и использовать символ $ для обозначают конец строки URL.
Robots.txt без индекса
Robots.txt noindex – это полезный инструмент для управления индексацией поисковыми системами без расходования краулингового бюджета. Запрет страницы в robots.txt не означает ее удаление из индекса, поэтому директиву noindex гораздо эффективнее использовать для этой цели.
Google официально не поддерживает роботов.txt noindex, и вам не следует полагаться на него, потому что, хотя он работает сегодня, он может не работать завтра. Этот инструмент может быть полезен, и его следует использовать в качестве краткосрочного исправления в сочетании с другими долгосрочными элементами управления индексом, но не в качестве критически важной директивы. Взгляните на тесты, проведенные ohgm и Stone Temple, которые доказывают, что функция работает эффективно.
Вот пример использования файла robots.txt noindex:
Помимо noindex, Google в настоящее время неофициально соблюдает несколько других директив индексации, когда они помещаются в robots.txt. Важно отметить, что не все поисковые системы и краулеры поддерживают эти директивы, а те, которые поддерживают, могут перестать их поддерживать в любое время — не стоит полагаться на их постоянную работу.
Распространенные проблемы с файлом robots.txt
Есть несколько ключевых вопросов и соображений относительно файла robots.txt и его влияния на производительность сайта. Мы нашли время, чтобы перечислить некоторые ключевые моменты, которые следует учитывать при работе с robots.txt, а также некоторые из наиболее распространенных проблем, которых вы, надеюсь, сможете избежать.
- Имейте резервный блок правил для всех ботов. Использование блоков правил для определенных строк пользовательского агента без резервного блока правил для всех остальных ботов означает, что ваш веб-сайт в конечном итоге столкнется с ботом, у которого нет наборов правил, которым нужно следовать. .
- Важно, чтобы файл robots.txt обновлялся. Относительно распространенная проблема возникает, когда файл robots.txt устанавливается на начальном этапе разработки веб-сайта, но не обновляется по мере роста веб-сайта, а это означает, что он потенциально полезен. страницы запрещены.
- Остерегайтесь перенаправления поисковых систем через запрещенные URL-адреса. Например, /product >/disallowed >/category
- Чувствительность к регистру может вызвать множество проблем. Веб-мастера могут ожидать, что часть веб-сайта не будет просканирована, но эти страницы могут быть просканированы из-за альтернативных регистров, например, «Disallow: /admin» существует, но поисковые системы сканируют «/АДМИН».
- Не запрещайте URL-адреса с обратными ссылками. Это предотвратит попадание PageRank на ваш сайт от других пользователей, ссылающихся на вас.
- Задержка сканирования может вызвать проблемы с поиском. Директива crawl-delay заставляет поисковых роботов посещать ваш веб-сайт медленнее, чем им хотелось бы, а это означает, что ваши важные страницы могут сканироваться реже, чем это необходимо. . Этой директиве не следуют ни Google, ни Baidu, но ее поддерживают Bing и Яндекс.
- Убедитесь, что robots.txt возвращает код состояния 5xx только в том случае, если весь сайт недоступен. Возврат кода состояния 5xx для /robots.txt указывает поисковым системам, что веб-сайт закрыт на техническое обслуживание. . Обычно это означает, что позже они снова попытаются просканировать веб-сайт.
- Запрет файла robots.txt переопределяет инструмент удаления параметров. Помните, что ваши правила robots.txt могут переопределять обработку параметров и любые другие подсказки по индексации, которые вы могли дать поисковым системам.
- Разметка поля поиска дополнительных ссылок будет работать с заблокированными страницами внутреннего поиска. Чтобы разметка окна поиска дополнительных ссылок работала, страницы внутреннего поиска на сайте не должны быть просканированы.
- Запрет переноса домена повлияет на успешность переноса. Если вы запретите перенос домена, поисковые системы не смогут выполнять перенаправления со старого сайта на новый, поэтому миграция вряд ли быть успешным.
Тестирование и аудит robots.txt
Учитывая, насколько опасным может быть файл robots.txt, если содержащиеся в нем директивы обрабатываются неправильно, существует несколько различных способов проверить его правильность настройки. Взгляните на это руководство о том, как проверять URL-адреса, заблокированные файлом robots.txt, а также на эти примеры:
- Используйте DeepCrawl. В отчетах о запрещенных страницах и запрещенных URL (непросканированных) можно указать, какие страницы заблокированы для поисковых систем файлом robots.txt.
- Используйте Google Search Console. С помощью инструмента тестирования GSC robots.txt вы можете просмотреть последнюю кешированную версию страницы, а также использовать инструмент Fetch and Render, чтобы увидеть визуализацию от пользовательского агента Googlebot, а также от пользователя браузера. агент. Обратите внимание: GSC работает только с агентами пользователей Google, и тестировать можно только отдельные URL.
- Попробуйте объединить результаты обоих инструментов, выборочно проверяя запрещенные URL-адреса, которые DeepCrawl пометил в инструменте тестирования GSC robots.txt, чтобы уточнить конкретные правила, которые приводят к запрету.
Отслеживание изменений файла robots.txt
Когда над сайтом работает много людей, и проблемы, которые могут возникнуть, если хотя бы один символ находится не на своем месте в файле robots.txt, постоянное отслеживание файла robots.txt имеет решающее значение. Вот несколько способов проверить наличие проблем:
- Проверьте консоль поиска Google, чтобы увидеть текущий файл robots.txt, который использует Google. Иногда роботы.txt может быть доставлен условно на основе пользовательских агентов, поэтому это единственный способ увидеть именно то, что видит Google.
- Проверьте размер файла robots.txt, если вы заметили значительные изменения, чтобы убедиться, что он не превышает ограничения Google в 500 КБ.
- Перейдите к отчету о статусе индекса Google Search Console в расширенном режиме, чтобы сверить изменения в файле robots.txt с количеством запрещенных и разрешенных URL-адресов на вашем сайте.
- Запланируйте регулярное сканирование с помощью DeepCrawl, чтобы постоянно видеть количество запрещенных страниц на вашем сайте и отслеживать изменения.
Рэйчел Костелло
Рэйчел Костелло (Rachel Costello) — бывший технический специалист по поисковой оптимизации и контент-менеджеру в Deepcrawl. Чаще всего вы увидите, как она пишет и говорит обо всем, что связано с SEO.
Содержание
Выберите лучший способ роста
Благодаря инструментам, которые помогут вам реализовать истинный потенциал вашего веб-сайта, и поддержке, которая поможет вам в этом, развитие вашего корпоративного бизнеса в Интернете никогда не было таким простым.
Вы когда-нибудь слышали термин robots.txt и задавались вопросом, как он применим к вашему веб-сайту? На большинстве веб-сайтов есть файл robots.txt, но это не значит, что большинство веб-мастеров его понимают. В этом посте мы надеемся изменить это, предложив подробно изучить файл robots.txt WordPress, а также то, как он может контролировать и ограничивать доступ к вашему сайту. К концу вы сможете отвечать на такие вопросы, как:
Нам предстоит многое рассказать, так что приступим!
Что такое файл robots.txt WordPress?
Прежде чем мы поговорим о файле robots.txt WordPress, важно определить, что такое «робот» в данном случае. Роботы — это «боты» любого типа, которые посещают веб-сайты в Интернете. Наиболее распространенным примером являются сканеры поисковых систем. Эти боты «ползают» по сети, помогая таким поисковым системам, как Google, индексировать и ранжировать миллиарды страниц в Интернете.
Итак, боты, в целом, полезны для Интернета… или, по крайней мере, необходимы. Но это не обязательно означает, что вы или другие веб-мастера хотите, чтобы боты бегали без ограничений. Желание контролировать, как веб-роботы взаимодействуют с веб-сайтами, привело к созданию стандарта исключения роботов в середине 1990-х годов. Robots.txt является практической реализацией этого стандарта — он позволяет вам контролировать, как участвующие боты взаимодействуют с вашим сайтом. Вы можете полностью заблокировать ботов, ограничить их доступ к определенным разделам вашего сайта и т. д.
Тем не менее, эта часть «участия» важна. Robots.txt не может заставить бота следовать его указаниям. А вредоносные боты могут и будут игнорировать файл robots.txt. Кроме того, даже авторитетные организации игнорируют некоторые команды, которые вы можете поместить в Robots.txt. Например, Google будет игнорировать любые правила, которые вы добавите в файл robots.txt о том, как часто его поисковые роботы посещают ваш сайт. Если у вас много проблем с ботами, может пригодиться защитное решение, такое как Cloudflare или Sucuri.
Зачем вам нужен файл robots.txt?
Для большинства веб-мастеров преимущества хорошо структурированного файла robots.txt сводятся к двум категориям:
- Оптимизировать ресурсы сканирования поисковых систем, предупредив их, чтобы они не тратили время на страницы, которые вы не хотите индексировать. Это помогает поисковым системам сосредоточиться на сканировании наиболее важных для вас страниц.
- Оптимизация использования сервера путем блокировки ботов, которые тратят ресурсы впустую.
Robots.txt не предназначен конкретно для управления тем, какие страницы индексируются в поисковых системах
Robots.txt не является надежным способом контроля того, какие страницы индексируются поисковыми системами. Если вашей основной целью является предотвращение включения определенных страниц в результаты поиска, правильным подходом будет использование метатега noindex или другого аналогичного прямого метода.
Это связано с тем, что файл robots.txt не говорит поисковым системам напрямую не индексировать контент, а просто говорит им не сканировать его. Хотя Google не будет сканировать отмеченные области внутри вашего сайта, сам Google заявляет, что если внешний сайт ссылается на страницу, которую вы исключили с помощью файла Robots.txt, Google все равно может проиндексировать эту страницу.
Джон Мюллер, аналитик Google для веб-мастеров, также подтвердил, что если на страницу есть ссылки, ведущие на нее, даже если она заблокирована файлом robots.txt, она все равно может быть проиндексирована. Ниже приводится то, что он сказал в видеовстрече Webmaster Central:
Возможно, здесь следует иметь в виду одну вещь: если эти страницы заблокированы файлом robots.txt, то теоретически может случиться так, что кто-то случайно свяжется с одной из этих страниц. И если они это сделают, может случиться так, что мы проиндексируем этот URL без какого-либо контента, потому что он заблокирован robots.txt. Таким образом, мы не знали бы, что вы не хотите, чтобы эти страницы действительно индексировались.
В то время как если бы они не были заблокированы роботами.txt, вы можете поместить на эти страницы метатег noindex. И если кто-то сделает на них ссылку, и мы случайно просканируем эту ссылку и подумаем, что, может быть, здесь есть что-то полезное, тогда мы будем знать, что эти страницы не нужно индексировать, и мы можем просто полностью исключить их из индексации.
Итак, в этом отношении, если на этих страницах есть что-то, что вы не хотите индексировать, не запрещайте их, а вместо этого используйте noindex.
Как создать и отредактировать файл WordPress Robots.txt
Пример файла Robots.txt
Поскольку этот файл виртуальный, вы не можете его редактировать. Если вы хотите отредактировать файл robots.txt, вам нужно фактически создать физический файл на своем сервере, которым вы сможете манипулировать по мере необходимости. Вот три простых способа сделать это…
Как создать и отредактировать файл robots.txt с помощью Yoast SEO
Если вы используете популярный плагин Yoast SEO, вы можете создать (а затем отредактировать) файл robots.txt прямо из интерфейса Yoast. Однако, прежде чем вы сможете получить к нему доступ, вам необходимо включить расширенные функции Yoast SEO, перейдя в SEO → Панель управления → Функции и переключившись на страницы дополнительных настроек:
Как включить расширенные функции Yoast
После активации вы можете перейти в SEO → Инструменты и нажать на Редактор файлов:
Как получить доступ к редактору файлов Yoast
Если у вас еще нет физического файла Robots.txt, Yoast предложит вам создать файл robots.txt:
Как создать файл robots.txt в Yoast
Нажав эту кнопку, вы сможете редактировать содержимое файла Robots.txt непосредственно из того же интерфейса:
Как редактировать файл robots.txt в Yoast
По мере того, как вы будете читать дальше, мы углубимся в то, какие типы директив следует помещать в файл robots.txt WordPress.
Как создать и отредактировать файл robots.txt с помощью All In One SEO
Как создать файл robots.txt в All In One SEO
После этого вы сможете управлять своим файлом Robots.txt, выбрав All in One SEO → Robots.txt:
Как редактировать файл robots.txt в All In One SEO
Как создать и отредактировать файл robots.txt через FTP
Если вы не используете подключаемый модуль SEO, предлагающий функции robots.txt, вы все равно можете создавать файл robots.txt и управлять им через SFTP. Сначала с помощью любого текстового редактора создайте пустой файл с именем «robots.txt»:
Как создать собственный файл Robots.txt
Затем подключитесь к своему сайту через SFTP и загрузите этот файл в корневую папку вашего сайта. Вы можете внести дополнительные изменения в файл robots.txt, отредактировав его через SFTP или загрузив новые версии файла.
Что поместить в файл robots.txt
Хорошо, теперь у вас есть физический файл robots.txt на вашем сервере, который вы можете редактировать по мере необходимости. Но что вы на самом деле делаете с этим файлом? Что ж, как вы узнали из первого раздела, robots.txt позволяет вам контролировать, как роботы взаимодействуют с вашим сайтом. Вы делаете это с помощью двух основных команд:
- User-agent: позволяет настроить таргетинг на определенных ботов. Пользовательские агенты — это то, что боты используют для идентификации себя. С их помощью вы могли бы, например, создать правило, которое применяется к Bing, но не к Google.
- Запретить – запретите роботам доступ к определенным областям вашего сайта.
Есть также команда "Разрешить", которую вы будете использовать в определенных ситуациях. По умолчанию все на вашем сайте помечено как «Разрешить», поэтому в 99% случаев нет необходимости использовать команду «Разрешить».Но это удобно, когда вы хотите запретить доступ к папке и ее дочерним папкам, но разрешить доступ к одной конкретной дочерней папке.
Вы добавляете правила, сначала указывая, к какому агенту пользователя должно применяться правило, а затем перечисляя, какие правила следует применять, используя Disallow и Allow. Есть также некоторые другие команды, такие как Crawl-delay и Sitemap, но это либо:
- Игнорируется большинством основных поисковых роботов или интерпретируется совершенно по-разному (в случае задержки сканирования)
- Сделано излишним благодаря таким инструментам, как Google Search Console (для карт сайта)
Давайте рассмотрим некоторые конкретные варианты использования, чтобы показать вам, как все это сочетается.
Как использовать robots.txt, чтобы заблокировать доступ ко всему вашему сайту
Допустим, вы хотите заблокировать доступ всех поисковых роботов к вашему сайту. Это вряд ли произойдет на живом сайте, но пригодится для сайта разработки. Для этого вы должны добавить этот код в файл robots.txt WordPress:
Что происходит в этом коде?
Как использовать robots.txt, чтобы заблокировать доступ одного бота к вашему сайту
Давайте изменим ситуацию. В этом примере мы притворимся, что вам не нравится тот факт, что Bing сканирует ваши страницы. Вы все время являетесь командой Google и даже не хотите, чтобы Bing просматривал ваш сайт. Чтобы запретить сканирование вашего сайта только Bing, вы должны заменить подстановочный знак *звездочка на Bingbot:
Подпишитесь на рассылку новостей
Хотите узнать, как мы увеличили трафик более чем на 1000 %?
Присоединяйтесь к более чем 20 000 человек, которые получают нашу еженедельную рассылку с полезными советами по WordPress!
По сути, в приведенном выше коде говорится, что правило Disallow следует применять только к ботам с агентом пользователя «Bingbot». Теперь вы вряд ли захотите заблокировать доступ к Bing, но этот сценарий пригодится, если есть конкретный бот, которому вы не хотите получать доступ к своему сайту. На этом сайте есть хороший список имен большинства известных пользовательских агентов службы.
Как использовать robots.txt для блокировки доступа к определенной папке или файлу
Для этого примера предположим, что вы хотите заблокировать доступ только к определенному файлу или папке (и ко всем подпапкам этой папки). Чтобы применить это к WordPress, допустим, вы хотите заблокировать:
- Вся папка wp-admin
- wp-login.php
Вы можете использовать следующие команды:
Как использовать robots.txt, чтобы разрешить доступ к определенному файлу в запрещенной папке
Хорошо, теперь предположим, что вы хотите заблокировать всю папку, но при этом разрешить доступ к определенному файлу в этой папке. Здесь пригодится команда Разрешить. И это на самом деле очень применимо к WordPress. Фактически, виртуальный файл robots.txt WordPress прекрасно иллюстрирует этот пример:
Этот код блокирует доступ ко всей папке /wp-admin/, кроме файла /wp-admin/admin-ajax.php.
Как использовать robots.txt, чтобы запретить ботам сканировать результаты поиска WordPress
Одна специфичная для WordPress настройка, которую вы, возможно, захотите сделать, — запретить поисковым роботам сканировать ваши страницы результатов поиска. По умолчанию WordPress использует параметр запроса «?s=». Итак, чтобы заблокировать доступ, все, что вам нужно сделать, это добавить следующее правило:
Это может быть эффективным способом предотвращения программных ошибок 404, если вы их получаете. Обязательно прочитайте наше подробное руководство о том, как ускорить поиск в WordPress.
Как создать разные правила для разных ботов в файле robots.txt
До сих пор все примеры относились к одному правилу за раз. Но что, если вы хотите применить разные правила к разным ботам? Вам просто нужно добавить каждый набор правил в объявление User-agent для каждого бота. Например, если вы хотите создать одно правило, которое будет применяться ко всем ботам, а другое правило будет применяться только к Bingbot, вы можете сделать это следующим образом:
Боретесь с простоями и проблемами WordPress? Kinsta — это решение для хостинга, предназначенное для экономии вашего времени! Ознакомьтесь с нашими возможностями
В этом примере всем ботам будет заблокирован доступ к /wp-admin/, но Bingbot не сможет получить доступ ко всему вашему сайту.
Проверка файла robots.txt
Вы можете протестировать файл robots.txt WordPress в Google Search Console, чтобы убедиться, что он настроен правильно. Просто перейдите на свой сайт и в разделе «Сканирование» нажмите «Тестер robots.txt». Затем вы можете отправить любой URL, включая вашу домашнюю страницу. Вы должны увидеть зеленый Разрешено, если все доступно для сканирования. Вы также можете проверить заблокированные вами URL-адреса, чтобы убедиться, что они действительно заблокированы или запрещены.
Проверить файл robots.txt
Остерегайтесь спецификации UTF-8
BOM означает метку порядка следования байтов и представляет собой невидимый символ, который иногда добавляется в файлы старыми текстовыми редакторами и т.п. Если это произойдет с вашим файлом robots.txt, Google может неправильно его прочитать.Вот почему важно проверить файл на наличие ошибок. Например, как показано ниже, наш файл имел невидимый символ, и Google жалуется на непонимание синтаксиса. По сути, это делает первую строку нашего файла robots.txt недействительной, что нехорошо! У Гленна Гейба есть отличная статья о том, как UTF-8 Bom может убить вашу поисковую оптимизацию.
Робот Google в основном базируется в США
Также важно не блокировать робота Googlebot из США, даже если вы ориентируетесь на локальный регион за пределами США. Иногда они выполняют локальное сканирование, но робот Google в основном базируется в США.
Что популярные сайты WordPress помещают в свой файл robots.txt
Чтобы обеспечить некоторый контекст для перечисленных выше моментов, вот как некоторые из самых популярных сайтов WordPress используют свои файлы robots.txt.
Технический кризис
Файл TechCrunch Robots.txt
Помимо ограничения доступа к ряду уникальных страниц, TechCrunch, в частности, запрещает поисковым роботам:
Они также установили специальные ограничения для двух ботов:
Фонд Обамы
Файл Robots.txt Фонда Обамы
Фонд Обамы не вносил особых дополнений, ограничивая доступ исключительно к /wp-admin/.
Злые птички
Файл Angry Birds Robots.txt
У Angry Birds такие же настройки по умолчанию, как и у The Obama Foundation. Ничего особенного не добавляется.
Дрейф
Файл Drift Robots.txt
Наконец, Drift решает определить свои карты сайта в файле Robots.txt, но в остальном оставляет те же ограничения по умолчанию, что и Фонд Обамы и Angry Birds.
Используйте robots.txt правильно
Заканчивая наше руководство по robots.txt, мы хотим еще раз напомнить вам, что использование команды Disallow в файле robots.txt — это не то же самое, что использование тега noindex. Robots.txt блокирует сканирование, но не обязательно индексацию. Вы можете использовать его, чтобы добавить определенные правила, определяющие, как поисковые системы и другие боты взаимодействуют с вашим сайтом, но он не будет явно контролировать, индексируется ли ваш контент или нет.
Большинству случайных пользователей WordPress нет необходимости в срочном изменении стандартного виртуального файла robots.txt. Но если у вас возникли проблемы с определенным ботом или вы хотите изменить способ взаимодействия поисковых систем с определенным подключаемым модулем или темой, которые вы используете, вы можете добавить свои собственные правила.
Мы надеемся, что вам понравилось это руководство, и обязательно оставьте комментарий, если у вас возникнут дополнительные вопросы об использовании файла robots.txt в WordPress.
Экономьте время, деньги и повышайте эффективность сайта с помощью:
- Мгновенная помощь от экспертов по хостингу WordPress, круглосуточно и без выходных.
- Интеграция с Cloudflare Enterprise.
- Глобальный охват аудитории благодаря 29 центрам обработки данных по всему миру.
- Оптимизация с помощью нашего встроенного мониторинга производительности приложений.
Все это и многое другое в одном плане без долгосрочных контрактов, помощи при миграции и 30-дневной гарантии возврата денег. Ознакомьтесь с нашими планами или поговорите с отделом продаж, чтобы найти план, который подходит именно вам.
Отобранные статьи по теме
Блог
Лучшие SEO-плагины WordPress (и обязательные SEO-инструменты в 2022 году)
SEO не обязательно должно быть сложным. Изучите наши рекомендуемые SEO-плагины и инструменты для WordPress, чтобы повысить удобство использования и рейтинг вашего сайта в поиске.
Блог
Руководство по карте сайта WordPress: что это такое и как его использовать
Узнайте, как создать карту сайта WordPress, какую пользу она принесет вашему сайту и как отправить ее в Google и другие поисковые системы.
Читайте также: