Как исправить блокировку доступа googlebot в текстовом файле robots

Обновлено: 21.11.2024

В файле robots.txt встречаются инструкции, которые говорят поисковым роботам, какие URL-адреса на следующем сайте им разрешено обрабатывать. С его помощью можно уменьшить количество поступающих на сканирование и тем самым уменьшить нагрузку на сайт. Файл robots.txt не предназначен для того, чтобы запретить показ ваших материалов в разделе Google. Если вы не хотите, чтобы какие-либо сайты были представлены в Google, добавьте страницы на их директиву no onlyindex или выполните их доступными по паролю.

Для чего служит файл robots.txt

Файл robots.txt используется главным образом для управления трафиком поисковых роботов. Как правило, с его помощью также можно поддерживать содержание результатов поиска Google (это зависит от типа накопления).

Файл robots.txt позволяет управлять сканированием веб-страниц в форматах, которые робот Googlebot может обработать (он поддерживает, например, HTML или PDF, но неиспользуемые файлы). С помощью вы можете уменьшить количество поступающих, которые Google отправляет на ваш сервер или запрещает сканировать разделы сайта, в которых содержится неважная или повторяющаяся информация.

Файл robots.txt не предназначен для блокировки показа веб-страницы в офисе Google.

Если на странице приведены ссылки с информативным текстом, размещенные на других сайтах, то робот Googlebot может добавить эту страницу в индекс, даже не открывая. Чтобы исправить ее из результатов поиска, следует использовать другой метод, например, заблокировать доступ к ней с помощью алгоритма или директивы noindex .

Файл robots.txt может использоваться как для управления трафиком поисковых роботов, так и для блокировки показа изображений, видеороликов и аудиофайлов в офисе поиска Google. Такая блокировка не мешает другим владельцам сайтов и пользователей пользоваться услугами вашего медиаконтента. Советуем ознакомиться с популярными статьями:

Какие кадры при сборе файла robots.txt

Прежде чем создать или изменить файл robots.txt, проанализируйте риски, связанные с этим методом. Иногда для запрета индексирования URL лучше выбирать другие средства.

Как создать файл robots.txt

Если не указано иное, содержимое этой страницы предоставляется по лицензии Creative Commons Attribution 4.0, а образцы кода — по лицензии Apache 2.0. Подробнее см. в Правилах сайта Google Developers. Java является зарегистрированным товарным знаком Oracle и/или ее дочерних компаний.

«Проиндексировано, но заблокировано файлом robots.txt» означает, что Google проиндексировал URL-адреса, несмотря на то, что они были заблокированы вашим файлом robots.txt.

Google пометил эти URL-адреса как "Действительные с предупреждением", поскольку они не уверены, хотите ли вы, чтобы эти URL-адреса были проиндексированы. В этой статье вы узнаете, как решить эту проблему.

Вот как это выглядит в отчете об индексировании Google Search Console с указанием количества показов URL:

Перепроверить на уровне URL

Вы можете еще раз проверить это, выбрав Покрытие > Проиндексированные, хотя и заблокированные файлом robots.txt, и проверьте один из перечисленных URL. Затем в разделе «Сканирование» будет указано «Нет: заблокировано robots.txt» для поля «Сканирование разрешено» и «Ошибка: заблокировано robots.txt» для поля «Выбор страницы».

Отправьте свой веб-сайт и узнайте сразу!

Так что же произошло?

Обычно Google не проиндексировал бы эти URL-адреса, но, по-видимому, они нашли ссылки на них и сочли их достаточно важными для индексации.

Вполне вероятно, что показанные фрагменты неоптимальны, например:

Как исправить ошибку «Проиндексировано, но заблокировано robots.txt»

  1. Экспортируйте список URL-адресов из Google Search Console и отсортируйте их по алфавиту.
  2. Пройдитесь по URL-адресам и проверьте, содержат ли они URL-адреса…
    1. То, что вы хотите проиндексировать. В этом случае обновите файл robots.txt, чтобы разрешить Google доступ к этим URL-адресам.
    2. К которым вы не хотите, чтобы поисковые системы имели доступ. Если это так, оставьте файл robots.txt без изменений, но проверьте, есть ли у вас какие-либо внутренние ссылки, которые следует удалить.
    3. К которым поисковые системы могут получить доступ, но которые вы не хотите индексировать. В этом случае обновите файл robots.txt, чтобы отразить это, и примените директивы robots noindex.
    4. Он не должен быть доступен никому и никогда. Возьмем, к примеру, промежуточную среду.В этом случае выполните действия, описанные в нашей статье Защита промежуточных сред.

    Отслеживайте каждое вносимое вами изменение и следите за тем, чтобы файл robots.txt не навредил вашему сайту еще больше!

    Проиндексировано, но заблокировано исправлением robots.txt для WordPress

    Процесс устранения этой проблемы для сайтов WordPress такой же, как описано выше, но вот несколько советов, как быстро найти файл robots.txt в WordPress:

    WordPress + Yoast SEO

    Если вы используете плагин Yoast SEO, выполните следующие действия, чтобы настроить файл robots.txt:

    1. Войдите в свой раздел wp-admin.
    2. На боковой панели выберите Плагин Yoast SEO > Инструменты .
    3. Перейти к редактору файлов.

    WordPress + расчет рейтинга

    Если вы используете подключаемый модуль Rank Math SEO, выполните следующие действия, чтобы настроить файл robots.txt:

    1. Войдите в свой раздел wp-admin.
    2. На боковой панели выберите Rank Math > Общие настройки.
    3. Перейдите к редактированию robots.txt.

    WordPress + Все в одном SEO

    Если вы используете подключаемый модуль All-in-One SEO, выполните следующие действия, чтобы настроить файл robots.txt:

    1. Войдите в свой раздел wp-admin.
    2. На боковой панели выберите All in One SEO > Robots.txt.

    Если вы работаете над веб-сайтом WordPress, который еще не запущен, и не можете понять, почему файл robots.txt содержит следующее:

    затем проверьте свои настройки в разделе: Настройки > Чтение и найдите Видимость в поисковых системах .

    Если установлен флажок Запретить поисковым системам индексировать этот сайт, WordPress создаст виртуальный файл robots.txt, запрещающий поисковым системам доступ к сайту.

    Проиндексировано, но заблокировано исправлением robots.txt для Shopify

    Shopify не позволяет вам управлять файлом robots.txt из их системы, поэтому вы работаете с файлом по умолчанию, который применяется ко всем сайтам.

    Возможно, вы видели сообщение «Проиндексировано, хотя и заблокировано robots.txt» в Google Search Console или получили электронное письмо от Google об этом по электронной почте «Обнаружена новая проблема индексирования». Мы рекомендуем всегда проверять, какие URL это касается, потому что вы не хотите оставлять что-либо на волю случая в SEO.

    Проверьте URL-адреса и проверьте, не заблокированы ли какие-либо важные URL-адреса. Если это так, у вас есть два варианта, которые требуют некоторой работы, но позволяют изменить файл robots.txt в Shopify:

    Стоит ли вам эти варианты, зависит от потенциального вознаграждения. Если он значителен, рассмотрите возможность реализации одного из этих вариантов.

    Вы можете использовать тот же подход на платформе Squarespace.

    🤖 Почему Google показывает эту ошибку для моих страниц?

    Google обнаружил ссылки на страницы, недоступные им из-за запрещающих директив robots.txt. Когда Google сочтет эти страницы достаточно важными, они проиндексируют их.

    🧐 Как исправить эту ошибку?

    Короткий ответ на этот вопрос заключается в том, чтобы страницы, которые вы хотите проиндексировать в Google, были просто доступны для поисковых роботов Google. И страницы, которые вы не хотите индексировать, не должны быть связаны внутри. Подробный ответ описан в разделе «Как исправить «Проиндексирован, хотя и заблокирован robots.txt»» этой статьи.

    🧾 Могу ли я редактировать файл robots.txt в WordPress?

    Популярные плагины SEO, такие как Yoast, Rank Math и All in one SEO, например, позволяют редактировать файл robots.txt непосредственно из панели администратора wp.

    Прочитайте полную статью Академии, чтобы узнать все об отчете об индексировании Google Search Console

    Насколько сильно файл robots.txt влияет на эффективность SEO?

    Быстро найдите проблему и устраните ее!

    Ваш пробный период скоро закончится

    Зарегистрируйтесь сейчас, чтобы быть в курсе своих SEO-эффективностей.

    Ваша пробная версия завершена

    Зарегистрируйтесь сейчас, чтобы быть в курсе своих SEO-эффективностей.

    Начать бесплатную пробную версию

    Подготовка и запуск за 20 секунд

    • Присоединяйтесь к более чем 35 000 умных людей
    • Тщательно отобранный контент по SEO и цифровому маркетингу.
    • Полезные статьи, исследования на основе данных, подкасты и видео.
    • Присоединяйтесь к более чем 35 000 умных людей
    • Тщательно отобранный контент по SEO и цифровому маркетингу.
    • Полезные статьи, исследования на основе данных, подкасты и видео.

    Последнее обновление: 24 января 2022 г.

    Google Аналитика

    Информация, которую мы получаем, передается в Google и хранится Google на серверах за пределами Европейской экономической зоны. Мы заключили соглашение об обработке данных с Google, в котором были заключены соглашения об обработке персональных данных.

    Социальные плагины

    Такие компании, как LinkedIn, Twitter и Facebook, могут передавать ваши персональные данные за пределы Европейской экономической зоны. Пожалуйста, ознакомьтесь с нашей Политикой конфиденциальности здесь и заявлением о конфиденциальности соответствующей социальной сети, чтобы узнать, как эти компании обрабатывают ваши (личные) данные.

    Пиксели

    Мы также размещаем пиксели третьих лиц. Пиксель отслеживает ваше поведение в Интернете и то, как вы используете Веб-сайт. Эти данные агрегируются и дают нам информацию о целевой группе, которая посещает наш веб-сайт. На основе этой информации мы можем показывать рекламу определенной или похожей целевой группе на веб-сайте третьей стороны, создавшей пиксель.

    Конфиденциальность

    Возможно, что информация, собранная с помощью файлов cookie или полученная иным образом, содержит персональные данные. В этом случае наша Политика конфиденциальности применяется к обработке этих данных. С Политикой конфиденциальности можно ознакомиться здесь.

    Можно ли изменить эту политику в отношении файлов cookie?

    В будущем мы можем изменить настоящую Политику в отношении файлов cookie. Если происходят существенные или существенные изменения, которые могут в значительной степени затронуть одну или несколько вовлеченных сторон, мы заранее информируем их. Наша измененная политика в отношении файлов cookie также будет доступна на этой веб-странице, поэтому рекомендуется регулярно просматривать эту страницу.

    Если вы получили оповещение по электронной почте или случайно заметили предупреждение "Проиндексировано, хотя и заблокировано файлом robots.txt" в вашей консоли поиска Google, как показано ниже, в этой статье базы знаний мы покажем вам, как устранить неполадки. предупреждение и исправьте его.

    Содержание

    1 Что означает ошибка «Проиндексировано, но заблокировано Robots.Txt»?

    Ошибка просто означает,

    • Google нашел вашу страницу и проиндексировал ее в результатах поиска.
    • Однако в файле robots.txt также было обнаружено правило, предписывающее игнорировать страницу при сканировании.

    Теперь, когда Google не знает, индексировать страницу или нет, он просто выдает предупреждение в Google Search Console. Чтобы вы могли разобраться в этом и выбрать план действий.

    Если вы заблокировали страницу с намерением предотвратить ее индексирование, вы должны знать, что хотя Google в большинстве случаев уважает robots.txt, само по себе это не может предотвратить индексацию страницы. Причин может быть множество, например, внешний сайт ссылается на вашу заблокированную страницу и в конечном итоге заставляет Google проиндексировать страницу с небольшим количеством доступной информации.

    С другой стороны, если страница должна быть проиндексирована, но случайно заблокирована файлом robots.txt, вам следует разблокировать страницу в файле robots.txt, чтобы сканеры Google могли получить к ней доступ.

    Теперь вы понимаете основную идеологию этого предупреждения. Практических причин этого может быть много, учитывая CMS и техническую реализацию. Следовательно, в этой статье мы рассмотрим комплексный способ отладки и исправления этого предупреждения.

    2 Экспорт отчета из Google Search Console

    Для небольших веб-сайтов у вас может быть только несколько URL-адресов под этим предупреждением. Но самые сложные веб-сайты и сайты электронной коммерции должны иметь сотни или даже тысячи URL-адресов. Хотя использовать GSC для просмотра всех ссылок невозможно, вы можете экспортировать отчет из Google Search Console, чтобы открыть его в редакторе электронных таблиц.

    Чтобы экспортировать, просто нажмите на предупреждение, которое будет доступно в панели инструментов Google Search Console > Покрытие > Действительно с предупреждениями.

    На следующей странице вы сможете экспортировать все URL-адреса, относящиеся к этому предупреждению, щелкнув параметр «Экспорт» в правом верхнем углу. Из списка вариантов экспорта вы можете загрузить и открыть файл в редакторе электронных таблиц по вашему выбору.

    Теперь, когда вы экспортировали URL-адреса, самое первое, что вы должны выяснить, просмотрев эти URL-адреса, — следует ли индексировать страницу или нет. И дальнейшие действия будут зависеть только от вашего ответа.

    3 страницы для индексации

    Если вы выяснили, что страница должна быть проиндексирована, проверьте файл robots.txt и определите, есть ли какое-либо правило, препятствующее сканированию страницы роботом Googlebot.

    Чтобы отладить файл robots.txt, выполните точно описанные ниже действия.

    3.1 Открыть тестер robots.txt

    Сначала перейдите к тестировщику robots.txt.Если ваша учетная запись Google Search Console связана с несколькими веб-сайтами, выберите свой веб-сайт из списка сайтов, показанного в правом верхнем углу. Теперь Google загрузит файл robots.txt вашего сайта. Вот как это будет выглядеть.

    3.2 Введите URL вашего сайта

    В нижней части инструмента вы найдете возможность ввести URL-адрес вашего веб-сайта для тестирования. Здесь вы добавите URL-адрес из электронной таблицы, которую мы скачали ранее.

    3.3 Выберите User-Agent

    В раскрывающемся списке справа от текстового поля выберите пользовательский агент, который вы хотите имитировать (бот Googlebot в нашем случае).

    3.4 Проверка robots.txt

    Наконец, нажмите кнопку "Проверить".

    Сканер немедленно проверит, есть ли у него доступ к URL-адресу на основе конфигурации robots.txt, и, соответственно, тестовая кнопка окажется в состоянии ПРИНЯТО или ЗАБЛОКИРОВАНО.

    Редактор кода, доступный в центре экрана, также выделит правило в файле robots.txt, которое блокирует доступ, как показано ниже.

    3.5 Редактирование и отладка

    Если тестер robots.txt обнаружит какое-либо правило, запрещающее доступ, вы можете попробовать отредактировать правило прямо в редакторе кода, а затем снова запустить тест.

    Вы также можете обратиться к нашей специальной статье базы знаний о robots.txt, чтобы узнать больше о принятых правилах, и было бы полезно изменить правила здесь.

    Если вам удастся исправить правило, будет здорово. Но учтите, что это инструмент отладки, и любые внесенные вами изменения не будут отражены в файле robots.txt вашего веб-сайта, если вы не скопируете и не вставите содержимое в файл robots.txt своего веб-сайта.

    3.6 Экспорт файла robots.txt

    Поэтому, чтобы добавить измененные правила в файл robots.txt, перейдите в раздел Rank Math > General Settings > Edit robots.txt в области администрирования WordPress. Если этот параметр недоступен для вас, убедитесь, что вы используете расширенный режим в Rank Math.

    В редакторе кода, расположенном посередине экрана, вставьте код, скопированный из файла robots.txt. Tester, а затем нажмите кнопку Сохранить изменения, чтобы применить изменения.

    4 страницы не подлежат индексации

    Что ж, если вы определили, что страница не должна быть проиндексирована, но Google проиндексировал страницу, это может быть одной из причин, которые мы обсудили ниже.

    4.1 Неиндексированные страницы, заблокированные файлом robots.txt

    Если страница не должна индексироваться в результатах поиска, это должно быть указано в директиве Robots Meta, а не в правиле robots.txt.

    Файл robots.txt содержит только инструкции по сканированию. Помните, что сканирование и индексирование — это два разных процесса.

    Предотвращение сканирования страницы ≠ Предотвращение индексации страницы

    Чтобы предотвратить индексацию страницы, вы можете добавить метаданные No Index Robots с помощью Rank Math.

    Но тогда, если вы добавите метаданные No Index Robots и одновременно заблокируете поисковую систему от сканирования этих URL-адресов, технически вы не позволите роботу Googlebot сканировать и узнать, что страница содержит метаданные No Index Robots.

    В идеале вы должны разрешить роботу Googlebot сканировать эти страницы, и на основании метаданных No Index Robots Google исключит страницу из индекса.

    Примечание. Используйте robots.txt только для блокировки файлов (таких как изображения, PDF, фиды и т. д.), в которые невозможно добавить метаданные No Index Robots.

    4.2 Внешние ссылки на заблокированные страницы

    Страницы, которые вы заблокировали с помощью файла robots.txt, могут иметь ссылки с внешних сайтов. Затем робот Googlebot попытается проиндексировать страницу.

    Поскольку вы запретили роботам сканировать страницу, Google проиндексирует страницу с ограниченной информацией, доступной на связанной странице.

    Чтобы решить эту проблему, вы можете обратиться к внешнему сайту и запросить изменение ссылки на более релевантный URL на вашем веб-сайте.

    5. Заключение — проверьте исправление в Google Search Console

    После устранения проблем с URL-адресами вернитесь к предупреждению Google Search Console и нажмите кнопку Проверить исправление. Теперь Google повторно просканирует эти URL-адреса и закроет проблему, если ошибка устранена.

    И все! Мы надеемся, что статья помогла вам исправить ошибку, и если у вас все еще есть какие-либо вопросы, вы можете связаться с нашей службой поддержки прямо отсюда, и мы всегда готовы помочь.

    Узнайте о наиболее распространенных проблемах с файлом robots.txt, о том, как они могут повлиять на ваш веб-сайт и ваше присутствие в поиске, а также о том, как их исправить.

    Robots.txt – это полезный и относительно мощный инструмент, который дает роботам поисковых систем указания о том, как вы хотите, чтобы они сканировали ваш веб-сайт.

    Он не является всемогущим (по словам Google, «это не механизм для защиты веб-страницы от Google»), но он может помочь предотвратить перегрузку вашего сайта или сервера запросами поискового робота.

    Если на вашем сайте установлена ​​эта блокировка сканирования, вы должны быть уверены, что она используется правильно.

    Это особенно важно, если вы используете динамические URL-адреса или другие методы, которые теоретически генерируют бесконечное количество страниц.

    В этом руководстве мы рассмотрим некоторые из наиболее распространенных проблем с файлом robots.txt, их влияние на ваш веб-сайт и ваше присутствие в поиске, а также способы устранения этих проблем, если вы считаете, что они возникли.

    Но сначала давайте кратко рассмотрим файл robots.txt и его альтернативы.

    Что такое robots.txt?

    Robots.txt использует обычный текстовый формат и размещается в корневом каталоге вашего веб-сайта.

    Он должен находиться в самом верхнем каталоге вашего сайта; если вы поместите его в подкаталог, поисковые системы просто проигнорируют его.

    Несмотря на свои огромные возможности, robots.txt часто представляет собой относительно простой документ, и простой файл robots.txt можно создать за считанные секунды с помощью редактора, например Блокнота.

    Есть и другие способы достижения тех же целей, для которых обычно используется файл robots.txt.

    Отдельные страницы могут содержать метатег robots в самом коде страницы.

    Что может robots.txt?

    Robots.txt может достигать различных результатов для разных типов контента:

    Сканирование веб-страниц может быть заблокировано.

    Они могут по-прежнему отображаться в результатах поиска, но не будут иметь текстового описания. Содержимое страницы, отличное от HTML, также не будет сканироваться.

    Появление медиафайлов в результатах поиска Google можно заблокировать.

    Сюда входят изображения, видео и аудиофайлы.

    Если файл является общедоступным, он по-прежнему будет «существовать» в Интернете, и его можно будет просмотреть и связать с ним, но этот частный контент не будет отображаться в результатах поиска Google.

    Файлы ресурсов, такие как несущественные внешние скрипты, могут быть заблокированы.

    Но это означает, что если Google просканирует страницу, для загрузки которой требуется этот ресурс, робот Googlebot "увидит" версию страницы, как если бы этот ресурс не существовал, что может повлиять на индексацию.

    Вы не можете использовать robots.txt, чтобы полностью заблокировать отображение веб-страницы в результатах поиска Google.

    Для этого необходимо использовать альтернативный метод, например добавить метатег noindex в начало страницы.

    Насколько опасны ошибки robots.txt?

    Ошибка в robots.txt может иметь непредвиденные последствия, но часто это не конец света.

    Хорошей новостью является то, что, исправив файл robots.txt, вы сможете быстро и (обычно) полностью устранить любые ошибки.

    В руководстве Google для веб-разработчиков говорится об ошибках robots.txt:

    «Веб-сканеры, как правило, очень гибкие и, как правило, не реагируют на незначительные ошибки в файле robots.txt. В общем, худшее, что может случиться, это то, что неправильные [или] неподдерживаемые директивы будут проигнорированы.

    Имейте в виду, что Google не может читать мысли при интерпретации файла robots.txt; мы должны интерпретировать полученный нами файл robots.txt. Тем не менее, если вы знаете о проблемах в файле robots.txt, их обычно легко исправить».

    6 распространенных ошибок в файле robots.txt

    1. Robots.txt не находится в корневом каталоге.
    2. Плохое использование подстановочных знаков.
    3. Нет индекса в robots.txt.
    4. Заблокированные скрипты и таблицы стилей.
    5. Нет URL файла Sitemap.
    6. Доступ к сайтам разработки.

    Если ваш веб-сайт странно отображается в результатах поиска, ваш файл robots.txt — это хорошее место для поиска любых ошибок, синтаксических ошибок и превышения правил.

    Давайте рассмотрим каждую из вышеперечисленных ошибок более подробно и посмотрим, как убедиться, что у вас есть действительный файл robots.txt.

    1. Robots.txt не в корневом каталоге

    Поисковые роботы могут обнаружить файл только в том случае, если он находится в вашей корневой папке.

    Если там есть вложенная папка, ваш файл robots.txt, вероятно, не виден поисковым роботам, а ваш веб-сайт, вероятно, ведет себя так, как будто файла robots.txt вообще нет.

    Чтобы устранить эту проблему, переместите файл robots.txt в корневой каталог.

    Стоит отметить, что для этого вам потребуется root-доступ к вашему серверу.

    Некоторые системы управления контентом по умолчанию загружают файлы в подкаталог media (или что-то подобное), поэтому вам может потребоваться обойти это, чтобы файл robots.txt оказался в нужном месте.

    2. Неправильное использование подстановочных знаков

    Robots.txt поддерживает два подстановочных знака:

    • Звездочка *, обозначающая любые экземпляры допустимого символа, например джокер в колоде карт.
    • Знак доллара $, обозначающий конец URL, позволяет применять правила только к последней части URL, например к расширению типа файла.

    Разумно применять минималистский подход к использованию подстановочных знаков, поскольку они могут налагать ограничения на гораздо более широкую часть вашего веб-сайта.

    Кроме того, относительно легко заблокировать доступ роботов ко всему сайту с помощью неудачно расположенной звездочки.

    Чтобы решить проблему с подстановочными знаками, вам нужно найти неправильный подстановочный знак и переместить или удалить его, чтобы файл robots.txt работал должным образом.

    3. Нет индекса в robots.txt

    Это чаще встречается на веб-сайтах, которым больше нескольких лет.

    С 1 сентября 2019 г. компания Google перестала соблюдать правила noindex в файлах robots.txt.

    Если ваш файл robots.txt был создан до этой даты или содержит инструкции noindex, вы, скорее всего, увидите эти страницы проиндексированными в результатах поиска Google.

    Решение этой проблемы заключается в реализации альтернативного метода noindex.

    Одним из вариантов является метатег robots, который можно добавить в заголовок любой веб-страницы, которую вы хотите предотвратить от индексации Google.

    4. Заблокированные скрипты и таблицы стилей

    Может показаться логичным заблокировать доступ сканера к внешним файлам JavaScript и каскадным таблицам стилей (CSS).

    Однако помните, что роботу Googlebot требуется доступ к файлам CSS и JS, чтобы правильно «видеть» ваши HTML- и PHP-страницы.

    Если ваши страницы странно отображаются в результатах Google или кажется, что Google не видит их правильно, проверьте, не блокируете ли вы доступ поискового робота к необходимым внешним файлам.

    Простым решением этой проблемы является удаление из файла robots.txt строки, которая блокирует доступ.

    Или, если у вас есть файлы, которые нужно заблокировать, вставьте исключение, которое восстанавливает доступ к необходимым CSS и JavaScript.

    5. Нет URL файла Sitemap

    Это больше касается SEO, чем чего-либо еще.

    Вы можете включить URL-адрес карты сайта в файл robots.txt.

    Поскольку это первое, на что обращает внимание робот Googlebot при сканировании вашего веб-сайта, это дает ему преимущество в изучении структуры и основных страниц вашего сайта.

    Хотя это не является строго ошибкой, так как отсутствие карты сайта не должно отрицательно сказываться на фактической основной функциональности и отображении вашего веб-сайта в результатах поиска, все же стоит добавить URL-адрес вашей карты сайта в robots.txt, если вы хотите Оптимизация поисковой оптимизации.

    6. Доступ к сайтам разработки

    Блокировать поисковые роботы на вашем действующем веб-сайте нельзя, но разрешать им сканировать и индексировать ваши страницы, которые все еще находятся в разработке.

    Рекомендуется добавить инструкцию о запрете в файл robots.txt веб-сайта, находящегося в стадии разработки, чтобы широкая публика не увидела его, пока он не будет завершен.

    Кроме того, очень важно удалить инструкцию о запрете при запуске готового веб-сайта.

    Если вы забудете удалить эту строку из robots.txt, это одна из самых распространенных ошибок среди веб-разработчиков, которая может помешать правильному сканированию и индексированию всего вашего веб-сайта.

    Если кажется, что ваш сайт разработки получает реальный трафик или ваш недавно запущенный веб-сайт совсем не работает в поиске, поищите правило запрета универсального пользовательского агента в файле robots.txt:
    < br />User-Agent: *

    Disallow: /

    Если вы видите это, когда не должны (или не видите, когда должны), сделайте необходимые изменения в файле robots.txt и убедитесь, что внешний вид вашего веб-сайта в поиске обновляется соответствующим образом.

    Как исправить ошибку robots.txt

    Если ошибка в файле robots.txt оказывает нежелательное влияние на внешний вид вашего веб-сайта в результатах поиска, самым важным первым шагом является исправление файла robots.txt и проверка того, что новые правила дают желаемый эффект.

    В этом могут помочь некоторые инструменты SEO-сканирования, поэтому вам не нужно ждать, пока поисковые системы снова просканируют ваш сайт.

    Если вы уверены, что файл robots.txt работает должным образом, вы можете попытаться повторно просканировать свой сайт как можно скорее.

    Отправьте обновленный файл Sitemap и запросите повторное сканирование любых страниц, которые были неправомерно удалены из списка.

    К сожалению, вы попали в зависимость от робота Googlebot. Нет никаких гарантий относительно того, сколько времени потребуется, чтобы отсутствующие страницы снова появились в поисковом индексе Google.

    Все, что вы можете сделать, это предпринять правильные действия, чтобы максимально сократить это время, и продолжать проверять, пока робот Googlebot не внедрит исправленный файл robots.txt.

    Заключительные мысли

    Если речь идет об ошибках robots.txt, то лучше их предотвратить, чем исправлять.

    На крупном доходном веб-сайте случайный подстановочный знак, который удаляет весь ваш веб-сайт из Google, может немедленно повлиять на доход.

    Правки в robots.txt должны вноситься опытными разработчиками с осторожностью, дважды проверяться и, при необходимости, с учетом второго мнения.

    Если возможно, протестируйте в тестовом редакторе перед запуском на реальном сервере, чтобы избежать непреднамеренных проблем с доступностью.

    Помните, когда происходит самое худшее, важно не паниковать.

    Диагностируйте проблему, внесите необходимые исправления в файл robots.txt и повторно отправьте карту сайта для нового сканирования.

    Мы надеемся, что ваше место в поисковом рейтинге будет восстановлено в течение нескольких дней.

    Вы когда-нибудь слышали термин robots.txt и задавались вопросом, как он применим к вашему веб-сайту? На большинстве веб-сайтов есть файл robots.txt, но это не значит, что большинство веб-мастеров его понимают. В этом посте мы надеемся изменить это, предложив подробно изучить файл robots.txt WordPress, а также то, как он может контролировать и ограничивать доступ к вашему сайту. К концу вы сможете отвечать на такие вопросы, как:

    Нам предстоит многое рассказать, так что приступим!

    Что такое файл robots.txt WordPress?

    Прежде чем мы поговорим о файле robots.txt WordPress, важно определить, что такое «робот» в данном случае. Роботы — это «боты» любого типа, которые посещают веб-сайты в Интернете. Наиболее распространенным примером являются сканеры поисковых систем. Эти боты «ползают» по сети, помогая таким поисковым системам, как Google, индексировать и ранжировать миллиарды страниц в Интернете.

    Итак, боты, в целом, полезны для Интернета… или, по крайней мере, необходимы. Но это не обязательно означает, что вы или другие веб-мастера хотите, чтобы боты бегали без ограничений. Желание контролировать, как веб-роботы взаимодействуют с веб-сайтами, привело к созданию стандарта исключения роботов в середине 1990-х годов. Robots.txt является практической реализацией этого стандарта — он позволяет вам контролировать, как участвующие боты взаимодействуют с вашим сайтом. Вы можете полностью заблокировать ботов, ограничить их доступ к определенным разделам вашего сайта и т. д.

    Тем не менее, эта часть «участия» важна. Robots.txt не может заставить бота следовать его указаниям. А вредоносные боты могут и будут игнорировать файл robots.txt. Кроме того, даже авторитетные организации игнорируют некоторые команды, которые вы можете поместить в Robots.txt. Например, Google будет игнорировать любые правила, которые вы добавите в файл robots.txt о том, как часто его поисковые роботы посещают ваш сайт. Если у вас много проблем с ботами, может пригодиться защитное решение, такое как Cloudflare или Sucuri.

    Зачем вам нужен файл robots.txt?

    Для большинства веб-мастеров преимущества хорошо структурированного файла robots.txt сводятся к двум категориям:

    • Оптимизировать ресурсы сканирования поисковых систем, предупредив их, чтобы они не тратили время на страницы, которые вы не хотите индексировать. Это помогает поисковым системам сосредоточиться на сканировании наиболее важных для вас страниц.
    • Оптимизация использования сервера путем блокировки ботов, которые тратят ресурсы впустую.

    Robots.txt не предназначен конкретно для управления тем, какие страницы индексируются в поисковых системах

    Robots.txt не является надежным способом контроля того, какие страницы индексируются поисковыми системами. Если вашей основной целью является предотвращение включения определенных страниц в результаты поиска, правильным подходом будет использование метатега noindex или другого аналогичного прямого метода.

    Это связано с тем, что файл robots.txt не говорит поисковым системам напрямую не индексировать контент, а просто говорит им не сканировать его. Хотя Google не будет сканировать отмеченные области внутри вашего сайта, сам Google заявляет, что если внешний сайт ссылается на страницу, которую вы исключили с помощью файла Robots.txt, Google все равно может проиндексировать эту страницу.

    Джон Мюллер, аналитик Google для веб-мастеров, также подтвердил, что если на страницу есть ссылки, ведущие на нее, даже если она заблокирована файлом robots.txt, она все равно может быть проиндексирована. Ниже приводится то, что он сказал в видеовстрече Webmaster Central:

    Здесь следует иметь в виду одну вещь: если эти страницы заблокированы роботами.txt, то теоретически может случиться так, что кто-то случайно свяжется с одной из этих страниц. И если они это сделают, может случиться так, что мы проиндексируем этот URL без какого-либо контента, потому что он заблокирован robots.txt. Таким образом, мы не узнаем, что вы не хотите, чтобы эти страницы действительно индексировались.

    В то время как, если они не заблокированы файлом robots.txt, вы можете поместить на эти страницы метатег noindex. И если кто-то сделает на них ссылку, и мы случайно просканируем эту ссылку и подумаем, что, может быть, здесь есть что-то полезное, тогда мы будем знать, что эти страницы не нужно индексировать, и мы можем просто полностью исключить их из индексации.

    Итак, в этом отношении, если на этих страницах есть что-то, что вы не хотите индексировать, не запрещайте их, а вместо этого используйте noindex.

    Как создать и отредактировать файл WordPress Robots.txt

    Пример файла Robots.txt

    Поскольку этот файл виртуальный, вы не можете его редактировать. Если вы хотите отредактировать файл robots.txt, вам нужно фактически создать физический файл на своем сервере, которым вы сможете манипулировать по мере необходимости. Вот три простых способа сделать это…

    Как создать и отредактировать файл robots.txt с помощью Yoast SEO

    Если вы используете популярный плагин Yoast SEO, вы можете создать (а затем отредактировать) файл robots.txt прямо из интерфейса Yoast. Однако, прежде чем вы сможете получить к нему доступ, вам необходимо включить расширенные функции Yoast SEO, перейдя в SEO → Панель управления → Функции и переключившись на страницы дополнительных настроек:

    Как включить расширенные функции Yoast

    После активации вы можете перейти в SEO → Инструменты и нажать на Редактор файлов:

    Как получить доступ к редактору файлов Yoast

    Если у вас еще нет физического файла Robots.txt, Yoast предложит вам создать файл robots.txt:

    Как создать файл robots.txt в Yoast

    Нажав эту кнопку, вы сможете редактировать содержимое файла Robots.txt непосредственно из того же интерфейса:

    Как редактировать файл robots.txt в Yoast

    По мере того, как вы будете читать дальше, мы углубимся в то, какие типы директив следует помещать в файл robots.txt WordPress.

    Как создать и отредактировать файл robots.txt с помощью All In One SEO

    Как создать файл robots.txt в All In One SEO

    После этого вы сможете управлять своим файлом Robots.txt, выбрав All in One SEO → Robots.txt:

    Как редактировать файл robots.txt в All In One SEO

    Как создать и отредактировать файл robots.txt через FTP

    Если вы не используете подключаемый модуль SEO, предлагающий функции robots.txt, вы все равно можете создавать файл robots.txt и управлять им через SFTP. Сначала с помощью любого текстового редактора создайте пустой файл с именем «robots.txt»:

    Как создать собственный файл Robots.txt

    Затем подключитесь к своему сайту через SFTP и загрузите этот файл в корневую папку вашего сайта. Вы можете внести дополнительные изменения в файл robots.txt, отредактировав его через SFTP или загрузив новые версии файла.

    Что поместить в файл robots.txt

    Хорошо, теперь у вас есть физический файл robots.txt на вашем сервере, который вы можете редактировать по мере необходимости. Но что вы на самом деле делаете с этим файлом? Что ж, как вы узнали из первого раздела, robots.txt позволяет вам контролировать, как роботы взаимодействуют с вашим сайтом. Вы делаете это с помощью двух основных команд:

    • User-agent: позволяет настроить таргетинг на определенных ботов. Пользовательские агенты — это то, что боты используют для идентификации себя. С их помощью вы могли бы, например, создать правило, которое применяется к Bing, но не к Google.
    • Запретить – запретите роботам доступ к определенным областям вашего сайта.

    Есть также команда "Разрешить", которую вы будете использовать в определенных ситуациях. По умолчанию все на вашем сайте помечено как «Разрешить», поэтому в 99% случаев нет необходимости использовать команду «Разрешить». Но это удобно, когда вы хотите запретить доступ к папке и ее дочерним папкам, но разрешить доступ к одной конкретной дочерней папке.

    Вы добавляете правила, сначала указывая, к какому агенту пользователя должно применяться правило, а затем перечисляя, какие правила следует применять, используя Disallow и Allow. Есть также некоторые другие команды, такие как Crawl-delay и Sitemap, но это либо:

    • Игнорируется большинством основных поисковых роботов или интерпретируется совершенно по-разному (в случае задержки сканирования)
    • Сделано излишним благодаря таким инструментам, как Google Search Console (для карт сайта)

    Давайте рассмотрим некоторые конкретные варианты использования, чтобы показать вам, как все это сочетается.

    Как использовать robots.txt, чтобы заблокировать доступ ко всему вашему сайту

    Допустим, вы хотите заблокировать доступ всех поисковых роботов к вашему сайту. Это вряд ли произойдет на живом сайте, но пригодится для сайта разработки. Для этого вы должны добавить этот код в файл robots.txt WordPress:

    Что происходит в этом коде?

    Как использовать robots.txt, чтобы заблокировать доступ одного бота к вашему сайту

    Давайте изменим ситуацию. В этом примере мы притворимся, что вам не нравится тот факт, что Bing сканирует ваши страницы. Вы все время являетесь командой Google и даже не хотите, чтобы Bing просматривал ваш сайт. Чтобы запретить сканирование вашего сайта только Bing, вы должны заменить подстановочный знак *звездочка на Bingbot:

    Подпишитесь на рассылку новостей

    Хотите узнать, как мы увеличили трафик более чем на 1000 %?

    Присоединяйтесь к более чем 20 000 человек, которые получают нашу еженедельную рассылку с полезными советами по WordPress!

    По сути, в приведенном выше коде говорится, что правило Disallow следует применять только к ботам с агентом пользователя «Bingbot». Теперь вы вряд ли захотите заблокировать доступ к Bing, но этот сценарий пригодится, если есть конкретный бот, которому вы не хотите получать доступ к своему сайту. На этом сайте есть хороший список имен большинства известных пользовательских агентов службы.

    Как использовать robots.txt для блокировки доступа к определенной папке или файлу

    Для этого примера предположим, что вы хотите заблокировать доступ только к определенному файлу или папке (и ко всем подпапкам этой папки). Чтобы применить это к WordPress, допустим, вы хотите заблокировать:

    • Вся папка wp-admin
    • wp-login.php

    Вы можете использовать следующие команды:

    Как использовать robots.txt, чтобы разрешить доступ к определенному файлу в запрещенной папке

    Хорошо, теперь предположим, что вы хотите заблокировать всю папку, но при этом разрешить доступ к определенному файлу в этой папке. Здесь пригодится команда Разрешить. И это на самом деле очень применимо к WordPress. Фактически, виртуальный файл robots.txt WordPress прекрасно иллюстрирует этот пример:

    Этот код блокирует доступ ко всей папке /wp-admin/, кроме файла /wp-admin/admin-ajax.php.

    Как использовать robots.txt, чтобы запретить ботам сканировать результаты поиска WordPress

    Одна специфичная для WordPress настройка, которую вы, возможно, захотите сделать, — запретить поисковым роботам сканировать ваши страницы результатов поиска. По умолчанию WordPress использует параметр запроса «?s=». Итак, чтобы заблокировать доступ, все, что вам нужно сделать, это добавить следующее правило:

    Это может быть эффективным способом предотвращения программных ошибок 404, если вы их получаете. Обязательно прочитайте наше подробное руководство о том, как ускорить поиск в WordPress.

    Как создать разные правила для разных ботов в файле robots.txt

    До сих пор все примеры относились к одному правилу за раз. Но что, если вы хотите применить разные правила к разным ботам? Вам просто нужно добавить каждый набор правил в объявление User-agent для каждого бота. Например, если вы хотите создать одно правило, которое будет применяться ко всем ботам, а другое правило будет применяться только к Bingbot, вы можете сделать это следующим образом:

    Боретесь с простоями и проблемами WordPress? Kinsta — это решение для хостинга, предназначенное для экономии вашего времени! Ознакомьтесь с нашими возможностями

    В этом примере всем ботам будет заблокирован доступ к /wp-admin/, но Bingbot не сможет получить доступ ко всему вашему сайту.

    Проверка файла robots.txt

    Вы можете протестировать файл robots.txt WordPress в Google Search Console, чтобы убедиться, что он настроен правильно. Просто перейдите на свой сайт и в разделе «Сканирование» нажмите «Тестер robots.txt». Затем вы можете отправить любой URL, включая вашу домашнюю страницу. Вы должны увидеть зеленый Разрешено, если все доступно для сканирования. Вы также можете проверить заблокированные вами URL-адреса, чтобы убедиться, что они действительно заблокированы или запрещены.

    Проверить файл robots.txt

    Остерегайтесь спецификации UTF-8

    BOM означает метку порядка следования байтов и представляет собой невидимый символ, который иногда добавляется в файлы старыми текстовыми редакторами и т.п. Если это произойдет с вашим файлом robots.txt, Google может неправильно его прочитать. Вот почему важно проверить файл на наличие ошибок. Например, как показано ниже, наш файл имел невидимый символ, и Google жалуется на непонимание синтаксиса. По сути, это делает первую строку нашего файла robots.txt недействительной, что нехорошо! У Гленна Гейба есть отличная статья о том, как UTF-8 Bom может убить вашу поисковую оптимизацию.

    Робот Google в основном базируется в США

    Также важно не блокировать робота Googlebot из США, даже если вы ориентируетесь на локальный регион за пределами США. Иногда они выполняют локальное сканирование, но робот Google в основном базируется в США.

    Что популярные сайты WordPress помещают в свой файл robots.txt

    Чтобы обеспечить некоторый контекст для перечисленных выше моментов, вот как некоторые из самых популярных сайтов WordPress используют свои файлы robots.txt.

    Технический кризис

    Файл TechCrunch Robots.txt

    Помимо ограничения доступа к ряду уникальных страниц, TechCrunch, в частности, запрещает поисковым роботам:

    Они также установили специальные ограничения для двух ботов:

    Фонд Обамы

    Файл Robots.txt Фонда Обамы

    Фонд Обамы не вносил особых дополнений, ограничивая доступ исключительно к /wp-admin/.

    Злые птички

    Файл Angry Birds Robots.txt

    У Angry Birds такие же настройки по умолчанию, как и у The Obama Foundation. Ничего особенного не добавляется.

    Дрейф

    Файл Drift Robots.txt

    Наконец, Drift решает определить свои карты сайта в файле Robots.txt, но в остальном оставляет те же ограничения по умолчанию, что и Фонд Обамы и Angry Birds.

    Используйте robots.txt правильно

    Заканчивая наше руководство по robots.txt, мы хотим еще раз напомнить вам, что использование команды Disallow в файле robots.txt — это не то же самое, что использование тега noindex. Robots.txt блокирует сканирование, но не обязательно индексирование. Вы можете использовать его, чтобы добавить определенные правила, определяющие, как поисковые системы и другие боты взаимодействуют с вашим сайтом, но он не будет явно контролировать, индексируется ли ваш контент или нет.

    Большинству случайных пользователей WordPress нет необходимости в срочном изменении стандартного виртуального файла robots.txt. Но если у вас возникли проблемы с определенным ботом или вы хотите изменить способ взаимодействия поисковых систем с определенным подключаемым модулем или темой, которые вы используете, вы можете добавить свои собственные правила.

    Мы надеемся, что вам понравилось это руководство, и обязательно оставьте комментарий, если у вас возникнут дополнительные вопросы об использовании файла robots.txt в WordPress.

    Экономьте время, деньги и повышайте эффективность сайта с помощью:

    • Мгновенная помощь от экспертов по хостингу WordPress, круглосуточно и без выходных.
    • Интеграция с Cloudflare Enterprise.
    • Глобальный охват аудитории благодаря 29 центрам обработки данных по всему миру.
    • Оптимизация с помощью нашего встроенного мониторинга производительности приложений.

    Все это и многое другое в одном плане без долгосрочных контрактов, помощи при миграции и 30-дневной гарантии возврата денег. Ознакомьтесь с нашими планами или поговорите с отделом продаж, чтобы найти план, который подходит именно вам.

    Отобранные статьи по теме

    Блог

    Лучшие SEO-плагины WordPress (и обязательные SEO-инструменты в 2022 году)

    SEO не обязательно должно быть сложным. Изучите наши рекомендуемые SEO-плагины и инструменты для WordPress, чтобы повысить удобство использования и рейтинг вашего сайта в поиске.

    Блог

    Руководство по карте сайта WordPress: что это такое и как его использовать

    Узнайте, как создать карту сайта WordPress, какую пользу она принесет вашему сайту и как отправить ее в Google и другие поисковые системы.

    Читайте также: