Проиндексирован, несмотря на блокировку в файле robots txt, как исправить
Обновлено: 21.11.2024
Видите ли вы следующее предупреждение в Google Search Console: «Проиндексировано, но заблокировано файлом robot.txt»? Это означает, что Google проиндексировал URL-адрес, несмотря на то, что он был заблокирован вашим файлом robots.txt. Google показывает предупреждение для этих URL-адресов, потому что они не уверены, хотите ли вы, чтобы эти URL-адреса были проиндексированы. Что вы делаете в этой ситуации? И как Yoast SEO может помочь вам исправить это? Давайте узнаем!
Как исправить предупреждение «Проиндексировано, но заблокировано robots.txt»
Google обнаружил ссылки на URL-адреса, заблокированные вашим файлом robots.txt. Итак, чтобы исправить это, вам нужно просмотреть эти URL-адреса и определить, хотите ли вы, чтобы они были проиндексированы или нет. Затем вам нужно будет соответствующим образом отредактировать файл robots.txt, и вы можете сделать это в Yoast SEO. Давайте рассмотрим шаги, которые вам необходимо предпринять.
-
В Google Search Console экспортируйте список URL-адресов.
Экспортируйте из Google Search Console URL-адреса, помеченные как «Проиндексированы, но заблокированы файлом robots.txt».
Проверьте, какие URL-адреса вы хотите, чтобы поисковые системы индексировали, а какие вы не хотите, чтобы поисковые системы имели к ним доступ.
Вы окажетесь на панели управления WordPress.
В меню администратора слева нажмите SEO. В появившемся меню нажмите Инструменты.
Обновите файл robots.txt, чтобы разрешить Google доступ к URL-адресам, которые вы делаете индексировать, и запретите Google доступ к URL-адресам, которые вы не используете. хотите проиндексировать. Узнайте больше о том, как редактировать файл robots.txt. Или узнайте больше о robots.txt в нашем Полном руководстве по robots.txt.
Перейдите к отчету об индексировании, а затем к странице с проблемами. Там нажмите кнопку Проверить исправление. Затем вы отправите запрос в Google для повторной оценки файла robots.txt в сравнении с вашими URL-адресами.
Если вы получили оповещение по электронной почте или случайно заметили предупреждение "Проиндексировано, хотя и заблокировано файлом robots.txt" в вашей консоли поиска Google, как показано ниже, в этой статье базы знаний мы покажем вам, как устранить неполадки. предупреждение и исправьте его.
Содержание
1 Что означает ошибка «Проиндексировано, но заблокировано Robots.Txt»?
Ошибка просто означает,
- Google нашел вашу страницу и проиндексировал ее в результатах поиска.
- Однако в файле robots.txt также было обнаружено правило, предписывающее игнорировать страницу при сканировании.
Теперь, когда Google не знает, индексировать страницу или нет, он просто выдает предупреждение в Google Search Console. Чтобы вы могли разобраться в этом и выбрать план действий.
Если вы заблокировали страницу с намерением предотвратить ее индексирование, вы должны знать, что хотя Google в большинстве случаев уважает robots.txt, само по себе это не может предотвратить индексацию страницы. Причин может быть множество, например, внешний сайт ссылается на вашу заблокированную страницу и в конечном итоге заставляет Google проиндексировать страницу с небольшим количеством доступной информации.
С другой стороны, если страница должна быть проиндексирована, но случайно заблокирована файлом robots.txt, вам следует разблокировать страницу в файле robots.txt, чтобы сканеры Google могли получить к ней доступ.
Теперь вы понимаете основную идеологию этого предупреждения. Практических причин этого может быть много, учитывая CMS и техническую реализацию. Следовательно, в этой статье мы рассмотрим комплексный способ отладки и исправления этого предупреждения.
2 Экспорт отчета из Google Search Console
Для небольших веб-сайтов у вас может быть только несколько URL-адресов под этим предупреждением. Но самые сложные веб-сайты и сайты электронной коммерции должны иметь сотни или даже тысячи URL-адресов. Хотя использовать GSC для просмотра всех ссылок невозможно, вы можете экспортировать отчет из Google Search Console, чтобы открыть его в редакторе электронных таблиц.
Чтобы экспортировать, просто нажмите на предупреждение, которое будет доступно в панели инструментов Google Search Console > Покрытие > Действительно с предупреждениями.
На следующей странице вы сможете экспортировать все URL-адреса, относящиеся к этому предупреждению, щелкнув параметр «Экспорт» в правом верхнем углу. Из списка вариантов экспорта вы можете загрузить и открыть файл в редакторе электронных таблиц по вашему выбору.
Теперь, когда вы экспортировали URL-адреса, самое первое, что вы должны выяснить, просмотрев эти URL-адреса, — следует ли индексировать страницу или нет. И дальнейшие действия будут зависеть только от вашего ответа.
3 страницы для индексации
Если вы выяснили, что страница должна быть проиндексирована, проверьте файл robots.txt и определите, есть ли какое-либо правило, препятствующее сканированию страницы роботом Googlebot.
Чтобы отладить файл robots.txt, выполните точно описанные ниже действия.
3.1 Открыть тестер robots.txt
Сначала перейдите к тестировщику robots.txt. Если ваша учетная запись Google Search Console связана с несколькими веб-сайтами, выберите свой веб-сайт из списка сайтов, показанного в правом верхнем углу. Теперь Google загрузит файл robots.txt вашего сайта. Вот как это будет выглядеть.
3.2 Введите URL вашего сайта
В нижней части инструмента вы найдете возможность ввести URL-адрес вашего веб-сайта для тестирования. Здесь вы добавите URL-адрес из электронной таблицы, которую мы скачали ранее.
3.3 Выберите User-Agent
В раскрывающемся списке справа от текстового поля выберите пользовательский агент, который вы хотите имитировать (бот Googlebot в нашем случае).
3.4 Проверка robots.txt
Наконец, нажмите кнопку "Проверить".
Сканер немедленно проверит, есть ли у него доступ к URL-адресу на основе конфигурации robots.txt, и, соответственно, тестовая кнопка окажется в состоянии ПРИНЯТО или ЗАБЛОКИРОВАНО.
Редактор кода, доступный в центре экрана, также выделит правило в файле robots.txt, которое блокирует доступ, как показано ниже.
3.5 Редактирование и отладка
Если тестер robots.txt обнаружит какое-либо правило, запрещающее доступ, вы можете попробовать отредактировать правило прямо в редакторе кода, а затем снова запустить тест.
Вы также можете обратиться к нашей специальной статье базы знаний о robots.txt, чтобы узнать больше о принятых правилах, и было бы полезно изменить правила здесь.
Если вам удастся исправить правило, будет здорово. Но учтите, что это инструмент отладки, и любые внесенные вами изменения не будут отражены в файле robots.txt вашего веб-сайта, если вы не скопируете и не вставите содержимое в файл robots.txt своего веб-сайта.
3.6 Экспорт файла robots.txt
Поэтому, чтобы добавить измененные правила в файл robots.txt, перейдите в раздел Rank Math > General Settings > Edit robots.txt в области администрирования WordPress. Если этот параметр недоступен для вас, убедитесь, что вы используете расширенный режим в Rank Math.
В редакторе кода, расположенном посередине экрана, вставьте код, скопированный из файла robots.txt. Tester, а затем нажмите кнопку Сохранить изменения, чтобы применить изменения.
4 страницы не подлежат индексации
Что ж, если вы определили, что страница не должна быть проиндексирована, но Google проиндексировал страницу, это может быть одной из причин, которые мы обсудили ниже.
4.1 Неиндексированные страницы, заблокированные файлом robots.txt
Если страница не должна индексироваться в результатах поиска, это должно быть указано в директиве Robots Meta, а не в правиле robots.txt.
Файл robots.txt содержит только инструкции по сканированию. Помните, что сканирование и индексирование — это два разных процесса.
Предотвращение сканирования страницы ≠ Предотвращение индексации страницы
Чтобы предотвратить индексацию страницы, вы можете добавить метаданные No Index Robots с помощью Rank Math.
Но тогда, если вы добавите метаданные No Index Robots и одновременно заблокируете поисковую систему от сканирования этих URL-адресов, технически вы не позволите роботу Googlebot сканировать и узнать, что страница содержит метаданные No Index Robots.
В идеале следует разрешить роботу Googlebot сканировать эти страницы, и на основании метаданных No Index Robots Google исключит страницу из индекса.
Примечание. Используйте robots.txt только для блокировки файлов (таких как изображения, PDF, фиды и т. д.), в которые невозможно добавить метаданные No Index Robots.
4.2 Внешние ссылки на заблокированные страницы
Страницы, которые вы заблокировали с помощью файла robots.txt, могут иметь ссылки с внешних сайтов. Затем робот Googlebot попытается проиндексировать страницу.
Поскольку вы запретили роботам сканировать страницу, Google проиндексирует страницу с ограниченной информацией, доступной на связанной странице.
Чтобы решить эту проблему, вы можете обратиться к внешнему сайту и запросить изменение ссылки на более релевантный URL на вашем веб-сайте.
5. Заключение — проверьте исправление в Google Search Console
После устранения проблем с URL-адресами вернитесь к предупреждению Google Search Console и нажмите кнопку Проверить исправление. Теперь Google повторно просканирует эти URL-адреса и закроет проблему, если ошибка устранена.
И все! Мы надеемся, что статья помогла вам исправить ошибку, и если у вас все еще есть какие-либо вопросы, вы можете связаться с нашей службой поддержки прямо отсюда, и мы всегда готовы помочь.
Если вы получили электронное письмо от Google Search Console (GSC), в котором говорится: "Проиндексировано, хотя и заблокировано robots.txt", тогда вот небольшая помощь о том, что происходит и как это исправить.
Проверьте настройки noindex
Введите URL-адрес страницы, чтобы проверить, не заблокирована ли она
Что такое «Проиндексировано, но заблокировано robots.txt»:
Если вы получили электронное письмо от Google Search Console (GSC), в котором говорится: "Проиндексировано, хотя и заблокировано robots.txt", тогда вот небольшая помощь о том, что происходит и как это исправить.
Вот скриншот уведомления:
Это сообщение означает, что Google проиндексировал ваши URL-адреса, но обнаружил указание игнорировать их в вашем файле robots.txt.
Это означает, что они не будут отображаться в результатах, и это может повлиять на их способность занимать место во всех SERP (страницах результатов поисковой системы). В этой части вы узнаете, как решить эту проблему и можно ли просто игнорировать ее. Ниже показано, что может показать отчет об индексировании Google Search Console с указанным количеством URL. Возможно, показанные фрагменты неоптимальны, например:
Что такое файл robots.txt?
Файл Robots.txt находится в каталоге вашего веб-сайта и является вторым файлом, который боты читают при сканировании вашего веб-сайта. Он предлагает некоторые инструкции для ботов, таких как бот Google, относительно того, какие файлы они должны и не должны просматривать.
Бесплатная пробная версия SiteGuru
Проведите полный SEO-аудит вашего сайта
Почему я получаю это уведомление?
«Проиндексировано, но заблокировано robots.txt» может отображаться по нескольким причинам.
Ниже приведены наиболее распространенные:
Преднамеренно
Конечно, это не проблема, если файл robots.txt содержит директивы от вас или разработчика о блокировке страниц, дублировании или ненужных страницах/категориях.
Неверный формат URL
Страницы, которые следует проиндексировать
Существует довольно много причин, по которым страницы, которые должны быть проиндексированы, не индексируются. Вот почему:
Правило в файле robots.txt
В вашем файле robots.txt может быть директива, запрещающая индексацию страниц, которые действительно должны быть проиндексированы, например категорий и тегов. Помните, что категории и теги — это настоящие URL-адреса на вашем веб-сайте.
Вы указываете роботу Googlebot цепочку переадресации
Боты, такие как Googlebot, просматривают все ссылки, которые им попадаются, и делают все возможное, чтобы прочитать их для индексации. Тем не менее, если вы настроите многогранную, длинную, глубокую переадресацию или если страница будет просто недоступна, робот Googlebot перестанет искать.
Правильно реализована каноническая ссылка
Канонический тег размещается в заголовке HTML и сообщает роботу Googlebot, какая страница является предпочтительной и канонической в случае дублирования контента. Бонус! Каждая страница должна иметь канонический тег. Например, если у вас есть страница, переведенная на испанский язык, вы сами сделаете каноническим URL-адрес на испанском языке и захотите вернуть страницу к канонической версии на английском языке по умолчанию.
Страницы, которые не следует индексировать
Опять же, существует довольно много причин, по которым страницы, которые не следует индексировать, индексируются. Но почему?
Директива Noindex
Noindex означает, что веб-страница не должна индексироваться. Страница с этой директивой будет просканирована, но не проиндексирована. В файле robots.txt убедитесь, что:
- Существует не более одного блока «агент пользователя».
- Строка «запретить» не сразу следует за строкой «агент пользователя».
- Невидимые символы Unicode удалены. Это можно сделать, запустив файл robots.txt в текстовом редакторе, который преобразует кодировки.
На страницы есть ссылки с других веб-сайтов
Страницы, на которые есть ссылки с других сайтов, могут быть проиндексированы, даже если это запрещено в файле robots.txt. Когда это происходит, в результатах поиска отображаются только якорный текст и URL-адрес. Вот скриншот того, как эти URL-адреса отображаются в источнике изображения SERP. Веб-мастера StackExchange Эту проблему (блокировку robots.txt) можно решить следующим образом:
- Пароль, защищающий файлы на вашем сервере.
- Удалите страницы из файла robots.txt или добавьте следующий метатег, чтобы заблокировать их:
Старые URL
Предполагается, что вы создали новый веб-сайт или даже новый контент и включили правило noindex в robots.txt для предотвращения индексации. Или недавно зарегистрировались в GSC, есть способы исправить проблему с блокировкой robots.txt:
- Дайте Google время удалить старые URL из своего индекса. Обычно Google удаляет URL-адреса, если они продолжают возвращать ошибки 404. Не рекомендуется использовать плагины для перенаправления ошибок 404, так как они могут вызвать проблемы, которые могут привести к тому, что GSC отправит вам уведомление «заблокировано robots.txt».
- 301 перенаправляет старые URL на текущие
Проверьте, есть ли у вас файл robots.txt
GSC также может отправлять вам эти уведомления, даже если у вас нет файла robots.txt. CMS, например WordPress, может уже создать файл robots.txt, плагины также могут создавать файлы robots.txt. Перезапись виртуальных файлов robots.txt вашими собственными файлами robots.txt. Это может привести к проблемам с GSC.
Как решить эту проблему?
Использование директивы, позволяющей роботам поисковых систем сканировать ваш веб-сайт, – это единственный способ, с помощью которого боты определят, какие URL индексировать, а какие игнорировать.
Вот директива, которая позволяет всем ботам сканировать ваш сайт:
Это означает "ничего не запрещать".
Вот шаги, чтобы определить, какие страницы вы хотите запретить:
<р>1. Вы можете либо просмотреть все страницы, либо экспортировать список URL-адресов из любого инструмента SEO-аудита, который может предоставить все страницы вашего сайта, в нашем случае мы использовали аудит SiteGuru:<р>2. Определите URL-адреса, которые вы не хотите индексировать в поисковой выдаче, и добавьте их в файл robots.txt:
User-agent: *
Запретить: /page-you-want-to-disallow/
Запретить: /more-page-you-want-to-disallow/
Запретить: /другая-страница, которую вы хотите запретить/
<р>4. Если вы все еще получаете уведомление, проверьте, какие страницы могли ссылаться на запрещенные страницы, и удалите ссылку. Google Search Console не показывает, где все страницы связаны с непроиндексированным URL-адресом, но вы можете использовать инструмент SEO, такой как SiteGuru, чтобы определить, какие URL-адреса ведут на непроиндексированную страницу:
Что запретит robots.txt?
- Запретить сканирование всего веб-сайта. Имейте в виду, что в некоторых случаях URL-адреса с веб-сайта могут быть проиндексированы, даже если они не были просканированы. Обратите внимание, что это не соответствует различным поисковым роботам AdsBot, имена которых должны быть указаны явно.
- Запретите сканирование каталога и его содержимого, указав после имени каталога косую черту. Помните, что вы не должны использовать robots.txt для блокировки доступа к частному контенту — вместо этого используйте надлежащую аутентификацию. Это связано с тем, что любой может просматривать файл robots.txt, а запрещенные им URL-адреса могут по-прежнему индексироваться без сканирования.
Агент пользователя: *
Запретить: /tags/
В приведенном выше примере запрещены все страницы, следующие по пути /tags/:
Готовы улучшить свой веб-сайт?
Получите бесплатный отчет о поисковой оптимизации всего за 5 минут. Начните улучшать свой сайт сегодня
Рик ван Хаастерен
Рик ван Хаастерен любит поисковую оптимизацию и создание отличных инструментов.
Рик работал специалистом по поисковой оптимизации для многих крупных международных клиентов, а также имеет большой опыт разработки веб-сайтов и приложений.
Если вы следите за техническими усилиями вашей компании по поисковой оптимизации или перед вами стоит задача увеличения трафика на веб-сайт, Google Search Console — один из самых ценных инструментов, который вы можете использовать для сбора информации о состоянии вашего веб-сайта.
Отчет об охвате индексом в Google Search Console дает вам подробное представление о том, какие страницы вашего сайта были проиндексированы, и предупреждает вас о любых проблемах с индексированием, с которыми робот Googlebot столкнулся при сканировании вашего сайта.
Если Google обнаружит какие-либо проблемы с индексированием (которые вы найдете в разделах "Ошибки" и "Предупреждения" в отчете о покрытии), вам следует немедленно их исправить, чтобы убедиться, что ваш контент индексируется правильно. и занимает высокие позиции в результатах поиска.
Общее предупреждение, которое вы можете встретить в отчете о покрытии, называется «Проиндексировано, но заблокировано robots.txt».
Здесь мы объясним, что означает это сообщение, и предоставим пошаговые инструкции по его устранению.
Что означает предупреждение «Проиндексировано, но заблокировано robots.txt»?
Согласно данным Google, это предупреждение указывает на то, что соответствующий URL-адрес когда-то был проиндексирован, но теперь заблокирован файлом robots.txt. Обычно это происходит, когда кто-то хочет, чтобы страница больше не сканировалась, и добавляет ее в файл robots вместо добавления директивы noindex на страницу.
Что такое файл robots.txt?
Ваш файл robots.txt – это текстовый файл, который содержит инструкции для роботов (роботов поисковых систем) относительно страниц вашего сайта, которые они должны сканировать, а какие нет. «Разрешая» или «запрещая» поведение поисковых роботов, вы говорите: «Да, просканируйте эту страницу!» или "Нет, не сканировать эту страницу!"
Это также означает, что, поскольку роботы не могут просканировать страницу, они не смогут ее проиндексировать. Однако это не всегда так.
Давайте посмотрим, почему это произошло.
Что вызывает предупреждение «Проиндексировано, но заблокировано robots.txt»?
Предполагая, что для рассматриваемых URL-адресов действуют правила запрета, вы не хотите, чтобы они были проиндексированы. Итак, почему это происходит?
В большинстве случаев это предупреждение появляется, когда выполняются оба следующих условия:
- В файле robots.txt есть запрещающее правило.
- В HTML-коде страницы есть метатег noindex.
В этом сценарии вы одновременно говорите Google не сканировать эту страницу и не индексировать ее. Проблема здесь в том, что если вы запретили сканерам просматривать эту страницу с помощью правила в файле robots.txt, они не смогут увидеть директиву noindex в HTML и удалить страницу из индекса.
Есть ли на вашем сайте еще ошибки? Загрузите наш контрольный список из 187 пунктов для самопроверки!
Несмотря на то, что это может показаться сложным, устранить это предупреждение достаточно просто.
Как устранить предупреждение «Проиндексировано, но заблокировано robots.txt»?
Чтобы исправить предупреждение "Проиндексировано, хотя и заблокировано robots.txt", сначала убедитесь, что на странице, которую вы хотите удалить из индекса Google, установлена директива noindex. Затем вам нужно будет удалить правило запрета из файла robots.txt, чтобы позволить Google увидеть директиву noindex и впоследствии исключить затронутые страницы из индекса.
Конкретные шаги для этого зависят от вашей CMS. Ниже мы рассмотрим шаги по исправлению этого предупреждения для сайтов WordPress.
Как редактировать файл robots.txt в WordPress
Самый простой способ отредактировать файл robots.txt для вашего WordPress — использовать Yoast SEO. Просто выполните следующие действия:
1. Перейдите к Yoast на панели инструментов WordPress и нажмите «Инструменты». 2. Нажмите «Редактор файлов».
3. Отредактируйте файл robots.txt и удалите правила запрета для затронутых строк URL.
Если у вас не установлен Yoast или файл robots.txt отсутствует в редакторе файлов, вы можете редактировать файл robots.txt на уровне сервера. Мы скоро углубимся в это.
Как отредактировать файл robots.txt вручную через FTP
Для этого варианта вам потребуется доступ к вашему серверу через FTP. Вы можете сделать это с помощью Adobe Dream Weaver и войти в систему, используя учетные данные своего сайта. После подключения к серверу выполните следующие действия:
- Загрузите файл robots.txt с сервера.
- Откройте файл в обычном текстовом редакторе, таком как Блокнот Microsoft, и удалите правила запрета для затронутых URL-адресов.
- Сохраните файл без изменения имени.
- Загрузите файл на сервер, он перезапишет старую версию файла robots.txt.
Проверка исправления в Google Search Console
Теперь, когда вы успешно обновили файл robots.txt, вы готовы сообщить об этом Google!
Для этого перейдите в раздел "Подробности" и нажмите на предупреждение.
Здесь вы просто нажимаете «Проверить исправление».
Теперь Google повторно просканирует URL-адреса, увидит директивы noindex и удалит страницы из индекса. Предупреждение теперь должно быть устранено, и вы на пути к здоровому, оптимизированному для SEO веб-сайту!
Это конкретное предупреждение — лишь одна из многих проблем со сканированием в Google Search Console, которые могут угрожать общему состоянию вашего веб-сайта. Чтобы получить полный список ошибок на вашем веб-сайте и способы их устранения, свяжитесь с нами для проведения технического SEO-аудита, и мы сделаем всю грязную работу.
Читайте также: