Индексирование txt для роботов отключено

Обновлено: 15.05.2024

@tvanfosson : хотя чаще всего происходит переход от индексации к включению в список, сайт не обязательно должен быть проиндексирован, чтобы попасть в список. Если ссылка указывает на страницу, домен или что-то еще, эта ссылка будет переходить. Если файл robots.txt в этом домене не позволяет поисковой системе индексировать эту страницу, она все равно будет отображать URL в результатах, если сможет получить данные из других переменных, на которые, возможно, стоит обратить внимание.

9 ответов 9

это заблокирует индексирование всех поисковых роботов.

На самом деле, если быть точным, это заблокирует сканирование сайта всеми законными ботами. Вредоносные программы по-прежнему будут пытаться это сделать, если это имеет значение.

Однако это правильно, если "паук" не проверяет robots.txt, то он, вероятно, является вредоносным, что, исходя из моего опыта, означает, что они также будут подделывать пользовательский агент, что делает его смехотворно трудным для остановки.

Этот ответ приведет к тому, что Google по-прежнему будет индексировать страницу. Когда я попробовал это и выполнил поиск в Google, мой сайт все еще отображался, но с сообщением «Описание этого результата недоступно из-за файла robots.txt этого сайта». См. ответ Карлоса.

Осторожно! На самом деле файл robots.txt не позволит поисковой системе сканировать ваш сайт, но не индексировать его. Индексация — это процесс загрузки контента сайта или страницы на сервер поисковой системы, тем самым добавляя его в свой «индекс». Ответ @Karol гораздо точнее и полнее.

Я должен добавить свой ответ здесь, так как принятый ответ на самом деле не затрагивает проблему должным образом. Также помните, что запрет на сканирование Google не означает, что вы можете сохранить конфиденциальность своего контента.

Файл robots.txt управляет сканированием, но не индексированием! Это два совершенно разных действия, выполняемых по отдельности. Некоторые страницы могут быть просканированы, но не проиндексированы, а некоторые даже проиндексированы, но никогда не просканированы. Ссылка на непросканированную страницу может существовать на других веб-сайтах, что заставит индексатор Google перейти по ней и попытаться проиндексировать.

Вопрос касается индексации, которая собирает данные о странице, чтобы она могла быть доступна в результатах поиска. Его можно заблокировать добавлением метатега:

Если вопрос касается сканирования, то, конечно, вы можете создать файл robots.txt и добавить следующие строки:

Сканирование – это действие, выполняемое для сбора информации о структуре одного конкретного веб-сайта. Например. вы добавили сайт с помощью инструментов Google для веб-мастеров. Краулер примет это к сведению и зайдет на ваш сайт в поисках robots.txt. Если он ничего не найдет, то будет считать, что может сканировать что угодно (очень важно также иметь файл sitemap.xml, чтобы помочь в этой операции, а также указать приоритеты и определить частоту изменений). Если он найдет файл, он будет следовать правилам. После успешного сканирования он в какой-то момент запустит индексирование просканированных страниц, но вы не можете сказать, когда именно.

Важно: все это означает, что ваша страница по-прежнему может отображаться в результатах поиска Google независимо от файла robots.txt .

Я надеюсь, что хотя бы некоторые пользователи прочитают этот ответ и поймут его, поскольку очень важно знать, что на самом деле происходит.

Как лучше всего запретить роботам сканировать страницы?

Разные методы блокировки для разных ситуаций:

Нет. Эти методы устанавливаются только для сайтов, на которых вы можете изменить код или добавить файлы. Подробнее о том, как удалить информацию из Google…

Как уменьшить скорость загрузки сайта поисковыми роботами Google?

Вопросы о файле robots.txt

Я использую один файл robots.txt для нескольких сайтов. Можно ли указывать полные URL, а не относительные?

Нет. В директивах файла robots.txt (за исключением карты сайта: ) должны быть только ответственные пути.

Можно ли связать файл robots.txt в подкаталоге?

Нет. Этот файл должен быть размещен в корневом каталоге сайта.

Я хочу заблокировать доступ к личной папке. Можно ли сделать файл robots.txt доступным для других пользователей?

Нет. Файл robots.txt доступен всем. Если вы не хотите, чтобы название папок или файлов с контентом стали известными людям, не указывайте эти названия в файле robots.txt. Не рекомендуется передавать разные файлы robots.txt в зависимости от агента пользователя или других атрибутов.

Нужно ли директиву разрешить, чтобы проверить сканирование?

Нет. Сканирование будет осуществляться без директив. По умолчанию все URL разрешены. Указывать allow имеет смысл только для того, чтобы переопределить директиву disallow , которая задана в том же файле robots.txt.

Что происходит, если в файле robots.txt будет ошибка или неподдерживаемая директива?

В какой программе нужно создать файл robots.txt?

Используйте любую программу, позволяющую создавать текстовые файлы, например Блокнот, TextEdit, vi или Emacs. Советуем сначала прочитать эту статью. Создав файл, проверьте его с помощью этого инструмента.

Если я с помощью директивы отклоню файл robots.txt, заблокирую робота Googlebot, доступ к странице, исчезнет ли она из результатов поиска?

Если заблокировать робота Googlebot, обратитесь к странице, она может быть удалена из индекса Google.

Через какое время изменения в файле robots.txt отразятся на уровне отделения?

Прежде всего необходимо обновить копию файла robots.txt в кеше (обычно Google кеширует контент не более чем на один день). Чтобы ускорить этот процесс, отправьте в Google обновленный файл robots.txt. Однако процесс сложной и индексации устроен достаточно сложно, и для некоторых URL-адресов обновление информации может занимать продолжительное время даже после выявления нарушений. Поэтому мы не можем точно сказать, когда происходят изменения в органах об розыске. Также имеет в виду, что URL-адрес может появиться в реестре, даже если доступ к нему обнаружен заблокированным в файле robots.txt, и Google не может его просканировать. Если вы хотите, чтобы заблокированные страницы быстро исчезли из результатов поиска Google, отправьте запрос на их удаление.

Как полностью приостановить сканирование моего сайта на Французское время?

Мой сервер не регистрируется. Как полностью запретить сканирование некоторых папок?

Я возвращаю код ответа 403 Forbidden для всех моих URL на сайте, в том числе для URL файла robots.txt. Почему мой сайт по-прежнему сканируется?

Вопросы о метатеге роботов

Является ли метатег robots заменой файла robots.txt?

Нет. Файл robots.txt управляет доступностью страниц, в то время как метатег robots вызывает тревогу, необходимо ли индексировать страницу. Робот должен просканировать этот тег. Если необходимо запретить сканирование страниц (например, когда она составляет высокую премию на сервере), використовуйте файл robots.txt. Если же просто требуется указать, необходимо ли появление страницы в реестре, можно просмотреть метатегом роботов.

Можно ли с помощью метатега robots запретить индексирование только части страницы?

Нет, метатег роботов для всех участников.

Можно ли использовать метатег роботов за пределами раздела ?

Нет. Метатег robots можно добавлять только в раздел на странице.

Можно ли с помощью метатега роботов запретить сканирование?

Нет. Даже если в метатеге robots указана директива noindex , роботы будут периодически сканировать URL, чтобы проверить, не был ли этот атрибут изменен.

Чем директива nofollow в метатеге robots отличается от атрибута rel="nofollow" в теге link?

Директива nofollow в метатеге robots запрещает переходить по всем ссылкам на странице. Атрибут rel="nofollow" тега ссылка относится только к той ссылке, в которой он указан. Дополнительная информация об атрибуте rel="nofollow" в теге ссылка, представленная в статьях, посвященных спаму в необычном и атрибуту rel="nofollow" .

Как проверить наличие заголовка X-Robots-Tag для URL?

Заголовки ответа сервера проще всего анализировать с помощью URL-адреса проверки в Google Search Console. Чтобы проверить заголовки ответа для любого URL-адреса, попробуйте проверку заголовка сервера поиска по запросу.

Не удалось найти ответ?

Если вы не нашли ответа на свой вопрос на этой странице, то получили справочные ресурсы Google для владельцев сайтов.

Если не указано иное, содержимое этой страницы предоставляется по лицензии Creative Commons Attribution 4.0, а образцы кода — по лицензии Apache 2.0. Подробнее см. в Правилах сайта Google Developers. Java является зарегистрированным товарным знаком Oracle и/или ее дочерних компаний.

«Проиндексировано, но заблокировано файлом robots.txt» означает, что Google проиндексировал URL-адреса, несмотря на то, что они были заблокированы вашим файлом robots.txt.

Google пометил эти URL-адреса как "Действительные с предупреждением", поскольку они не уверены, хотите ли вы, чтобы эти URL-адреса были проиндексированы. В этой статье вы узнаете, как решить эту проблему.

Вот как это выглядит в отчете об индексировании Google Search Console с указанием количества показов URL:

Скриншот проиндексирован, хотя и заблокирован robots.txt в отчете об охвате индексами GSC

Перепроверить на уровне URL

Вы можете еще раз проверить это, выбрав Покрытие > Проиндексированные, хотя и заблокированные файлом robots.txt, и проверьте один из перечисленных URL. Затем в разделе «Сканирование» будет указано «Нет: заблокировано robots.txt» для поля «Сканирование разрешено» и «Ошибка: заблокировано robots.txt» для поля «Выбор страницы».

Отправьте свой веб-сайт и узнайте сразу!

Так что же произошло?

Обычно Google не проиндексировал бы эти URL-адреса, но, по-видимому, они нашли ссылки на них и сочли их достаточно важными для индексации.

Вполне вероятно, что показанные фрагменты неоптимальны, например:

Описание Google недоступен robots.txt

Как исправить ошибку «Проиндексировано, но заблокировано robots.txt»

  1. Экспортируйте список URL-адресов из Google Search Console и отсортируйте их по алфавиту.
  2. Пройдитесь по URL-адресам и проверьте, содержат ли они URL-адреса…
    1. То, что вы хотите проиндексировать. В этом случае обновите файл robots.txt, чтобы разрешить Google доступ к этим URL-адресам.
    2. К которым вы не хотите, чтобы поисковые системы имели доступ. Если это так, оставьте файл robots.txt без изменений, но проверьте, есть ли у вас какие-либо внутренние ссылки, которые следует удалить.
    3. К которым поисковые системы могут получить доступ, но которые вы не хотите индексировать. В этом случае обновите файл robots.txt, чтобы отразить это, и примените директивы robots noindex.
    4. Он не должен быть доступен никому и никогда. Возьмем, к примеру, промежуточную среду. В этом случае выполните действия, описанные в нашей статье Защита промежуточных сред.

    Отслеживайте каждое вносимое вами изменение и следите за тем, чтобы файл robots.txt не навредил вашему сайту еще больше!

    Проиндексировано, но заблокировано исправлением robots.txt для WordPress

    Процесс устранения этой проблемы для сайтов WordPress такой же, как описано выше, но вот несколько советов, как быстро найти файл robots.txt в WordPress:

    WordPress + Yoast SEO

    Если вы используете плагин Yoast SEO, выполните следующие действия, чтобы настроить файл robots.txt:

    1. Войдите в свой раздел wp-admin.
    2. На боковой панели выберите Плагин Yoast SEO > Инструменты .
    3. Перейти к редактору файлов.

    WordPress + расчет рейтинга

    Если вы используете подключаемый модуль Rank Math SEO, выполните следующие действия, чтобы настроить файл robots.txt:

    1. Войдите в свой раздел wp-admin.
    2. На боковой панели выберите Rank Math > Общие настройки.
    3. Перейдите к редактированию robots.txt.

    WordPress + Все в одном SEO

    Если вы используете подключаемый модуль All-in-One SEO, выполните следующие действия, чтобы настроить файл robots.txt:

    1. Войдите в свой раздел wp-admin.
    2. На боковой панели выберите All in One SEO > Robots.txt.

    Если вы работаете над веб-сайтом WordPress, который еще не запущен, и не можете понять, почему файл robots.txt содержит следующее:

    затем проверьте свои настройки в разделе: Настройки > Чтение и найдите Видимость в поисковых системах .

    Если установлен флажок Запретить поисковым системам индексировать этот сайт, WordPress создаст виртуальный файл robots.txt, запрещающий поисковым системам доступ к сайту.

    Проиндексировано, но заблокировано исправлением robots.txt для Shopify

    Shopify не позволяет вам управлять файлом robots.txt из их системы, поэтому вы работаете с файлом по умолчанию, который применяется ко всем сайтам.

    Возможно, вы видели сообщение «Проиндексировано, хотя и заблокировано robots.txt» в Google Search Console или получили электронное письмо от Google об этом по электронной почте «Обнаружена новая проблема индексирования». Мы рекомендуем всегда проверять, какие URL это касается, потому что вы не хотите оставлять что-либо на волю случая в SEO.

    Проверьте URL-адреса и проверьте, не заблокированы ли какие-либо важные URL-адреса. Если это так, у вас есть два варианта, которые требуют некоторой работы, но позволяют изменить файл robots.txt в Shopify:

    Стоит ли вам эти варианты, зависит от потенциального вознаграждения. Если он значителен, рассмотрите возможность реализации одного из этих вариантов.

    Вы можете использовать тот же подход на платформе Squarespace.

    🤖 Почему Google показывает эту ошибку для моих страниц?

    Google обнаружил ссылки на страницы, недоступные им из-за запрещающих директив robots.txt. Когда Google сочтет эти страницы достаточно важными, они проиндексируют их.

    🧐 Как исправить эту ошибку?

    Короткий ответ на этот вопрос заключается в том, чтобы убедиться, что страницы, которые вы хотите проиндексировать в Google, должны быть просто доступны для поисковых роботов Google. И страницы, которые вы не хотите индексировать, не должны быть связаны внутри. Подробный ответ описан в разделе «Как исправить «Проиндексирован, хотя и заблокирован robots.txt»» этой статьи.

    🧾 Могу ли я редактировать файл robots.txt в WordPress?

    Популярные плагины SEO, такие как Yoast, Rank Math и All in one SEO, например, позволяют редактировать файл robots.txt непосредственно из панели администратора wp.

    Прочитайте полную статью Академии, чтобы узнать все об отчете об индексировании Google Search Console

    Насколько сильно файл robots.txt влияет на эффективность SEO?

    Быстро найдите проблему и устраните ее!

    Ваш пробный период скоро закончится

    Зарегистрируйтесь сейчас, чтобы быть в курсе своих SEO-эффективностей.

    Ваша пробная версия завершена

    Зарегистрируйтесь сейчас, чтобы быть в курсе своих SEO-эффективностей.

    Начать бесплатную пробную версию

    Подготовка и запуск за 20 секунд

    • Присоединяйтесь к более чем 35 000 умных людей
    • Тщательно отобранный контент по SEO и цифровому маркетингу.
    • Полезные статьи, исследования на основе данных, подкасты и видео.
    • Присоединяйтесь к более чем 35 000 умных людей
    • Тщательно отобранный контент по SEO и цифровому маркетингу.
    • Полезные статьи, исследования на основе данных, подкасты и видео.

    Последнее обновление: 24 января 2022 г.

    Google Аналитика

    Информация, которую мы получаем, передается в Google и хранится Google на серверах за пределами Европейской экономической зоны. Мы заключили соглашение об обработке данных с Google, в котором были заключены соглашения об обработке персональных данных.

    Социальные плагины

    Такие компании, как LinkedIn, Twitter и Facebook, могут передавать ваши персональные данные за пределы Европейской экономической зоны. Пожалуйста, ознакомьтесь с нашей Политикой конфиденциальности здесь и с заявлением о конфиденциальности соответствующей социальной сети, чтобы узнать, как эти компании обращаются с вашими (личными) данными.

    Пиксели

    Мы также размещаем пиксели третьих лиц. Пиксель отслеживает ваше поведение в Интернете и то, как вы используете Веб-сайт. Эти данные агрегируются и дают нам информацию о целевой группе, которая посещает наш веб-сайт. На основе этой информации мы можем показывать рекламу определенной или похожей целевой группе на веб-сайте третьей стороны, создавшей пиксель.

    Конфиденциальность

    Возможно, что информация, собранная с помощью файлов cookie или полученная иным образом, содержит персональные данные. В этом случае наша Политика конфиденциальности применяется к обработке этих данных. С Политикой конфиденциальности можно ознакомиться здесь.

    Можно ли изменить эту политику в отношении файлов cookie?

    В будущем мы можем изменить настоящую Политику в отношении файлов cookie. Если происходят существенные или существенные изменения, которые могут в значительной степени затронуть одну или несколько вовлеченных сторон, мы заранее информируем их. Наша измененная политика в отношении файлов cookie также будет доступна на этой веб-странице, поэтому рекомендуется регулярно просматривать эту страницу.

    Robots.txt — это текстовый файл, который веб-мастера создают для того, чтобы проинструктировать веб-роботов (обычно роботов поисковых систем) о том, как сканировать страницы на их веб-сайте. Файл robots.txt является частью протокола исключения роботов (REP), группы веб-стандартов, которые регулируют, как роботы сканируют Интернет, получают доступ и индексируют контент, а также предоставляют этот контент пользователям. REP также включает такие директивы, как метароботы, а также инструкции для страницы, подкаталога или сайта о том, как поисковые системы должны обрабатывать ссылки (например, «follow» или «nofollow»).

    На практике файлы robots.txt указывают, могут ли определенные пользовательские агенты (программное обеспечение для веб-сканирования) сканировать части веб-сайта. Эти инструкции по обходу указываются путем «запрета» или «разрешения» определенных (или всех) пользовательских агентов.

    Основной формат:

    Вместе эти две строки считаются полным файлом robots.txt, хотя один файл robots может содержать несколько строк пользовательских агентов и директив (например, запрещает, разрешает, задерживает сканирование и т. д.).

    В файле robots.txt каждый набор директив пользовательского агента отображается как отдельный набор, разделенный разрывом строки:

    Директивы агента пользователя, указанные разрывами строк.

    В файле robots.txt с несколькими директивами пользовательского агента каждое запрещающее или разрешающее правило применяется только к пользовательскому агенту, указанному в этом конкретном наборе, разделенном разрывом строки. Если файл содержит правило, которое применяется более чем к одному пользовательскому агенту, сканер будет обращать внимание (и следовать указаниям) только на наиболее конкретную группу инструкций.

    Вот пример:

    Msnbot, discobot и Slurp вызываются специально, поэтому эти пользовательские агенты будут обращать внимание только на директивы в своих разделах файла robots.txt. Все остальные пользовательские агенты будут следовать директивам в группе пользовательских агентов: *.

    Пример robots.txt:

    Блокировка всех поисковых роботов для всего контента
    Предоставление всем поисковым роботам доступа ко всему контенту
    Блокировка определенного поискового робота в определенной папке
    Блокировка определенного поискового робота на определенной веб-странице

    Как работает файл robots.txt?

    Поисковые системы выполняют две основные функции:

    1. Сканирование в Интернете для обнаружения контента;
    2. Индексировать этот контент, чтобы его можно было показывать пользователям, которые ищут информацию.

    Чтобы сканировать сайты, поисковые системы переходят по ссылкам, чтобы перейти с одного сайта на другой, и в конечном итоге сканируют многие миллиарды ссылок и веб-сайтов. Такое поведение сканирования иногда называют «пауками».

    После перехода на веб-сайт, но до его сканирования, поисковый робот будет искать файл robots.txt.Если он найдет его, сканер сначала прочитает этот файл, прежде чем продолжить просмотр страницы. Поскольку файл robots.txt содержит информацию о том, как поисковая система должна сканировать, найденная в нем информация будет указывать дальнейшие действия сканера на этом конкретном сайте. Если файл robots.txt не содержит какие-либо директивы, запрещающие действия пользовательского агента (или если на сайте нет файла robots.txt), он продолжит сканирование другой информации на сайт.

    Другие важные сведения о файле robots.txt:

    (более подробно обсуждается ниже)

    Чтобы его можно было найти, файл robots.txt должен быть помещен в каталог верхнего уровня веб-сайта.

    Robots.txt чувствителен к регистру: файл должен называться «robots.txt» (не Robots.txt, robots.TXT и т. д.).

    Некоторые пользовательские агенты (роботы) могут игнорировать ваш файл robots.txt. Это особенно характерно для более опасных поисковых роботов, таких как вредоносные роботы или программы для очистки адресов электронной почты.

    Файл /robots.txt является общедоступным: просто добавьте /robots.txt в конец любого корневого домена, чтобы увидеть директивы этого веб-сайта (если на этом сайте есть файл robots.txt! ). Это означает, что любой может видеть, какие страницы вы сканируете, а какие не хотите, поэтому не используйте их для сокрытия личной информации пользователя.

    Как правило, рекомендуется указывать расположение любых файлов Sitemap, связанных с этим доменом, в нижней части файла robots.txt. Вот пример:

     Файлы Sitemap в robots.txt

    Выявление критических предупреждений robots.txt с помощью Moz Pro

    Функция сканирования сайта Moz Pro проверяет ваш сайт на наличие проблем и выделяет срочные ошибки, которые могут помешать вам появиться в Google. Воспользуйтесь 30-дневной бесплатной пробной версией и узнайте, чего вы можете достичь:

    Технический синтаксис robots.txt

    Синтаксис robots.txt можно рассматривать как «язык» файлов robots.txt. Есть пять общих терминов, которые вы, вероятно, встретите в файле robots. К ним относятся:

    Агент пользователя: определенный поисковый робот, которому вы даете инструкции по сканированию (обычно это поисковая система). Список большинства пользовательских агентов можно найти здесь.

    Запретить: команда, используемая для указания агенту пользователя не сканировать определенный URL-адрес. Для каждого URL допускается только одна строка «Запретить:».

    Разрешить (применимо только для робота Googlebot): команда, сообщающая роботу Googlebot, что он может получить доступ к странице или вложенной папке, даже если его родительская страница или вложенная папка могут быть запрещены.

    Crawl-delay: сколько секунд должен ждать сканер перед загрузкой и сканированием содержимого страницы. Обратите внимание, что Googlebot не подтверждает эту команду, но скорость сканирования можно установить в Google Search Console.

    Карта сайта: используется для указания местоположения любой карты сайта в формате XML, связанной с этим URL-адресом. Обратите внимание, что эта команда поддерживается только Google, Ask, Bing и Yahoo.

    Соответствие шаблону

    Когда дело доходит до фактических URL-адресов, которые нужно блокировать или разрешать, файлы robots.txt могут быть довольно сложными, поскольку они позволяют использовать сопоставление с шаблоном для охвата диапазона возможных вариантов URL-адресов. Google и Bing поддерживают два регулярных выражения, которые можно использовать для идентификации страниц или подпапок, которые SEO хочет исключить. Этими двумя символами являются звездочка (*) и знак доллара ($).

    • * – это подстановочный знак, обозначающий любую последовательность символов.
    • $ соответствует концу URL

    Google предлагает большой список возможных вариантов синтаксиса сопоставления с образцом и примеры здесь.

    Где файл robots.txt размещается на сайте?

    Чтобы убедиться, что ваш файл robots.txt найден, всегда включайте его в свой основной каталог или корневой домен.

    Зачем вам нужен файл robots.txt?

    Файлы robots.txt контролируют доступ поисковых роботов к определенным областям вашего сайта. Хотя это может быть очень опасно, если вы случайно запретите роботу Googlebot сканировать весь ваш сайт (!!), в некоторых ситуациях файл robots.txt может оказаться очень полезным.

    Некоторые распространенные варианты использования включают:

    • Предотвращение дублирования контента в поисковой выдаче (обратите внимание, что метароботы часто лучше подходят для этого)
    • Сохранение конфиденциальности целых разделов веб-сайта (например, пробного сайта вашей инженерной группы)
    • Предотвращение отображения страниц с результатами внутреннего поиска в общедоступной поисковой выдаче.
    • Указание местоположения файлов Sitemap
    • Предотвращение индексации поисковыми системами определенных файлов на вашем веб-сайте (изображений, PDF-файлов и т. д.)
    • Указание задержки сканирования, чтобы предотвратить перегрузку серверов, когда сканеры одновременно загружают несколько фрагментов контента.

    Если на вашем сайте нет областей, к которым вы хотите контролировать доступ агента пользователя, возможно, вам вообще не нужен файл robots.txt.

    Проверка наличия файла robots.txt

    Если страница .txt не отображается, у вас в настоящее время нет (действующей) страницы robots.txt.

    Как создать файл robots.текстовый файл

    Если вы обнаружили, что у вас нет файла robots.txt или вы хотите изменить свой, создать его несложно. В этой статье от Google рассматривается процесс создания файла robots.txt, и этот инструмент позволяет проверить, правильно ли настроен ваш файл.

    Хотите попрактиковаться в создании файлов robots? В этом сообщении блога рассматриваются некоторые интерактивные примеры.

    Оптимальные методы SEO

    Убедитесь, что вы не блокируете контент или разделы своего веб-сайта, которые хотите просканировать.

    Ссылки на страницы, заблокированные файлом robots.txt, не будут открываться. Это означает, что 1.) Если на них также не ссылаются другие страницы, доступные для поисковых систем (т. е. страницы, не заблокированные через robots.txt, meta robots или иным образом), связанные ресурсы не будут сканироваться и не могут быть проиндексированы. 2.) Никакой вес ссылок не может быть передан с заблокированной страницы на место назначения ссылки. Если у вас есть страницы, на которые вы хотите передать право собственности, используйте другой механизм блокировки, отличный от robots.txt.

    Не используйте robots.txt, чтобы предотвратить появление конфиденциальных данных (например, личной информации пользователя) в результатах поисковой выдачи. Поскольку другие страницы могут напрямую ссылаться на страницу, содержащую личную информацию (таким образом, в обход директив robots.txt на вашем корневом домене или домашней странице), она все равно может быть проиндексирована. Если вы хотите заблокировать свою страницу в результатах поиска, используйте другой метод, например защиту паролем или мета-директиву noindex.

    Некоторые поисковые системы имеют несколько пользовательских агентов. Например, Google использует Googlebot для обычного поиска и Googlebot-Image для поиска изображений. Большинство пользовательских агентов одной и той же поисковой системы следуют одним и тем же правилам, поэтому нет необходимости указывать директивы для каждого из нескольких поисковых роботов поисковой системы, но возможность сделать это позволяет точно настроить сканирование контента вашего сайта.< /p>

    Читайте также: