Где находится текстовый файл robots

Обновлено: 21.11.2024

Файл robots.txt — это текстовый документ, расположенный в корневом каталоге сайта и содержащий информацию, предназначенную для сканеров поисковых систем, о том, какие URL-адреса (собственные страницы, файлы, папки и т. д.) следует сканировать, а какие не должен. Наличие этого файла не является обязательным для работы сайта, но в то же время его правильная настройка лежит в основе SEO.

Решение об использовании файла robots.txt было принято еще в 1994 году в рамках стандарта исключения роботов. Согласно Справочному центру Google, основная цель файла — не запретить показ веб-страниц в результатах поиска, а ограничить количество запросов роботов к сайтам, а также снизить нагрузку на сервер.

Вообще говоря, содержимое файла robots.txt следует рассматривать как рекомендацию для поисковых роботов, определяющую правила сканирования веб-сайтов. Чтобы получить доступ к содержимому файла robots.txt любого сайта, все, что вам нужно сделать, это ввести «/robots.txt» после имени домена в браузере.

Для чего используется robots.txt?

Основная функция документа – предотвратить сканирование страниц и файлов ресурсов, чтобы краулинговый бюджет распределялся более эффективно. В подавляющем большинстве случаев файл robots.txt скрывает информацию, не представляющую никакой ценности для посетителей веб-сайта и не влияющую на ранжирование в поисковой выдаче.

Примечание. Бюджет сканирования — это количество веб-страниц, которые может просканировать поисковый робот. Чтобы использовать его более экономно, поисковым роботам следует направлять только самое важное содержимое веб-сайтов и блокировать доступ к бесполезной информации.

Какие страницы и файлы обычно закрываются через robots.txt

<р>1. Страницы, содержащие личные данные.

Персональные данные могут включать в себя имена и номера телефонов, которые посетители указывают при регистрации, личные кабинеты и страницы профиля, номера платежных карт. В целях безопасности доступ к такой информации должен быть дополнительно защищен паролем.

<р>2. Вспомогательные страницы, которые появляются только после определенных действий пользователя.

К таким действиям обычно относятся сообщения, которые клиенты получают после успешного выполнения заказа, клиентские формы, страницы авторизации или восстановления пароля.

<р>3. Панель администратора и системные файлы.

Внутренние и служебные файлы, с которыми взаимодействуют администраторы или веб-мастера веб-сайта.

<р>4. Страницы поиска и сортировки по категориям.

Страницы, которые отображаются после того, как посетитель веб-сайта вводит запрос в окно поиска сайта, обычно закрыты для сканеров поисковых систем. То же самое касается результатов, которые пользователи получают при сортировке товаров по цене, рейтингу и другим критериям. Сайты-агрегаторы могут быть исключением.

Результаты, отображаемые с примененным фильтром (размер, цвет, производитель и т. д.), представляют собой отдельные страницы и могут рассматриваться как дублирующийся контент. Как правило, SEO-специалисты также предотвращают их сканирование, за исключением случаев, когда они привлекают трафик по ключевым словам бренда или другим целевым запросам.

<р>6. Файлы определенного формата.

Такие файлы могут включать фотографии, видео, документы .PDF, файлы JS. С помощью файла robots.txt вы можете ограничить сканирование отдельных файлов или файлов с определенными расширениями.

Как создать файл robots.txt и куда его поместить?

Инструменты для настройки robots.txt

Поскольку документ имеет расширение .txt, подойдет любой текстовый редактор, поддерживающий кодировку UTF-8. Самый простой вариант — Блокнот (Windows) или TextEdit (Mac).

Вы также можете использовать генератор robots.txt, который создаст файл robots.txt на основе указанной информации.

Название и размер документа

Имя файла robots.txt должно выглядеть именно так, без использования заглавных букв. Согласно рекомендациям Google, допустимый размер документа составляет 500 КиБ. Превышение этого ограничения может привести к тому, что поисковый робот частично обработает документ, не просканирует сайт вообще или, наоборот, просканирует содержимое сайта полностью.

Куда поместить файл

Документ должен находиться в корневом каталоге хоста веб-сайта, и к нему можно получить доступ через FTP. Прежде чем вносить какие-либо изменения, рекомендуется загрузить файл robots.txt в исходном виде.

синтаксис и директивы robots.txt

Теперь подробнее рассмотрим синтаксис файла robots.txt, состоящего из директив (правил), параметров (страниц, файлов, каталогов) и специальных символов, а также выполняемых ими функций.

Общие требования к содержимому файла

<р>1. Каждая директива должна начинаться с новой строки и формироваться по принципу: одна строка = одна директива + один параметр.

<р>2.Имена файлов, в которых используются буквы, отличные от латиницы, должны быть преобразованы с помощью конвертера Punycode.

<р>3. В синтаксисе параметров необходимо придерживаться соответствующего регистра. Если имя папки начинается с заглавной буквы, то указание ее с маленькой буквы дезориентирует робота. И наоборот.

<р>4. Использование пробела в начале строки, кавычек или точек с запятой для директив строго запрещено.

символы файла robots.txt

Давайте разберем основные символы, содержащиеся в файле, и выясним, что означает каждый из них.

Слэш (/) добавляется после команды, перед именем файла или каталога (папки, раздела). Если вы хотите закрыть весь каталог, вам нужно поставить еще один «/» после его имени.

Звездочка (*) указывает на то, что файл robots.txt применяется ко всем роботам поисковых систем, которые посещают сайт.

User-agent: * означает, что правила и условия распространяются на всех роботов.

Запретить: /*videos/ означает, что все ссылки на веб-сайты, содержащие /videos/, не будут сканироваться.

Знак доллара ($) – это ограничение типа звездочки, которое применяется к URL-адресам сайта. Например, содержимое сайта или отдельного файла недоступно, но доступны ссылки, содержащие указанное имя.

директивы файла robots.txt

Различия в директивах для разных поисковых систем

Давайте рассмотрим различные команды, которые можно использовать для доступа к Google, Bing, Yahoo! и роботы Яндекса. Никогда не знаешь, когда это пригодится.

Как видите, основные директивы robots.txt для доступа к Google, Bing, Yahoo! и роботы Яндекса совпадают, за исключением параметров crawl-delay и clean-param (распознаются только Яндексом).

User-agent — это обязательная директива, определяющая поискового робота, для которого применяются определенные правила. Если ботов несколько, каждая группа правил начинается с этой команды.

Пример

User-agent: * означает, что инструкции применимы ко всем существующим роботам.

User-agent: Googlebot означает, что файл предназначен для робота Google.

User-agent: Bing означает, что файл предназначен для робота Bing.

Агент пользователя: Yahoo! означает, что файл предназначен для Yahoo! робот.

Запретить — это ключевая команда, которая предписывает роботам поисковых систем не сканировать страницу, файл или папку. Имена файлов и папок, к которым вы хотите ограничить доступ, указываются после символа «/».

Пример 1. Указание других параметров после Disallow.

disallow: /link to page запрещает доступ к определенному URL-адресу.

disallow: /имя папки/ закрывает доступ к папке.

disallow: /image/ закрывает доступ к изображению.

disallow: /. Отсутствие каких-либо инструкций после символа «/» говорит о том, что сайт полностью закрыт от сканирования, что может пригодиться при разработке сайта.

Пример 2. Отключение проверки всех файлов .PDF на сайте.

В файле robots.txt Разрешить выполняет функцию, противоположную Запрещению, предоставляя доступ к содержимому веб-сайта. Обе команды обычно используются вместе, например, когда вам нужно открыть доступ к определенной части информации, такой как фотография в скрытом каталоге медиафайлов.

Пример. Использование разрешения для сканирования одного изображения в закрытом альбоме.

Укажите папку Allow, URL-адрес изображения и в другой строке Disallow вместе с названием папки, в которой находится файл.

Команда sitemap в файле robots.txt показывает путь к карте сайта. Директиву можно не указывать, если карта сайта имеет стандартное имя, находится в корневом каталоге и доступна по ссылке «имя сайта»/sitemap.xml, аналогично файлу robots.txt.

Пример

Чтобы не перегружать сервер, вы можете указать поисковым роботам рекомендуемое количество секунд для обработки страницы. Однако в настоящее время поисковые системы сканируют страницы с задержкой в ​​1 или 2 секунды. Следует подчеркнуть, что эта директива больше не актуальна для Google.

Пример

Когда следует использовать метатег robots

Если вы хотите скрыть контент сайта из результатов поиска, одного файла robots.txt будет недостаточно. Роботам дают указание не индексировать страницы с помощью метатега robots, который добавляется в заголовок HTML-кода страницы. Директива noindex указывает, что содержимое страницы не может быть проиндексировано. Еще один способ ограничить индексацию страницы — указать ее URL-адрес в X-Robots-Tag файла конфигурации сайта.

Пример закрытия на уровне страницы

Какие типы поисковых роботов существуют?

Сканер поиска – это программа особого типа, которая сканирует веб-страницы и добавляет их в базу данных поисковой системы.У Google есть несколько ботов, отвечающих за разные типы контента.

  • Googlebot: сканирует веб-сайты для компьютеров и мобильных устройств.
  • Изображение робота Googlebot: отображает изображения сайта в разделе "Изображения".
  • Googlebot Video: сканирует и отображает видео
  • Googlebot News: выбирает самые полезные и качественные статьи для раздела «Новости».
  • AdSense: ранжирует сайт как рекламную платформу с точки зрения релевантности рекламы.

Полный список роботов Google (пользовательских агентов) приведен в официальной справочной документации.

Для других поисковых систем актуальны следующие роботы: Bingbot для Bing, Slurp для Yahoo!, Baiduspider для Baidu, и на этом список не заканчивается. Существует более 300 различных поисковых роботов.

Помимо поисковых роботов, сайт могут сканировать сканеры аналитических ресурсов, например Ahrefs или Screaming Frog. Работа их программных решений основана на том же принципе, что и поисковые системы: анализируют URL-адреса, чтобы добавить их в свою базу данных.

Для ботов следует заблокировать доступ к сайтам:

  • Вредоносные парсеры (спам-боты, собирающие адреса электронной почты клиентов, вирусы, DoS- и DDoS-атаки и другие);
  • Боты других компаний, которые отслеживают информацию для дальнейшего использования в своих целях (цены, контент, методы SEO и т. д.).

Если вы решили закрыть сайт от вышеупомянутых роботов, лучше использовать файл .htaccess вместо robots.txt. Второй способ безопаснее, так как ограничивает доступ не в качестве рекомендации, а на уровне сервера.

SetEnvIfNoCase User-Agent «bot name-1» search_bot

SetEnvIfNoCase User-Agent «bot name-2» search_bot

Команда должна быть указана внизу файла .htaccess. Ограничения сканирования для каждого робота должны быть указаны в отдельной строке.

Пример содержимого robots.txt

Шаблон файла с актуальными директивами поможет вам правильно создать файл robots.txt, указав нужных роботов и ограничив доступ к соответствующим файлам сайта.

Агент пользователя: [имя бота]

Запретить: /[путь к файлу или папке]/

Запретить: /[путь к файлу или папке]/

Запретить: /[путь к файлу или папке]/

Карта сайта: [URL-адрес карты сайта]

Теперь давайте посмотрим на несколько примеров того, как файл robots.txt выглядит на разных веб-сайтах.

Вот минималистичная версия:

В следующем примере мы видим список каталогов веб-сайтов, которые закрыты для сканирования. Для некоторых ботов созданы отдельные группы, которые вообще запрещают обход сайта (Adsbot-Google, Mediapartners-Google):

Как проверить файл robots.txt

Иногда ошибки в файле robots.txt могут привести не только к исключению из индекса важных страниц, но и к тому, что весь сайт станет практически невидимым для поисковых систем.

В новом интерфейсе Google Search Console отсутствует параметр проверки файла robots.txt. Теперь вы можете проверять индексацию страниц по отдельности (Проверить URL) или отправлять запросы на удаление URL (Индекс – Удаление). Доступ к инструменту тестирования Robots.txt можно получить напрямую.

Как еще можно использовать robots.txt?

Вот что вы найдете в файле robots.txt Nike:

Пользователи, которым интересен файл robots.txt веб-сайта, скорее всего, хорошо разбираются в оптимизации. Поэтому документ может стать дополнительным способом поиска SEO-специалистов.

И вот что вы найдете на TripAdvisor:

А вот небольшой дудл, добавленный на сайт торговой площадки Esty:

Выводы

Подводя итог, приведем несколько важных выводов из этой записи блога, которые помогут вам закрепить свои знания о файлах robots.txt:

  • Файл robots.txt представляет собой руководство для роботов, в котором сообщается, какие страницы следует сканировать, а какие нет.
  • Файл robots.txt нельзя настроить для предотвращения индексации, но вы можете повысить вероятность того, что робот просканирует или проигнорирует определенные документы или файлы.
  • Скрытие бесполезного контента веб-сайта с помощью директивы disallow экономит краулинговый бюджет. Это справедливо как для многостраничных, так и для небольших веб-сайтов.
  • Для создания файла robots.txt достаточно простого текстового редактора, а для запуска проверки достаточно Google Search Console.
  • Имя файла robots.txt должно быть написано строчными буквами и не должно превышать 500 КБ.

Если у вас есть какие-либо вопросы или отзывы, обязательно свяжитесь с нами через раздел комментариев!

Сканеры всегда будут искать файл robots.txt в корневом каталоге вашего веб-сайта, например: https://www.contentkingapp.com/robots.txt . Перейдите к своему домену и просто добавьте " /robots.txt ".

Если ничего не появляется, у вас еще нет файла robots.txt. Не волнуйтесь, здесь мы объясним, как создать файл robots.txt.

Если вы хотите обновить файл robots.txt, продолжайте читать.

Поиск файла robots.txt в серверной части

Если вы используете систему управления контентом (CMS), вы можете управлять ею оттуда.

Ваш файл robots.txt в WordPress

Мы объяснили, где найти файл robots.txt в WordPress, в этой статье, посвященной самым популярным плагинам Yoast SEO, Rank Math и All in One SEO.

Если вы работаете над веб-сайтом WordPress, который еще не запущен, и вы обнаружили в файле robots.txt следующее содержимое:

затем проверьте свои настройки в разделе: Настройки > Чтение и найдите Видимость в поисковых системах .

Если установлен флажок Запретить поисковым системам индексировать этот сайт, WordPress создаст виртуальный файл robots.txt, запрещающий поисковым системам доступ к сайту.

Проверьте файл robots.txt и узнайте об этом прямо сейчас!

Мадженто 2

  1. Контент > Конфигурация (в разработке).
  2. Здесь отредактируйте настройки основного веб-сайта вместо представления магазина по умолчанию , так как последний не позволит вам изменить файл robots.txt.

На следующем экране прокрутите вниз до «Роботы поисковых систем» . Там вы можете определить содержимое файла robots.txt:

Магазины

В Shopware невозможно изменить файл robots.txt при установке по умолчанию.

Прочитайте полную статью Академии, чтобы узнать все о Robots.txt

Отслеживайте файл robots.txt

Один символ может улучшить или сломать вашу эффективность SEO.

Будьте предупреждены об изменениях и проблемах в файле robots.txt!

Ваш пробный период скоро закончится

Зарегистрируйтесь сейчас, чтобы быть в курсе своих SEO-эффективностей.

Ваша пробная версия завершена

Зарегистрируйтесь сейчас, чтобы быть в курсе своих SEO-эффективностей.

Начать бесплатную пробную версию

Подготовка и запуск за 20 секунд

  • Присоединяйтесь к более чем 35 000 умных людей
  • Тщательно отобранный контент по SEO и цифровому маркетингу.
  • Полезные статьи, исследования на основе данных, подкасты и видео.
  • Присоединяйтесь к более чем 35 000 умных людей
  • Тщательно отобранный контент по SEO и цифровому маркетингу.
  • Полезные статьи, исследования на основе данных, подкасты и видео.

Последнее обновление: 24 января 2022 г.

Google Аналитика

Информация, которую мы получаем, передается в Google и хранится Google на серверах за пределами Европейской экономической зоны. Мы заключили соглашение об обработке данных с Google, в котором были заключены соглашения об обработке персональных данных.

Социальные плагины

Такие компании, как LinkedIn, Twitter и Facebook, могут передавать ваши персональные данные за пределы Европейской экономической зоны. Пожалуйста, ознакомьтесь с нашей Политикой конфиденциальности здесь и с заявлением о конфиденциальности соответствующей социальной сети, чтобы узнать, как эти компании обращаются с вашими (личными) данными.

Пиксели

Мы также размещаем пиксели третьих лиц. Пиксель отслеживает ваше поведение в Интернете и то, как вы используете Веб-сайт. Эти данные агрегируются и дают нам информацию о целевой группе, которая посещает наш веб-сайт. На основе этой информации мы можем показывать рекламу определенной или похожей целевой группе на веб-сайте третьей стороны, создавшей пиксель.

Конфиденциальность

Возможно, что информация, собранная с помощью файлов cookie или полученная иным образом, содержит персональные данные. В этом случае наша Политика конфиденциальности применяется к обработке этих данных.С Политикой конфиденциальности можно ознакомиться здесь.

Можно ли изменить эту политику в отношении файлов cookie?

В будущем мы можем изменить настоящую Политику в отношении файлов cookie. Если происходят существенные или существенные изменения, которые могут в значительной степени затронуть одну или несколько вовлеченных сторон, мы заранее информируем их. Наша измененная политика в отношении файлов cookie также будет доступна на этой веб-странице, поэтому рекомендуется регулярно просматривать эту страницу.

В файле robots.txt встречаются инструкции, которые говорят поисковым роботам, какие URL-адреса на следующем сайте им разрешено обрабатывать. С его помощью можно уменьшить количество поступающих на сканирование и тем самым уменьшить нагрузку на сайт. Файл robots.txt не предназначен для того, чтобы запретить показ ваших материалов в разделе Google. Если вы не хотите, чтобы какие-либо сайты были представлены в Google, добавьте страницы на их директиву no onlyindex или выполните их доступными по паролю.

Для чего служит файл robots.txt

Файл robots.txt используется главным образом для управления трафиком поисковых роботов. Как правило, с его помощью также можно поддерживать содержание результатов поиска Google (это зависит от типа накопления).

Файл robots.txt позволяет управлять сканированием веб-страниц в форматах, которые робот Googlebot может обработать (он поддерживает, например, HTML или PDF, но неиспользуемые файлы). С помощью вы можете уменьшить количество поступающих, которые Google отправляет на ваш сервер или запрещает сканировать разделы сайта, в которых содержится неважная или повторяющаяся информация.

Файл robots.txt не предназначен для блокировки показа веб-страницы в офисе Google.

Если на странице приведены ссылки с информативным текстом, размещенные на других сайтах, то робот Googlebot может добавить эту страницу в индекс, даже не открывая. Чтобы исправить ее из результатов поиска, следует использовать другой метод, например, заблокировать доступ к ней с помощью алгоритма или директивы noindex .

Файл robots.txt может использоваться как для управления трафиком поисковых роботов, так и для блокировки показа изображений, видеороликов и аудиофайлов в офисе поиска Google. Такая блокировка не мешает другим владельцам сайтов и пользователей пользоваться услугами вашего медиаконтента. Советуем ознакомиться с популярными статьями:

Какие кадры при сборе файла robots.txt

Прежде чем создать или изменить файл robots.txt, проанализируйте риски, связанные с этим методом. Иногда для запрета индексирования URL лучше выбирать другие средства.

Как создать файл robots.txt

Если не указано иное, содержимое этой страницы предоставляется по лицензии Creative Commons Attribution 4.0, а образцы кода — по лицензии Apache 2.0. Подробнее см. в Правилах сайта Google Developers. Java является зарегистрированным товарным знаком Oracle и/или ее дочерних компаний.

Если вы пользуетесь сервисом веб-хостинга (например, Wix или Blogger), скорее всего, вам никогда не понадобится файл robots.txt или у вас даже не будет такой возможности. Вместо этого ваш провайдер будет предоставлять систему поиска, необходимо ли сканировать ваш контент, с помощью настроек страницы поиска или другого инструмента.

Если вы хотите самостоятельно запретить или разрешить поисковый системный процесс обработки страницы вашего сайта, попробуйте найти информацию об этом в сервисе управления хостингом. Пример страницы запроса: "wix как скрыть от поисковых систем".

Ниже представлен пример простого файла robots.txt с представлением.

Более подробные сведения вы найдете в разделе Синтаксис.

Основные рекомендации по версии файла robots.txt

Работа с файлом robots.txt включает четыре этапа.

Как создать файл robots.txt

Создать файл robots.txt можно в любом редакторе текстов, таких как Блокнот, TextEdit, vi или Emacs. Не використовывайте офисные приложения, поскольку они часто сохраняют файлы в собственном формате и добавляют в них лишние символы, например, фигурные кавычки, которые не распознаются поисковыми роботами. Обязательно сохраните файл в кодировке UTF-8, если вам будет предложено выбрать кодировку.

Правила в отношении расположения и расположения файла

Как добавить правила в файл robots.txt

Правила – это инструкции для поисковых роботов, указывающие, какие разделы сайта можно сканировать. Добавьте правила в файл robots.txt, учите назначайте:

  • Файл robots.txt состоит из одной или более групп.
  • Каждая группа может отображать несколько правил по одной из строк. Эти правила также являются директивами или стандартами. Каждая группа начинается со строки User-agent, наблюдающей, какому роботу адресованы правила в ней.
  • Группа содержит информацию:
    • К какому агенту относятся директивы группы.
    • К каким каталогам или файлам у этого агента есть доступ.
    • К каким каталогам или файлам у этого агента нет доступа.

    Директивы в файлах robots.txt, наличие роботов Google

    Все директивы, кроме карты сайта, встречается подстановочный знак * для обозначения префикса или суффикса пути, а также всего пути.

    Строки, некогда ни одной из этих директив, корректируются.

    Ознакомьтесь со спецификацией Google для файлов robots.txt, где подробно представлены все директивы.

    Как загрузить файл robots.txt

    Сохраненный на компьютере файл robots.txt необходимо загрузить на сайт и сделать доступным для поиска роботов. Специального инструмента для этого не существует, поскольку загрузка зависит от вашего сайта и серверной архитектуры. Обратитесь к собственному хостинг-провайдеру или попробуйте самостоятельно найти его документацию (пример запроса: "загрузка файлов инфоманиак").

    После загрузки файла robots.txt проверьте, доступен ли он для роботов и может ли Google обработать его.

    Как протестировать разметку файла robots.txt

    Для этой цели Google предлагает два средства:

    1. Инструмент проверки файла robots.txt в Search Console. Этот инструмент можно использовать только для файлов robots.txt, которые уже вышли на следующий сайт.
    2. Если вы разработчик, мы рекомендуем рекомендуемую библиотеку с исходным кодом, который также присоединен к Google Searche. С помощью этого инструмента файлы robots.txt можно настроить прямо на компьютере.

    Когда вы загружаете и протестируете файл robots.txt, поисковые роботы Google автоматически наступают и начинают применение. С вашей стороны никаких действий не требуется. Если вы внесли в файл robots.txt изменения и хотите быстро обновить кешированную версию, следуйте за канцелярией в этой статье.

    Полезные правила

    Вот несколько часто встречающихся правил в файлах robots.txt.

    Следует учесть, что в некоторых случаях URL-адрес сайта индексируется, даже если они не были просканированы.

    Сканировать весь сайт может только робот googlebot-news .

    Робот Unnecessarybot не может сканировать сайт, а все остальные базы данных.

    Это правило запрещает сканирование отдельных страниц.

    Например, можно запретить сканирование страницы useless_file.html .

    Как правило, обнаруживается обнаружение изображения роботом Google Картинок.

    Например, вы можете запретить сканировать изображение dogs.jpg .

    Это правило скрывает все изображения на сайте робота Google Картинок.

    Google не может индексировать изображения и видео, доступные для мощного компьютера.

    Это правило запрещает сканировать все файлы определенного типа.

    Например, вы можете запретить роботам доступ ко всем файлам .jpg .

    Это правило запрещает сканировать весь сайт, но при этом он может загружаться роботом Mediapartners-Google

    Робот Mediapartners-Google может получить доступ к удаленным пользователям из результатов поиска страницы, чтобы подобрать объявление для показа или иному пользователю.

    Например, эта функция позволяет исправить все файлы .xls .

    Если не указано иное, содержимое этой страницы предоставляется по лицензии Creative Commons Attribution 4.0, а образцы кода — по лицензии Apache 2.0. Подробнее см. в Правилах сайта Google Developers. Java является зарегистрированным товарным знаком Oracle и/или ее дочерних компаний.

    Robots.txt — это текстовый файл, который веб-мастера создают для того, чтобы проинструктировать веб-роботов (обычно роботов поисковых систем) о том, как сканировать страницы на их веб-сайте. Файл robots.txt является частью протокола исключения роботов (REP), группы веб-стандартов, которые регулируют, как роботы сканируют Интернет, получают доступ и индексируют контент, а также предоставляют этот контент пользователям. REP также включает такие директивы, как метароботы, а также инструкции для страницы, подкаталога или сайта о том, как поисковые системы должны обрабатывать ссылки (например, «follow» или «nofollow»).

    На практике файлы robots.txt указывают, могут ли определенные пользовательские агенты (программное обеспечение для веб-сканирования) сканировать части веб-сайта. Эти инструкции по обходу указываются путем «запрета» или «разрешения» определенных (или всех) пользовательских агентов.

    Основной формат:

    Вместе эти две строки считаются полным файлом robots.txt, хотя один файл robots может содержать несколько строк пользовательских агентов и директив (например, запрещает, разрешает, задерживает сканирование и т. д.).

    В файле robots.txt каждый набор директив пользовательского агента отображается как отдельный набор, разделенный разрывом строки:

    В файле robots.txt с несколькими директивами пользовательского агента, каждое запрещающее или разрешающее правило применяется только к пользовательскому агенту (агентам), указанным в этом конкретном наборе, разделенном разрывом строки. Если файл содержит правило, которое применяется более чем к одному пользовательскому агенту, сканер будет обращать внимание (и следовать указаниям) только на наиболее конкретную группу инструкций.

    Вот пример:

    Msnbot, discobot и Slurp вызываются специально, поэтому эти пользовательские агенты будут обращать внимание только на директивы в своих разделах файла robots.txt. Все остальные пользовательские агенты будут следовать директивам в группе пользовательских агентов: *.

    Пример robots.txt:

    Блокировка всех поисковых роботов для всего контента
    Предоставление всем поисковым роботам доступа ко всему контенту
    Блокировка определенного поискового робота в определенной папке
    Блокировка определенного поискового робота на определенной веб-странице

    Как работает файл robots.txt?

    Поисковые системы выполняют две основные функции:

    1. Сканирование в Интернете для обнаружения контента;
    2. Индексировать этот контент, чтобы его можно было показывать пользователям, которые ищут информацию.

    Чтобы сканировать сайты, поисковые системы переходят по ссылкам, чтобы перейти с одного сайта на другой, и в конечном итоге сканируют многие миллиарды ссылок и веб-сайтов. Такое поведение сканирования иногда называют «пауками».

    После перехода на веб-сайт, но до его сканирования, поисковый робот будет искать файл robots.txt. Если он найдет его, сканер сначала прочитает этот файл, прежде чем продолжить просмотр страницы. Поскольку файл robots.txt содержит информацию о том, как должна сканировать поисковая система, найденная в нем информация будет указывать дальнейшие действия сканера на этом конкретном сайте. Если файл robots.txt не содержит какие-либо директивы, запрещающие действия пользовательского агента (или если на сайте нет файла robots.txt), он продолжит сканирование другой информации на сайт.

    Другие важные сведения о файле robots.txt:

    (более подробно обсуждается ниже)

    Чтобы его можно было найти, файл robots.txt должен быть помещен в каталог верхнего уровня веб-сайта.

    Robots.txt чувствителен к регистру: файл должен называться «robots.txt» (не Robots.txt, robots.TXT и т. д.).

    Некоторые пользовательские агенты (роботы) могут игнорировать ваш файл robots.txt. Это особенно характерно для более опасных поисковых роботов, таких как вредоносные роботы или программы для очистки адресов электронной почты.

    Файл /robots.txt является общедоступным: просто добавьте /robots.txt в конец любого корневого домена, чтобы увидеть директивы этого веб-сайта (если на этом сайте есть файл robots.txt! ). Это означает, что любой может видеть, какие страницы вы сканируете, а какие не хотите, поэтому не используйте их для сокрытия личной информации пользователя.

    Как правило, рекомендуется указывать расположение любых файлов Sitemap, связанных с этим доменом, в нижней части файла robots.txt. Вот пример:

    Выявление критических предупреждений robots.txt с помощью Moz Pro

    Функция сканирования сайта Moz Pro проверяет ваш сайт на наличие проблем и выделяет срочные ошибки, которые могут помешать вам появиться в Google. Воспользуйтесь 30-дневной бесплатной пробной версией и узнайте, чего вы можете достичь:

    Технический синтаксис robots.txt

    Синтаксис robots.txt можно рассматривать как «язык» файлов robots.txt. Есть пять общих терминов, которые вы, вероятно, встретите в файле robots. К ним относятся:

    Агент пользователя: определенный поисковый робот, которому вы даете инструкции по сканированию (обычно это поисковая система). Список большинства пользовательских агентов можно найти здесь.

    Запретить: команда, используемая для указания агенту пользователя не сканировать определенный URL-адрес. Для каждого URL допускается только одна строка «Запретить:».

    Разрешить (применимо только для робота Googlebot): команда, сообщающая роботу Googlebot, что он может получить доступ к странице или вложенной папке, даже если его родительская страница или вложенная папка могут быть запрещены.

    Crawl-delay: сколько секунд должен ждать сканер перед загрузкой и сканированием содержимого страницы. Обратите внимание, что Googlebot не подтверждает эту команду, но скорость сканирования можно установить в Google Search Console.

    Карта сайта: используется для указания местоположения любой карты сайта в формате XML, связанной с этим URL-адресом. Обратите внимание, что эта команда поддерживается только Google, Ask, Bing и Yahoo.

    Соответствие шаблону

    Когда дело доходит до фактических URL-адресов, которые нужно блокировать или разрешать, файлы robots.txt могут быть довольно сложными, поскольку они позволяют использовать сопоставление с шаблоном для охвата диапазона возможных вариантов URL-адресов. Google и Bing поддерживают два регулярных выражения, которые можно использовать для идентификации страниц или подпапок, которые SEO хочет исключить. Этими двумя символами являются звездочка (*) и знак доллара ($).

    • * – это подстановочный знак, обозначающий любую последовательность символов.
    • $ соответствует концу URL

    Google предлагает большой список возможных вариантов синтаксиса сопоставления с образцом и примеры здесь.

    Где файл robots.txt размещается на сайте?

    Чтобы убедиться, что ваш файл robots.txt найден, всегда включайте его в свой основной каталог или корневой домен.

    Зачем вам нужен файл robots.txt?

    Файлы robots.txt контролируют доступ поисковых роботов к определенным областям вашего сайта. Хотя это может быть очень опасно, если вы случайно запретите роботу Googlebot сканировать весь ваш сайт (!!), в некоторых ситуациях файл robots.txt может оказаться очень полезным.

    Некоторые распространенные варианты использования включают:

    • Предотвращение дублирования контента в поисковой выдаче (обратите внимание, что метароботы часто лучше подходят для этого)
    • Сохранение конфиденциальности целых разделов веб-сайта (например, пробного сайта вашей инженерной группы)
    • Предотвращение отображения страниц с результатами внутреннего поиска в общедоступной поисковой выдаче.
    • Указание местоположения файлов Sitemap
    • Предотвращение индексации поисковыми системами определенных файлов на вашем веб-сайте (изображений, PDF-файлов и т. д.)
    • Указание задержки сканирования, чтобы предотвратить перегрузку серверов, когда сканеры одновременно загружают несколько фрагментов контента.

    Если на вашем сайте нет областей, к которым вы хотите контролировать доступ агента пользователя, возможно, вам вообще не нужен файл robots.txt.

    Проверка наличия файла robots.txt

    Если страница .txt не отображается, у вас в настоящее время нет (действующей) страницы robots.txt.

    Как создать файл robots.txt

    Если вы обнаружили, что у вас нет файла robots.txt или вы хотите изменить свой, создать его несложно. В этой статье Google рассматривается процесс создания файла robots.txt, и этот инструмент позволяет вам проверить, правильно ли настроен ваш файл.

    Хотите попрактиковаться в создании файлов robots? В этом сообщении блога рассматриваются некоторые интерактивные примеры.

    Оптимальные методы SEO

    Убедитесь, что вы не блокируете содержание или разделы своего веб-сайта, которые хотите просканировать.

    Ссылки на страницы, заблокированные файлом robots.txt, не будут открываться. Это означает, что 1.) Если на них также не ссылаются другие страницы, доступные для поисковых систем (т. е. страницы, не заблокированные через robots.txt, meta robots или иным образом), связанные ресурсы не будут сканироваться и не могут быть проиндексированы. 2.) Никакой вес ссылок не может быть передан с заблокированной страницы на место назначения ссылки. Если у вас есть страницы, на которые вы хотите передать право собственности, используйте другой механизм блокировки, отличный от robots.txt.

    Не используйте robots.txt, чтобы предотвратить появление конфиденциальных данных (например, личной информации пользователя) в результатах поисковой выдачи. Поскольку другие страницы могут напрямую ссылаться на страницу, содержащую личную информацию (таким образом, в обход директив robots.txt на вашем корневом домене или домашней странице), она все равно может быть проиндексирована. Если вы хотите заблокировать свою страницу в результатах поиска, используйте другой метод, например защиту паролем или мета-директиву noindex.

    Некоторые поисковые системы имеют несколько пользовательских агентов. Например, Google использует Googlebot для обычного поиска и Googlebot-Image для поиска изображений. Большинство пользовательских агентов одной и той же поисковой системы следуют одним и тем же правилам, поэтому нет необходимости задавать директивы для каждого из нескольких поисковых роботов поисковой системы, но возможность сделать это позволяет точно настроить сканирование содержимого вашего сайта.< /p>

    Поисковая система кэширует содержимое файла robots.txt, но обычно обновляет кэшированное содержимое не реже одного раза в день. Если вы изменили файл и хотите обновить его быстрее, чем это происходит, вы можете отправить URL-адрес robots.txt в Google.

    Robots.txt, мета-роботы и x-роботы

    Так много роботов! В чем разница между этими тремя типами инструкций для роботов? Во-первых, robots.txt — это настоящий текстовый файл, тогда как meta и x-robots — это метадирективы. Помимо того, чем они на самом деле являются, все три выполняют разные функции. Файл robots.txt определяет поведение сканирования сайта или всего каталога, тогда как мета-роботы и x-роботы могут определять поведение индексации на уровне отдельной страницы (или элемента страницы).

    Продолжайте учиться

    Используйте свои навыки

    Moz Pro определяет, блокирует ли ваш файл robots.txt доступ поисковой системы к вашему веб-сайту. Попробуйте >>

    Читайте также: