Где находится текстовый файл wordpress robots

Обновлено: 21.11.2024

Недостаточно просто создать веб-сайт. Попадание в список поисковых систем является основной целью всех владельцев веб-сайтов, чтобы веб-сайт отображался в поисковой выдаче по определенным ключевым словам. Этот список веб-сайтов и видимость самого свежего контента в основном связаны с роботами поисковых систем, которые сканируют и индексируют веб-сайты. Веб-мастера могут управлять тем, как эти роботы анализируют веб-сайты, вставляя инструкции в специальный файл robots.txt.

В этой статье я расскажу, как настроить файл WordPress robots.txt для лучшего SEO сайта. Обратите внимание, что поисковым системам не нужно индексировать несколько страниц веб-сайта WordPress.

Что такое файл robots.txt?

Файл robots.txt – это текстовый файл, расположенный в корневом каталоге вашего веб-сайта, который запрещает поисковым роботам сканировать отдельные части вашего веб-сайта. Он также известен как протокол исключения роботов, который не позволяет поисковым системам индексировать определенный бесполезный и/или определенный контент (например, вашу страницу входа и конфиденциальные файлы).

Короче говоря, файл robots.txt сообщает роботам поисковых систем, что им не следует сканировать на вашем веб-сайте.

Вот как это работает! Когда бот поисковой системы собирается просканировать URL-адрес вашего веб-сайта (то есть он будет сканировать и извлекать информацию, чтобы ее можно было проиндексировать), он сначала ищет ваш файл robots.txt.

Зачем создавать файл robots.txt для WordPress?

Обычно вам не нужно добавлять файл robots.txt для веб-сайтов WordPress. Поисковые системы индексируют все сайты WordPress по умолчанию. Однако для улучшения поисковой оптимизации вы можете добавить файл robots.txt в свой корневой каталог, чтобы специально запретить поисковым системам доступ к определенным областям вашего веб-сайта WordPress.

IdeaBox — Пример использования

Узнайте, как Cloudways помогла агентству WordPress создать лучшие продукты.

Спасибо

Ваша электронная книга уже на пути к вашему почтовому ящику.

Как создать файл robots.txt для WordPress?

Войдите в управляемую панель управления веб-хостингом WordPress. В моем примере я использую Cloudways — платформу управляемого облачного хостинга.

Перейдите на вкладку "Серверы" в верхней строке меню и получите доступ к SSH/SFTP в разделе "Управление сервером" → "Основные учетные данные".

Используйте любое приложение FTP-сервера для доступа к файлам базы данных WordPress. В этом руководстве я использую FileZilla. Запустите его и подключитесь к серверу, используя основные учетные данные.

После подключения перейдите в папку /applications файлов базы данных WordPress. Там вы увидите разные папки.

Теперь вернитесь на платформу Cloudways и в верхней левой панели перейдите в раздел «Приложения». Выберите приложение, для которого вы хотите добавить файл robots.txt:

На левой панели выберите Управление приложениями → Настройки приложения → Общие. Вы найдете имя папки вашего приложения.

Вернитесь в FileZilla и перейдите в папку /applications/[ИМЯ ПАПКИ]/public_html. Создайте здесь новый текстовый файл и назовите его robots.txt.

Щелкните правой кнопкой мыши файл robots.txt и выберите "Просмотр/редактирование", чтобы открыть его в текстовом редакторе (удобно использовать Блокнот).

Расширенный файл Robots.txt для WordPress

Поисковые системы, такие как Google и Bing, поддерживают использование подстановочных знаков в файле robots.txt. Эти подстановочные знаки можно использовать для разрешения/запрета определенных типов файлов на веб-сайте WordPress.

Звездочка (*) может использоваться для обработки широкого спектра вариантов/выборов.

Здесь «*» означает, что все изображения, начинающиеся с «image» и с расширением «jpg», не будут индексироваться поисковыми системами. Вот несколько примеров файла robots.txt для WordPress.

Пример: image1.jpg, image2.jpg, imagexyz.jpg не будут индексироваться поисковыми системами.

Сила * не ограничивается только изображениями. Вы даже можете запретить все файлы с определенным расширением.

Приведенные выше инструкции попросят все поисковые системы запретить все файлы с расширениями «pdf» и «png», найденные в папке загрузок.

Вы даже можете запретить основные каталоги WordPress, используя *.

Строка выше просит поисковые системы не сканировать каталоги, начинающиеся с «wp-».

Пример: wp-includes, wp-content и т. д. не будут индексироваться поисковыми системами.

Другим подстановочным знаком, используемым в файле robots.txt WordPress, является символ доллара ($).

Приведенное выше заявление попросит поисковые системы не индексировать referral.php, а также referral.php?id=123 и т. д.

Но что, если вы хотите заблокировать только referral.php? Вам нужно только включить символ $ сразу после referral.php.

Символ $ гарантирует, что блокируется только referral.php, но не referral.php?id=123.

Вы также можете использовать $ для каталогов.

Это даст поисковым системам указание запретить папку wp-content и все каталоги, расположенные внутри wp-content. Если вы хотите запретить только wp-контент, а не все подпапки, вы должны использовать символ $. Например:

Символ $ гарантирует, что запрещен только wp-контент. Все каталоги в этой папке по-прежнему доступны.

Ниже представлен файл robots.txt для блога Cloudways.

Первая строка указывает на User-agent. Это относится к поисковой системе, которой разрешен доступ и индексация веб-сайта. Полный список всех ботов поисковых систем доступен здесь.

Где * означает все поисковые системы. Вы можете указать каждую поисковую систему отдельно.

Это не позволит поисковым системам сканировать каталог «admin». Поисковым системам часто не нужно индексировать эти каталоги.

Если ваш сайт WordPress является блог-сайтом, рекомендуется запретить ботам поисковых систем сканировать ваши поисковые запросы.

Если на вашем сайте есть карта сайта. Добавление его URL-адреса помогает роботам поисковых систем находить файл карты сайта. Это приводит к ускорению индексации страниц.

Что включить в robots.txt для WordPress?

Мы закончили работу с файлом robots.txt в WordPress. Если у вас есть какие-либо вопросы по настройке файла robots.txt, не стесняйтесь задавать их в разделе комментариев ниже.

Подведение итогов!

Как видите, файл robots.txt — интересный инструмент для вашего SEO. Это позволяет указывать поисковым роботам, что индексировать, а что нет. Но с ним нужно обращаться осторожно. Плохая конфигурация может привести к полной деиндексации вашего сайта (пример: если вы используете Disallow: /). Так что будьте осторожны!

Теперь ваша очередь. Скажите, используете ли вы этот тип файла и как вы его настраиваете. Делитесь своими комментариями и отзывами в комментариях.

В1. Что такое robots.txt?

Robots.txt – это текстовый файл, размещенный в корневом каталоге вашего веб-сайта. Этот файл предназначен для запрета роботам поисковых систем индексировать определенные области вашего сайта. Файл robots.txt — один из первых файлов, просканированных пауками (роботами).

Вопрос 2. Для чего используется файл robots.txt?

Файл robots.txt содержит инструкции для роботов поисковых систем, которые анализируют ваш веб-сайт. Это протокол исключения для роботов. Благодаря этому файлу вы можете запретить исследование и индексацию вашего сайта некоторым роботам (также называемым «сканерами» или «пауками»).

Вы когда-нибудь слышали термин robots.txt и задавались вопросом, как он применим к вашему веб-сайту? На большинстве веб-сайтов есть файл robots.txt, но это не значит, что большинство веб-мастеров его понимают. В этом посте мы надеемся изменить это, предложив подробно изучить файл robots.txt WordPress, а также то, как он может контролировать и ограничивать доступ к вашему сайту. К концу вы сможете отвечать на такие вопросы, как:

Нам предстоит многое рассказать, так что приступим!

Что такое файл robots.txt WordPress?

Прежде чем мы поговорим о файле robots.txt WordPress, важно определить, что такое «робот» в данном случае. Роботы — это «боты» любого типа, которые посещают веб-сайты в Интернете. Наиболее распространенным примером являются сканеры поисковых систем. Эти боты «ползают» по сети, помогая таким поисковым системам, как Google, индексировать и ранжировать миллиарды страниц в Интернете.

Итак, боты, в целом, полезны для Интернета… или, по крайней мере, необходимы. Но это не обязательно означает, что вы или другие веб-мастера хотите, чтобы боты бегали без ограничений. Желание контролировать, как веб-роботы взаимодействуют с веб-сайтами, привело к созданию стандарта исключения роботов в середине 1990-х годов. Robots.txt является практической реализацией этого стандарта — он позволяет вам контролировать, как участвующие боты взаимодействуют с вашим сайтом. Вы можете полностью заблокировать ботов, ограничить их доступ к определенным разделам вашего сайта и т. д.

Тем не менее, эта часть «участия» важна. Robots.txt не может заставить бота следовать его указаниям. А вредоносные боты могут и будут игнорировать файл robots.txt. Кроме того, даже авторитетные организации игнорируют некоторые команды, которые вы можете поместить в Robots.txt. Например, Google будет игнорировать любые правила, которые вы добавите в файл robots.txt о том, как часто его поисковые роботы посещают ваш сайт. Если у вас много проблем с ботами, может пригодиться защитное решение, такое как Cloudflare или Sucuri.

Зачем вам нужен файл robots.txt?

Для большинства веб-мастеров преимущества хорошо структурированного файла robots.txt сводятся к двум категориям:

  • Оптимизировать ресурсы сканирования поисковых систем, предупредив их, чтобы они не тратили время на страницы, которые вы не хотите индексировать. Это помогает поисковым системам сосредоточиться на сканировании наиболее важных для вас страниц.
  • Оптимизация использования сервера путем блокировки ботов, которые тратят ресурсы впустую.

Robots.txt не предназначен конкретно для управления тем, какие страницы индексируются в поисковых системах

Robots.txt не является надежным способом контроля того, какие страницы индексируются поисковыми системами. Если вашей основной целью является предотвращение включения определенных страниц в результаты поиска, правильным подходом является использование метатега noindex или другого аналогичного прямого метода.

Это связано с тем, что файл robots.txt не говорит поисковым системам напрямую не индексировать контент, а просто говорит им не сканировать его. Хотя Google не будет сканировать отмеченные области внутри вашего сайта, сам Google заявляет, что если внешний сайт ссылается на страницу, которую вы исключили с помощью файла Robots.txt, Google все равно может проиндексировать эту страницу.

Джон Мюллер, аналитик Google для веб-мастеров, также подтвердил, что если на страницу есть ссылки, ведущие на нее, даже если она заблокирована файлом robots.txt, она все равно может быть проиндексирована. Ниже приводится то, что он сказал в видеовстрече Webmaster Central:

Возможно, здесь следует иметь в виду одну вещь: если эти страницы заблокированы файлом robots.txt, то теоретически может случиться так, что кто-то случайно свяжется с одной из этих страниц. И если они это сделают, может случиться так, что мы проиндексируем этот URL без какого-либо контента, потому что он заблокирован robots.txt. Таким образом, мы не узнаем, что вы не хотите, чтобы эти страницы действительно индексировались.

В то время как, если они не заблокированы файлом robots.txt, вы можете поместить на эти страницы метатег noindex. И если кто-то сделает на них ссылку, и мы случайно просканируем эту ссылку и подумаем, что, может быть, здесь есть что-то полезное, тогда мы будем знать, что эти страницы не нужно индексировать, и мы можем просто полностью исключить их из индексации.

Итак, в этом отношении, если на этих страницах есть что-то, что вы не хотите индексировать, не запрещайте их, а вместо этого используйте noindex.

Как создать и отредактировать файл WordPress Robots.txt

Пример файла Robots.txt

Поскольку этот файл виртуальный, вы не можете его редактировать. Если вы хотите отредактировать файл robots.txt, вам нужно фактически создать физический файл на своем сервере, которым вы сможете манипулировать по мере необходимости. Вот три простых способа сделать это…

Как создать и отредактировать файл robots.txt с помощью Yoast SEO

Если вы используете популярный плагин Yoast SEO, вы можете создать (а затем отредактировать) файл robots.txt прямо из интерфейса Yoast. Однако, прежде чем вы сможете получить к нему доступ, вам необходимо включить расширенные функции Yoast SEO, перейдя в SEO → Панель инструментов → Функции и переключившись на страницы дополнительных настроек:

Как включить расширенные функции Yoast

После активации вы можете перейти в SEO → Инструменты и нажать на Редактор файлов:

Как получить доступ к редактору файлов Yoast

Если у вас еще нет физического файла Robots.txt, Yoast предложит вам создать файл robots.txt:

Как создать файл robots.txt в Yoast

Нажав эту кнопку, вы сможете редактировать содержимое файла Robots.txt непосредственно из того же интерфейса:

Как редактировать файл robots.txt в Yoast

По мере того, как вы будете читать дальше, мы углубимся в то, какие типы директив следует помещать в файл robots.txt WordPress.

Как создать и отредактировать файл robots.txt с помощью All In One SEO

Как создать файл robots.txt в All In One SEO

После этого вы сможете управлять своим файлом Robots.txt, выбрав All in One SEO → Robots.txt:

Как редактировать файл robots.txt в All In One SEO

Как создать и отредактировать файл robots.txt через FTP

Если вы не используете подключаемый модуль SEO, предлагающий функции robots.txt, вы все равно можете создавать файл robots.txt и управлять им через SFTP. Сначала с помощью любого текстового редактора создайте пустой файл с именем «robots.txt»:

Как создать собственный файл Robots.txt

Затем подключитесь к своему сайту через SFTP и загрузите этот файл в корневую папку вашего сайта. Вы можете внести дополнительные изменения в файл robots.txt, отредактировав его через SFTP или загрузив новые версии файла.

Что поместить в файл robots.txt

Хорошо, теперь у вас есть физический файл robots.txt на вашем сервере, который вы можете редактировать по мере необходимости. Но что вы на самом деле делаете с этим файлом? Что ж, как вы узнали из первого раздела, robots.txt позволяет вам контролировать, как роботы взаимодействуют с вашим сайтом. Вы делаете это с помощью двух основных команд:

  • User-agent: позволяет настроить таргетинг на определенных ботов. Пользовательские агенты — это то, что боты используют для идентификации себя. С их помощью вы могли бы, например, создать правило, которое применяется к Bing, но не к Google.
  • Запретить – запретите роботам доступ к определенным областям вашего сайта.

Есть также команда "Разрешить", которую вы будете использовать в определенных ситуациях. По умолчанию все на вашем сайте помечено как «Разрешить», поэтому в 99% случаев нет необходимости использовать команду «Разрешить». Но это удобно, когда вы хотите запретить доступ к папке и ее дочерним папкам, но разрешить доступ к одной конкретной дочерней папке.

Вы добавляете правила, сначала указывая, к какому агенту пользователя должно применяться правило, а затем перечисляя, какие правила следует применять, используя Disallow и Allow. Есть также некоторые другие команды, такие как Crawl-delay и Sitemap, но это либо:

  • Игнорируется большинством основных поисковых роботов или интерпретируется совершенно по-разному (в случае задержки сканирования)
  • Сделано излишним благодаря таким инструментам, как Google Search Console (для карт сайта)

Давайте рассмотрим некоторые конкретные варианты использования, чтобы показать вам, как все это сочетается.

Как использовать robots.txt, чтобы заблокировать доступ ко всему вашему сайту

Допустим, вы хотите заблокировать доступ всех поисковых роботов к вашему сайту. Это вряд ли произойдет на живом сайте, но пригодится для сайта разработки. Для этого вы должны добавить этот код в файл robots.txt WordPress:

Что происходит в этом коде?

Как использовать robots.txt, чтобы заблокировать доступ одного бота к вашему сайту

Давайте изменим ситуацию. В этом примере мы притворимся, что вам не нравится тот факт, что Bing сканирует ваши страницы. Вы все время являетесь командой Google и даже не хотите, чтобы Bing просматривал ваш сайт. Чтобы запретить сканирование вашего сайта только Bing, вы должны заменить подстановочный знак *звездочка на Bingbot:

Подпишитесь на рассылку новостей

Хотите узнать, как мы увеличили трафик более чем на 1000 %?

Присоединяйтесь к более чем 20 000 человек, которые получают нашу еженедельную рассылку с полезными советами по WordPress!

По сути, в приведенном выше коде говорится, что правило Disallow следует применять только к ботам с агентом пользователя «Bingbot». Теперь вы вряд ли захотите заблокировать доступ к Bing, но этот сценарий пригодится, если есть конкретный бот, которому вы не хотите получать доступ к своему сайту. На этом сайте есть хороший список имен большинства известных пользовательских агентов службы.

Как использовать robots.txt для блокировки доступа к определенной папке или файлу

Для этого примера предположим, что вы хотите заблокировать доступ только к определенному файлу или папке (и ко всем подпапкам этой папки). Чтобы применить это к WordPress, допустим, вы хотите заблокировать:

  • Вся папка wp-admin
  • wp-login.php

Вы можете использовать следующие команды:

Как использовать robots.txt, чтобы разрешить доступ к определенному файлу в запрещенной папке

Хорошо, теперь предположим, что вы хотите заблокировать всю папку, но при этом разрешить доступ к определенному файлу в этой папке. Здесь пригодится команда Разрешить. И это на самом деле очень применимо к WordPress. Фактически, виртуальный файл robots.txt WordPress прекрасно иллюстрирует этот пример:

Этот код блокирует доступ ко всей папке /wp-admin/, кроме файла /wp-admin/admin-ajax.php.

Как использовать robots.txt, чтобы запретить ботам сканировать результаты поиска WordPress

Одна специфичная для WordPress настройка, которую вы, возможно, захотите сделать, — запретить поисковым роботам сканировать ваши страницы результатов поиска. По умолчанию WordPress использует параметр запроса «?s=». Итак, чтобы заблокировать доступ, все, что вам нужно сделать, это добавить следующее правило:

Это может быть эффективным способом предотвращения программных ошибок 404, если вы их получаете. Обязательно прочитайте наше подробное руководство о том, как ускорить поиск в WordPress.

Как создать разные правила для разных ботов в файле robots.txt

До сих пор все примеры относились к одному правилу за раз. Но что, если вы хотите применить разные правила к разным ботам? Вам просто нужно добавить каждый набор правил в объявление User-agent для каждого бота. Например, если вы хотите создать одно правило, которое будет применяться ко всем ботам, а другое правило будет применяться только к Bingbot, вы можете сделать это следующим образом:

Боретесь с простоями и проблемами WordPress? Kinsta — это решение для хостинга, предназначенное для экономии вашего времени! Ознакомьтесь с нашими возможностями

В этом примере всем ботам будет заблокирован доступ к /wp-admin/, но Bingbot не сможет получить доступ ко всему вашему сайту.

Проверка файла robots.txt

Вы можете протестировать файл robots.txt WordPress в Google Search Console, чтобы убедиться, что он настроен правильно. Просто перейдите на свой сайт и в разделе «Сканирование» нажмите «Тестер robots.txt». Затем вы можете отправить любой URL, включая вашу домашнюю страницу. Вы должны увидеть зеленый Разрешено, если все доступно для сканирования. Вы также можете проверить заблокированные вами URL-адреса, чтобы убедиться, что они действительно заблокированы или запрещены.

Проверить файл robots.txt

Остерегайтесь спецификации UTF-8

BOM означает метку порядка следования байтов и представляет собой невидимый символ, который иногда добавляется в файлы старыми текстовыми редакторами и т.п. Если это произойдет с вашим файлом robots.txt, Google может неправильно его прочитать. Вот почему важно проверить файл на наличие ошибок. Например, как показано ниже, наш файл имел невидимый символ, и Google жалуется на непонимание синтаксиса. По сути, это делает первую строку нашего файла robots.txt недействительной, что нехорошо! У Гленна Гейба есть отличная статья о том, как UTF-8 Bom может убить вашу поисковую оптимизацию.

Робот Google в основном базируется в США

Также важно не блокировать робота Googlebot из США, даже если вы ориентируетесь на локальный регион за пределами США. Иногда они выполняют локальное сканирование, но робот Google в основном базируется в США.

Что популярные сайты WordPress помещают в свой файл robots.txt

Чтобы обеспечить некоторый контекст для перечисленных выше моментов, вот как некоторые из самых популярных сайтов WordPress используют свои файлы robots.txt.

Технический кризис

Файл TechCrunch Robots.txt

Помимо ограничения доступа к ряду уникальных страниц, TechCrunch, в частности, запрещает поисковым роботам:

Они также установили специальные ограничения для двух ботов:

Фонд Обамы

Файл Robots.txt Фонда Обамы

Фонд Обамы не вносил особых дополнений, ограничивая доступ исключительно к /wp-admin/.

Злые птички

Файл Angry Birds Robots.txt

У Angry Birds такие же настройки по умолчанию, как и у The Obama Foundation. Ничего особенного не добавляется.

Дрейф

Файл Drift Robots.txt

Наконец, Drift решает определить свои карты сайта в файле Robots.txt, но в остальном оставляет те же ограничения по умолчанию, что и Фонд Обамы и Angry Birds.

Используйте robots.txt правильно

Заканчивая наше руководство по robots.txt, мы хотим еще раз напомнить вам, что использование команды Disallow в файле robots.txt — это не то же самое, что использование тега noindex. Robots.txt блокирует сканирование, но не обязательно индексацию. Вы можете использовать его, чтобы добавить определенные правила, определяющие, как поисковые системы и другие боты взаимодействуют с вашим сайтом, но он не будет явно контролировать, индексируется ли ваш контент или нет.

Большинству случайных пользователей WordPress нет необходимости в срочном изменении стандартного виртуального файла robots.txt. Но если у вас возникли проблемы с определенным ботом или вы хотите изменить способ взаимодействия поисковых систем с определенным подключаемым модулем или темой, которые вы используете, вы можете добавить свои собственные правила.

Мы надеемся, что вам понравилось это руководство, и обязательно оставьте комментарий, если у вас возникнут дополнительные вопросы об использовании файла robots.txt в WordPress.

Экономьте время, деньги и повышайте эффективность сайта с помощью:

  • Мгновенная помощь от экспертов по хостингу WordPress, круглосуточно и без выходных.
  • Интеграция с Cloudflare Enterprise.
  • Глобальный охват аудитории благодаря 29 центрам обработки данных по всему миру.
  • Оптимизация с помощью нашего встроенного мониторинга производительности приложений.

Все это и многое другое в одном плане без долгосрочных контрактов, помощи при миграции и 30-дневной гарантии возврата денег. Ознакомьтесь с нашими планами или поговорите с отделом продаж, чтобы найти план, который подходит именно вам.

Отобранные статьи по теме

Блог

Лучшие SEO-плагины WordPress (и обязательные SEO-инструменты в 2022 году)

SEO не обязательно должно быть сложным. Изучите наши рекомендуемые SEO-плагины и инструменты для WordPress, чтобы повысить удобство использования и рейтинг вашего сайта в поиске.

Блог

Руководство по карте сайта WordPress: что это такое и как его использовать

Узнайте, как создать карту сайта WordPress, какую пользу она принесет вашему сайту и как отправить ее в Google и другие поисковые системы.

Искусство и наука о том, как вывести ваш веб-сайт на высокие позиции в результатах поиска различных поисковых систем, обычно называют SEO (поисковая оптимизация). И есть много разных аспектов, когда дело доходит до SEO, возможно, слишком много, чтобы охватить их в одной статье. Вот почему сейчас мы сосредоточимся только на одном — файле WordPress robots.txt. В этой статье мы углубимся в то, что такое файл robots.txt и как его использовать. Среди прочего, мы обсудим различные способы создания файла и рассмотрим лучшие практики в отношении его директив.

Что такое файл robots.txt

Однако файл robots.txt с соответствующими директивами имеет ряд преимуществ после того, как ваш веб-сайт WordPress будет завершен. Оптимизированные директивы robots.txt не только не позволяют сканерам сканировать ненужный контент, но и гарантируют, что ваша квота сканирования (максимальное количество раз, которое сканер может сканировать ваш веб-сайт в течение заданного времени) не будет потрачена впустую.

Более того, хорошо написанные директивы WordPress robots.txt могут уменьшить негативные последствия вредоносных ботов, запретив им доступ. Это, в свою очередь, может улучшить общую скорость загрузки вашего сайта. Но имейте в виду, что директивы robots.txt не должны быть вашей единственной защитой. Плохие боты часто игнорируют эти директивы, поэтому настоятельно рекомендуется использовать хороший подключаемый модуль безопасности, особенно если на вашем веб-сайте возникают проблемы, вызванные плохими ботами.

Наконец, распространено заблуждение, что файл robots.txt может препятствовать индексации некоторых страниц вашего веб-сайта. Файл robots.txt может содержать директивы, запрещающие сканирование, а не индексацию. И, даже если страница не просканирована, ее все равно можно проиндексировать по внешним ссылкам, ведущим на нее. Если вы хотите избежать индексации определенной страницы, используйте метатег noindex вместо директив в файле robots.txt.

Темы Qode: лучший выбор
Мост

Креативная многоцелевая тема WordPress

Стокгольм

Действительно мультиконцептуальная тема

Начать

Свежая бизнес-тема для начинающих

Как использовать файл robots.txt

Поняв, что такое файл robots.txt WordPress и что он делает, мы можем рассмотреть, как он используется. В этом разделе мы расскажем, как создать и отредактировать файл robots.txt, о некоторых рекомендациях по его содержимому и о том, как проверить его на наличие ошибок.

Как создать файл robots.txt

По умолчанию WordPress создает виртуальный файл robots.txt для любого веб-сайта. Такой файл может выглядеть примерно так, например:

Однако, если вы хотите отредактировать его, вам потребуется создать настоящий файл robots.txt. В этом разделе мы объясним три способа, которыми вы можете это сделать. В двух из них используются плагины WordPress, а в третьем используется FTP.

С более чем 5 миллионами активных установок Yoast SEO является одним из самых популярных доступных плагинов для SEO. Он имеет множество инструментов для оптимизации сайта, в том числе функцию, которая позволяет пользователям создавать и редактировать файлы robots.txt.

После установки подключаемого модуля щелкните только что созданный раздел SEO, а затем подраздел Инструменты. На открывшейся странице нажмите ссылку Редактор файлов вверху.

На следующей странице найдите раздел robots.txt. Оттуда, если вы еще не создали его раньше, нажмите кнопку Создать файл robots.txt.

Это создаст файл, и вы сможете увидеть его содержимое в текстовой области. Используя ту же текстовую область, вы сможете редактировать содержимое вашего нового файла robots.txt. Когда вы закончите редактирование файла, нажмите кнопку Сохранить изменения в robots.txt ниже.

Все в одном SEO — еще один очень популярный SEO-плагин, который поставляется с различными бесплатными функциями, включая те, которые позволяют пользователям создавать и редактировать файлы WordPress robots.txt.

После установки подключаемого модуля щелкните новый раздел Все в одном SEO в меню панели управления, а затем выберите параметр Диспетчер функций. На странице Диспетчер функций найдите функцию Robots.txt и нажмите кнопку Активировать рядом с ней.

При этом будет создан файл robots.txt. После этого вы также увидите сообщение об успехе, в котором говорится, что параметры были обновлены. Появится новый подраздел Robots.txt.

Нажав на параметр Robots.txt, вы увидите новый раздел. Там вы сможете добавить новые правила/директивы в файл robots.txt, а также посмотреть, как он выглядит на данный момент.

Помимо плагина WordPress, вы можете просто создать файл robots.txt вручную. Сначала создайте пустой файл типа .txt на своем компьютере и сохраните его как robots.txt.

Затем вам нужно загрузить его на свой сервер с помощью FTP. Если вы не знакомы с FTP, вам следует узнать больше об использовании FTP, прежде чем продолжить.

Когда будете готовы, подключитесь к своему серверу, используя свои учетные данные FTP. Затем в правой части перейдите в корневой каталог WordPress, часто называемый public_html. В левой части вашего FTP-клиента (мы используем Filezilla) найдите файл robots.txt, который вы ранее создали и сохранили на своем компьютере. Щелкните его правой кнопкой мыши и выберите параметр Загрузить.

Через несколько секунд файл будет загружен, и вы сможете увидеть его среди файлов в корневом каталоге WordPress.

Если вы хотите впоследствии отредактировать загруженный файл robots.txt, найдите его в корневом каталоге WordPress, щелкните его правой кнопкой мыши и выберите параметр Просмотреть/Изменить.

Добавление правил в файл robots.txt

Теперь, когда вы знаете, как создавать и редактировать файл robots.txt, мы можем подробнее поговорить о директивах, которые может содержать этот файл. Чаще всего в robots.txt присутствуют две директивы: User-agent и Disallow.

Директива User-agent указывает, к какому боту применяются директивы, перечисленные под директивой User-agent. Вы можете указать одного бота (например, User-agent: Bingbot) или применить директивы ко всем ботам, поставив звездочку (User-agent: *).

Директива Disallow запрещает боту доступ к определенной части вашего веб-сайта. А еще есть директива Allow, которая просто делает обратное. Вам не нужно использовать его так часто, как Disallow, потому что боты имеют доступ к вашему сайту по умолчанию. Директива Allow обычно используется в сочетании с директивой Disallow. Точнее, он служит для разрешения доступа к файлу или подпапке, принадлежащей запрещенной папке.

В следующем разделе мы покажем вам два фрагмента кода, чтобы проиллюстрировать использование директив robots.txt, о которых мы упоминали выше. Однако это только примеры; в зависимости от вашего веб-сайта вам может понадобиться другое подмножество директив. С учетом сказанного давайте взглянем на фрагменты.

В этом примере фрагмент кода запрещает доступ ко всему каталогу /wp-admin/ для всех ботов, за исключением файла /wp-admin/admin-ajax.php, который находится внутри.

Агент пользователя: *
Запретить: /wp-admin/
Разрешить: /wp-admin/admin-ajax.php

User-Agent: *
Разрешить: /wp-content/uploads/
Запретить: /wp-content/plugins/
Запретить: /wp-admin/
Запретить : /readme.html
Запретить: /refer/

Чтобы обеспечить высокий рейтинг вашего сайта на страницах результатов поисковой системы (SERP), вам нужно упростить поисковым роботам доступ к его наиболее важным страницам. Наличие хорошо структурированного файла robots.txt поможет направить этих ботов на те страницы, которые вы хотите проиндексировать (и избежать остальных).

В этой статье мы рассмотрим:

  1. Что такое файл robots.txt и почему он важен
  2. Где находится файл WordPress robots.txt.
  3. Как создать файл robots.txt.
  4. Какие правила включить в файл robots.txt WordPress.
  5. Как протестировать файл robots.txt и отправить его в Google Search Console.

К концу нашего обсуждения у вас будет все необходимое для настройки идеального файла robots.txt для вашего веб-сайта WordPress. Давайте погрузимся!

Что такое файл robots.txt в WordPress (и зачем он вам нужен)

Когда вы создаете новый веб-сайт, поисковые системы отправляют своих миньонов (или ботов), чтобы они «просканировали» его и составили карту всех содержащихся на нем страниц. Таким образом, они будут знать, какие страницы отображать в качестве результатов, когда кто-то ищет связанные ключевые слова. На базовом уровне это достаточно просто.

Проблема в том, что современные веб-сайты содержат намного больше элементов, чем просто страницы. WordPress позволяет вам, например, устанавливать плагины, которые часто поставляются со своими собственными каталогами. Однако вы не хотите, чтобы они отображались в результатах вашей поисковой системы, поскольку они не относятся к релевантному содержанию.

Файл robots.txt предоставляет набор инструкций для роботов поисковых систем. Он говорит им: «Эй, вы можете посмотреть сюда, но не заходите в те комнаты вон там!» Этот файл может быть настолько подробным, насколько вы хотите, и его довольно легко создать, даже если вы не технический мастер.

На практике поисковые системы будут сканировать ваш веб-сайт, даже если у вас не настроен файл robots.txt. Однако не создавать его неэффективно. Без этого файла вы предоставляете ботам возможность индексировать весь ваш контент, а они настолько тщательны, что в конечном итоге могут показать те части вашего веб-сайта, к которым вы не хотите, чтобы другие люди имели доступ.

Более того, без файла robots.txt ваш сайт будет сканировать множество ботов. Это может негативно сказаться на его производительности.Даже если удар незначителен, скорость страницы всегда должна быть на первом месте в вашем списке приоритетов. В конце концов, мало что так ненавидят медленные веб-сайты (включая нас!).

Где находится файл WordPress robots.txt

Это пример очень простого файла robots.txt. Говоря человеческим языком, часть сразу после User-agent: объявляет, к каким ботам применяются приведенные ниже правила. Звездочка означает, что правила универсальны и применяются ко всем ботам. В этом случае файл сообщает этим ботам, что они не могут войти в ваши каталоги wp-admin и wp-includes. В этом есть определенный смысл, поскольку эти две папки содержат много конфиденциальных файлов.

Однако вы можете добавить дополнительные правила в свой собственный файл. Прежде чем вы сможете это сделать, вам нужно понять, что это виртуальный файл. Обычно файл robots.txt WordPress находится в вашем корневом каталоге, который часто называется public_html или www (или назван в честь вашего веб-сайта):

Однако файл robots.txt, который WordPress устанавливает для вас по умолчанию, вообще недоступен из любого каталога. Он работает, но если вы хотите внести в него изменения, вам потребуется создать собственный файл и загрузить его в корневую папку в качестве замены.

Через минуту мы рассмотрим несколько способов создания нового файла robots.txt для WordPress. А пока давайте поговорим о том, как определить, какие правила должны включать ваши правила.

Какие правила включить в файл robots.txt WordPress

В предыдущем разделе вы видели пример файла robots.txt, сгенерированного WordPress. Он включал только два коротких правила, но большинство веб-сайтов устанавливали больше. Давайте взглянем на два разных файла robots.txt и поговорим о том, что они делают по-разному.

Вот наш первый пример файла robots.txt для WordPress:

Это стандартный файл robots.txt для веб-сайта с форумом. Поисковые системы часто индексируют каждую тему на форуме. Однако в зависимости от того, для чего предназначен ваш форум, вы можете запретить его. Таким образом, Google не будет индексировать сотни тредов о пользователях, ведущих светскую беседу. Вы также можете настроить правила, указывающие определенные подфорумы, которых следует избегать, и разрешить поисковым системам сканировать остальные.

Вы также заметите строку «Разрешить: /» вверху файла. Эта строка сообщает ботам, что они могут сканировать все страницы вашего веб-сайта, кроме исключений, которые вы установили ниже. Кроме того, вы заметите, что мы установили эти правила как универсальные (со звездочкой), как это делает виртуальный файл robots.txt WordPress.

Теперь давайте посмотрим на другой пример файла robots.txt для WordPress:

В этом файле мы устанавливаем те же правила, что и WordPress по умолчанию. Однако мы также добавили новый набор правил, которые блокируют сканирование нашего веб-сайта поисковым роботом Bing. Bingbot, как вы можете догадаться, — это имя этого бота.

Вы можете указать, какие боты поисковых систем получают доступ к вашему веб-сайту, а какие нет. На практике, конечно, Bingbot довольно мягок (даже если он не так крут, как Googlebot). Однако существуют существуют вредоносные боты.

Плохая новость заключается в том, что они не всегда следуют инструкциям вашего файла robots.txt (в конце концов, они бунтари). Следует иметь в виду, что, хотя большинство ботов будут следовать инструкциям, указанным в этом файле, вы не принуждаете их к этому. Вы просто вежливо просите.

Если вы почитаете эту тему, вы найдете множество предложений о том, что можно разрешить, а что заблокировать на вашем веб-сайте WordPress. Однако, по нашему опыту, чем меньше правил, тем лучше. Вот пример того, как должен выглядеть ваш первый файл robots.txt:

Традиционно WordPress блокирует доступ к каталогам wp-admin и wp-includes. Однако это больше не считается лучшей практикой. Кроме того, если вы добавляете метаданные к своим изображениям для целей поисковой оптимизации (SEO), нет смысла запрещать ботам сканировать эту информацию. Вместо этого два приведенных выше правила охватывают то, что требуется большинству основных сайтов.

Однако то, что вы включите в файл robots.txt, будет зависеть от вашего конкретного сайта и потребностей. Так что не стесняйтесь проводить дополнительные исследования самостоятельно!

Как создать файл robots.txt для WordPress (3 метода)

После того как вы решили, что будет в вашем файле robots.txt, все, что осталось, — это создать его. Вы можете редактировать robots.txt в WordPress либо с помощью плагина, либо вручную. В этом разделе мы научим вас, как использовать два популярных плагина для выполнения работы, и обсудим, как создать и загрузить файл самостоятельно. Давайте приступим!

1. Используйте Yoast SEO

Yoast SEO вряд ли нуждается в представлении. Это самый популярный SEO-плагин для WordPress, который позволяет оптимизировать ваши сообщения и страницы, чтобы лучше использовать ключевые слова. Кроме того, он также поможет вам повысить удобочитаемость вашего контента, а это значит, что больше людей смогут им наслаждаться.

Лично мы являемся поклонниками Yoast SEO из-за простоты использования. Это в равной степени относится и к созданию файла robots.txt. После того, как вы установите и активируете плагин, перейдите на вкладку SEO › Инструменты на панели инструментов и найдите параметр с надписью Редактор файлов:

Нажав на эту ссылку, вы перейдете на новую страницу, где сможете отредактировать файл .htaccess, не выходя из панели управления. Также есть удобная кнопка с надписью «Создать файл robots.txt», которая делает именно то, что вы ожидаете:

После того как вы нажмете эту кнопку, на вкладке появится новый редактор, в котором вы сможете напрямую изменить файл robots.txt. Имейте в виду, что Yoast SEO устанавливает свои собственные правила по умолчанию, которые переопределяют существующий виртуальный файл robots.txt.

Каждый раз, когда вы добавляете или удаляете правила, не забывайте нажимать кнопку Сохранить изменения в robots.txt, чтобы они сохранялись:

Это достаточно просто! Теперь давайте посмотрим, как то же самое делает другой популярный плагин.

2. С помощью плагина All-in-One SEO Pack

All in One SEO Pack — еще одно известное имя, когда речь заходит о поисковой оптимизации WordPress. Он включает в себя большинство функций Yoast SEO, но некоторые люди предпочитают его, потому что это более легкий плагин. Что касается robots.txt, создать файл с помощью этого плагина также просто.

После настройки подключаемого модуля перейдите на страницу All in One SEO > Feature Manager на панели инструментов. Внутри вы найдете опцию под названием Robots.txt с заметной кнопкой «Активировать» прямо под ней. Нажмите на это:

Теперь новая вкладка Robots.txt появится в меню All-in-One SEO. Если вы нажмете на нее, вы увидите варианты добавления новых правил в ваш файл, сохранения внесенных изменений или полного удаления:

Обратите внимание, что вы не можете вносить изменения в файл robots.txt напрямую с помощью этого подключаемого модуля. Сам файл неактивен, в отличие от Yoast SEO, который позволяет вам вводить все, что вы хотите:

В любом случае добавлять новые правила несложно, поэтому пусть этот небольшой недостаток вас не обескураживает. Что еще более важно, All in One SEO Pack также включает функцию, которая может помочь вам заблокировать «плохих» ботов, доступ к которой вы можете получить на вкладке All in One SEO:

Это все, что вам нужно сделать, если вы решите использовать этот метод. Однако давайте поговорим о том, как создать файл robots.txt вручную, если вы не хотите устанавливать дополнительный плагин только для решения этой задачи.

3. Создайте и загрузите файл robots.txt для WordPress через FTP

Создание текстового файла не может быть проще. Все, что вам нужно сделать, это открыть ваш любимый текстовый редактор (например, Блокнот или TextEdit) и ввести несколько строк. Затем вы можете сохранить файл, используя любое имя и тип файла txt. Это буквально занимает секунды, поэтому имеет смысл редактировать robots.txt в WordPress без использования плагина.

Вот краткий пример одного из таких файлов:

Для целей данного руководства мы сохранили этот файл непосредственно на нашем компьютере. После того, как вы создали и сохранили свой собственный файл, вам нужно будет подключиться к вашему веб-сайту через FTP. Если вы не знаете, как это сделать, у нас есть руководство, как это сделать с помощью удобного для начинающих клиента FileZilla.

После того, как вы подключитесь к своему сайту, перейдите в папку public_html. Затем все, что вам нужно сделать, это загрузить файл robots.txt со своего компьютера на сервер. Вы можете сделать это, щелкнув файл правой кнопкой мыши в локальном навигаторе вашего FTP-клиента или просто перетащив его на место:

Загрузка файла займет всего несколько секунд. Как видите, этот метод почти так же прост, как использование плагина.

Как протестировать файл robots.txt WordPress и отправить его в Google Search Console

После создания и загрузки файла WordPress robots.txt вы можете использовать Google Search Console, чтобы проверить его на наличие ошибок. Search Console — это набор инструментов, которые предлагает Google, чтобы помочь вам отслеживать, как ваш контент отображается в результатах поиска. Одним из таких инструментов является средство проверки robots.txt, которое можно использовать, войдя в свою консоль и перейдя на вкладку средства проверки robots.txt:

Внутри вы найдете поле редактора, куда вы можете добавить код файла WordPress robots.txt, и нажмите кнопку «Отправить» прямо под ним. Консоль поиска Google спросит, хотите ли вы использовать этот новый код или извлечь файл со своего веб-сайта. Нажмите на параметр «Попросить Google обновить», чтобы отправить его вручную:

Теперь платформа проверит ваш файл на наличие ошибок. Если они есть, он укажет на них для вас. Тем не менее, вы уже видели не один пример файла robots.txt для WordPress, поэтому велики шансы, что ваш вариант идеален!

Заключение

Чтобы повысить узнаваемость вашего сайта, вам необходимо убедиться, что роботы поисковых систем сканируют наиболее релевантную информацию. Как мы видели, хорошо настроенный файл WordPress robots.txt позволит вам точно указать, как эти боты взаимодействуют с вашим сайтом. Таким образом, они смогут предоставить пользователям более актуальный и полезный контент.

У вас есть вопросы о том, как редактировать файл robots.txt в WordPress? Дайте нам знать в разделе комментариев ниже!

Уилл Моррис — штатный писатель WordCandy. Когда он не пишет о WordPress, ему нравится выступать со своими стендап-комедиями на местных каналах.

Ваш файл robots.txt — это мощный инструмент, когда вы работаете над оптимизацией веб-сайта, но с ним следует обращаться осторожно. Он позволяет запретить поисковым системам доступ к различным файлам и папкам, но зачастую это не лучший способ оптимизировать сайт. Здесь мы объясним, как, по нашему мнению, веб-мастера должны использовать свой файл robots.txt, и предложим передовой подход, подходящий для большинства веб-сайтов.

Вы найдете пример robots.txt, который работает для подавляющего большинства веб-сайтов WordPress, далее на этой странице. Если вы хотите узнать больше о том, как работает ваш файл robots.txt, вы можете прочитать наше исчерпывающее руководство по robots.txt.

Как выглядит «лучшая практика»?

Поисковые системы постоянно совершенствуют методы сканирования и индексации контента в Интернете. Это означает, что то, что несколько лет назад считалось лучшим, больше не работает или даже может нанести вред вашему сайту.

Сегодня рекомендуется использовать файл robots.txt как можно меньше. На самом деле блокировать URL-адреса в файле robots.txt действительно необходимо только в том случае, если у вас есть сложные технические проблемы (например, большой веб-сайт электронной коммерции с многогранной навигацией) или когда нет другого выхода.

Блокировка URL-адресов с помощью файла robots.txt — это метод грубой силы, который может создать больше проблем, чем решить.

Для большинства сайтов WordPress лучше всего подходит следующий пример:

Мы даже используем этот подход в нашем собственном файле robots.txt.

Что делает этот код?

  • Инструкция User-agent: * гласит, что любые следующие инструкции применимы ко всем поисковым роботам.
  • Поскольку мы не предоставляем никаких дополнительных инструкций, мы говорим, что "все поисковые роботы могут свободно сканировать этот сайт без ограничений".
  • Мы также предоставляем некоторую информацию для людей, просматривающих файл (ссылка на эту самую страницу), чтобы они понимали, почему файл «пустой».

Если вам нужно запретить URL-адреса

В нашем исчерпывающем руководстве по метатегам robots объясняется, как «правильно» управлять сканированием и индексированием, а наш подключаемый модуль Yoast SEO предоставляет инструменты, которые помогут вам реализовать эти теги на ваших страницах.

Почему этот «минимализм» лучше всего подходит?

Robots.txt создает тупики

Прежде чем вы сможете конкурировать за видимость в результатах поиска, поисковые системы должны обнаружить, просканировать и проиндексировать ваши страницы. Если вы заблокировали определенные URL-адреса с помощью файла robots.txt, поисковые системы больше не смогут сканировать эти страницы, чтобы найти другие. Это может означать, что ключевые страницы не будут обнаружены.

Robots.txt отрицает ценность ссылок

Одним из основных правил поисковой оптимизации является то, что ссылки с других страниц могут влиять на вашу эффективность. Если URL-адрес заблокирован, поисковые системы не только не будут его сканировать, но также могут не распространять какое-либо «значение ссылки», указывающее на этот URL-адрес или через этот URL-адрес на другие страницы сайта. .

Google полностью отображает ваш сайт

Раньше люди блокировали доступ к файлам CSS и JavaScript, чтобы поисковые системы не отвлекались от этих важнейших содержательных страниц.

В настоящее время Google извлекает все ваши стили и JavaScript и полностью отображает ваши страницы. Понимание макета и представления вашей страницы является ключевой частью того, как она оценивает качество. Так что Google вообще не нравится, когда вы отказываете ему в доступе к вашим файлам CSS или JavaScript.

Предыдущая передовая практика блокировки доступа к вашему каталогу wp-includes и каталогу плагинов через robots.txt больше не действует, поэтому мы работали с WordPress над удалением правила disallow по умолчанию для wp. -входит в версию 4.0.

Многие темы WordPress также используют асинхронные запросы JavaScript, так называемые AJAX, для добавления содержимого на веб-страницы. Раньше WordPress блокировал Google от этого по умолчанию, но мы исправили это в WordPress 4.4.

Вам (обычно) не нужно ссылаться на карту сайта

Стандарт robots.txt поддерживает добавление в файл ссылки на карты сайта в формате XML. Это помогает поисковым системам обнаруживать местоположение и содержание вашего сайта.

Мы всегда считали это излишним; вы уже должны это сделать, добавив свою карту сайта в свою учетную запись Google Search Console и Bing Webmaster Tools, чтобы получить доступ к аналитике и данным о производительности. Если вы это сделали, вам не нужна ссылка в файле robots.txt.

Оцените свое техническое соответствие SEO

Внимательное отношение к файлу robots.txt является важной частью технического SEO. Любопытно, насколько соответствует общее техническое SEO вашего сайта? Мы создали технический SEO-тест, который поможет вам понять, над чем вам нужно поработать!

Джоно — наш руководитель отдела поисковой оптимизации. Он цифровой стратег, маркетолог и разработчик полного стека. Он занимается техническим SEO, новыми технологиями и стратегией бренда.

Читайте также: