robots.txt для WordPress

Поделиться с друзьями

Ранее в статьях мы писали как зарегистрировать хостинг и домен и установить wordpress. Итак, после того как вы зарегистрировали свой хостинг и домен, установили СMS и выбрали тему для вашего сайта. Ваш сайт нужно на время закрыть от поисковых роботов с помощью специального текстового файла.

Иначе ваши пробные недописанные статьи и все ошибки появятся в поиске Гугл и Яндекс. Вы же не хотите чтобы в первые дни работы вашего сайта, репутация была отрицательная для поисковиков. Далее, в статье вы узнаете что обозначают директивы и как закрыть сайт полностью от индексации.

Что такое robots.txt?

Это текстовый файл, который определяет инструкции для поисковых роботов, какие разделы сайта можно просматривать, а какие нет. При посещении вашего сайта, робот в первую очередь обращается к файлу robots.txt и по установленным правилам далее уже сканирует страницу. После этого происходит индексация и ваш контент появляется в поиске Гугла и Яндех.

То есть с помощью определённых директив можно закрыть индексацию некоторых страниц или полностью сайт от поисковых роботов. Файл robots.txt должен находится в директории вашего сайта. Если, конечно, ранее он был создан веб-мастером.

Для чего нужен robots.txt и зачем прописывать директивы?

Во-первых, рано или поздно, возможно, понадобится закрыть какие-то разделы сайта, страницы от индексации. Например, у вас на сайте есть страница где все статьи сайта. Такую страницу обычно закрывают от поисковиков. Так как это станица ведёт к разделам сайта и она неинформационная. Создаётся она для быстрого поиска статей для посетителей.

Во-вторых, чтобы не было дублей ваших страниц, нужно правильно создать robots.txt.

А также с помощью этого файла, указывается правильное зеркало сайта. Ещё один важный момент в файле также прописываются директивы для карты sitemap, кто не знает что это такое читайте в наших статьях, скажу только что с помощью карты ваш сайт быстрее индексируется. Но это уже отдельная тема. Итак, разберём значения главных директив.

Какие директивы нужно писать для robots.txt?

Сначала разберём значение каждой директивы.

User agent — обращения к определённому поисковому роботу, если стоит * то это обозначает что сайт открыт для всех поисковых роботов. А также можно прописать отдельно к Яндексу или Гуглу.

1.Allow: — обозначает для робота что нужно обязательно проиндексировать страницу и она открыта для индексации.

2.Disallow: — запрет индексации. То есть робот понимает что эту статью, раздел, административную панель нельзя сканировать. Ещё один важный момент! Закрываем от дублей страницы.

Дубли — это одинаковые ссылки только с разным адресом. Если у вас будет много одинаковых дублей Яндексу и Гулу это не понравится и ваш сайт могу забанить.

Как выглядят ссылки дублей?

http://free-life.ru/?p=1373

http://free-life.ru/sozdat-blog-na-wordpress/

3.Host: — основной хост и адрес вашего сайта (образуется из главного зеркала вашего сайта)

4.Sitemap: — это адрес вашей карты сайта, с помощью её робот понимает всю структуру вашего материала на сайте, формат у файла xml полностью выглядит вот так Sitemap:http://free-lifee.ru/sitemap.xml и заархивированный Sitemap:http://free-lifee.ru /sitemap.xml.gz

А также нужно установить плагин Google (XML) Sitemaps Generator for WordPress, после установки плагина и правильного настроенного робот.txt проверьте по ссылке вашу карту на работоспособность в поисковике вбиваете ваш адрес сайта/ sitemap.xml

Как закрыть сайт полностью от поисковых роботов на начальном этапе?

User-agent: * Disallow: /

Иногда нам нужно закрыть сразу много ссылок для этого применяем такую конструкцию Disallow: /category/*/*

Запрещаем индексацию всех результатов поиска по сайту Disallow: /?s=

И так, как создать оптимальный robots.txt для wordpress? Если не хотите разбираться и углубляться во все прописанные директивы что, они обозначают просто скопируйте код и установите в свою корневую папку сайта.

User-agent: *

Disallow: /wp-login.php

Disallow: /wp-register.php

Disallow: /feed/

Disallow: /cgi-bin

Disallow: /wp-admin

Disallow: /wp-includes

Disallow: /wp-content/plugins

Disallow: /wp-content/cache

Disallow: /wp-content/themes

Disallow: /trackback

Disallow: */comments

Disallow: /category/*/*

Disallow: */trackback

Disallow: */*/trackback

Disallow: */*/feed/*/

Disallow: */feed

Disallow: /*?*

Disallow: /?s=

User-agent: Yandex

Disallow: /wp-login.php

Disallow: /wp-register.php

Disallow: /feed/

Disallow: /cgi-bin

Disallow: /wp-admin

Disallow: /wp-includes

Disallow: /wp-content/plugins

Disallow: /wp-content/cache

Disallow: /wp-content/themes

Disallow: /trackback

Disallow: */comments

Disallow: /category/*/*

Disallow: */trackback

Disallow: */*/trackback

Disallow: */*/feed/*/

Disallow: */feed

Disallow: /*?*

Disallow: /?s=

Host: free-lifee.ru

Sitemap: http://free-lifee.ru/sitemap.xml.gz

Sitemap: http://free-lifee.ru/sitemap.xml

Выше представлено обращения ко всем роботам и к YandexBot. Мы запрещаем те компоненты сайта которые нельзя индексировать это административная панель Disallow: /wp-admin, панель скрипов Disallow: /cgi-bin, лента новостей Disallow: */feed, ссылка на регистрацию, ссылка на вход, папка кэширования, папка темы, плагинов, комментарии, ссылки с префиксом рубрики чтобы не было дублей.

Как установить robots.txt wordpress

С помощью любого редактора кода создайте файл с расширением txt скопируйте полностью готовый код он представлен выше и вставьте в ваш файл с форматом txt сохраните. Теперь вам нужно его загрузить на хостинг в корневую директорию.

Зайдите на ваш хостинг и с помощью FTP клиента откройте корневую директорию (public.html папку) и закачайте ваш готовый  robots.txt

robots.txt dlya wordpress

Таким образом, вы настроили файл robots.txt избежите наличия дублей в поисковой выдаче и утечки конфиденциальной информации и запретите индексацию служебных областей вашего сайта. Поисковая выдача будет содержать только правильные релевантные страницы вашего сайта.