Правильний robots.txt для сайту - настройка і перевірка

У чому змінилася настройка robots.txt для Яндекса
Перевірка robots.txt
Файл robots.txt для WordPress
Можливо, вас зацікавить:

Прийшов час, коли потрібно поговорити про налаштування robots.txt для сайту. Файл повинен знаходитися в кореневій папці і відкриватися за адресою імя_сайта / robots.txt. При роботі над оптимізацією сайтів часто доводиться вносити правки в вміст.

Можна виділити 3 причини, за якими піднімаю, здавалося б, банальну тему:

Зміни в пошукових системах, що стосуються файлу Роботс.
Генерує автоматично вміст robots.txt на деяких CMS, коли без розбору закриваються папки і службові, динамічні сторінки.
Копіювання новачками стандартного вмісту з стали неактуальними статей в Інтернеті.

У чому змінилася настройка robots.txt для Яндекса

Боти Яндекса перестали враховувати директиву host. Анонсувалася новина навесні 2018 року. Від хоста можна сміливо очистити рядок, навіть якщо сайт недавно переведений на безпечний протокол. Яндекс склеює дзеркала при наявності 301 редиректу з http на https.
Crawl-delay теж в Яндексі більше не працює. Якщо виникла необхідність налаштувати швидкість сканування яндекс ботами, це робиться в вебмайстрів Яндекса. Точно так же тимчасові обмеження задаються в пошуковій консолі Гугла. Буває, що пошукові роботи проявляють підвищений інтерес до сайту і створюють велике навантаження. З'ясувати, хто саме винен у підвищенні навантаження, можна тільки вивчивши лог-файли. І обмеження варто виставляти в розумних межах. Природно, дані повинні збиратися на хостингу. На Бегета, наприклад, є вкладка «Журнали». За умовчанням вони вимкнені.

Заблоковані ресурси в robots.txt

Уже навіть не пам'ятаю, як давно Гугл захотів, щоб гуглеботу на сайті для сканування було доступно все, що бачить користувач, у всій красі - зі стилями, скриптами, елементами оформлення дизайну. Тому, закриваючи певну папку в Disallow, слід задуматися, чи не блокуються чи файли css, js png, що знаходяться в цій папці. Якщо з якихось міркувань вирішили закрити до папки доступ, то варто доповнити Роботс директивами Allow із зазначенням розширень файлів, наприклад: Allow: /*.css.

Те ж, найімовірніше, доведеться зробити, якщо встановлено заборону на URLs, що містять знак питання. Знак питання присутній в адресі динамічної сторінки або результату пошуку, що саме по собі одно. Але «?» Може бути і на засланні на css.

Перевірка robots.txt

Найкраще з цим допоможе пошукова консоль Гугла, і в ній розділи

"Індекс Google - Заблоковані ресурси"
"Сканування - Інструмент перевірки файлу robots.txt".

Інформація по знову доданим в консоль сайтам збирається приблизно два тижні. Якщо в заблокованих ресурсах бачите сторонній домен, з якого на сайт виводяться якісь елементи, тут щось зробити не вдасться - заборона встановлена не нами. Можна ігнорувати ці зауваження.

Файл robots.txt для WordPress

Все, що написано вище, можна застосувати при створенні Роботс на будь-якому движку. Головне - дотримуватися логіки. Зміст файлу robots.txt представлено для комерційних сайтів на Вордпресс, без інтернет-магазину. В ІМ зазвичай ставлять заборону на кошик, сторінку оформлення замовлення, оплати та інші службові сторінки, які беруть участь в роботі магазину. Шаблон robots.txt для WordPress з використовується плагіном Yoast Seo , В якому встановлено переадресацію зі сторінок вкладення медіафайлів на адресу зображення. Якщо сторінки attachment відкриваються, на них теж ставлять заборона в robots.txt.

Ділити ботів по пошуковим системам, на мій погляд, тепер не потрібно.

User-agent: *
Disallow: / wp-admin /
Disallow: /xmlrpc.php
Disallow: / wp-json /
Disallow: / *? Pcf = *
Disallow: /? *
Allow: /wp-admin/admin-ajax.php
Allow: /*.css
Allow: /*.js

Sitemap: протокол: //домен/sitemap.xml

Директиви в файлі robots.txt носять, як правило, рекомендаційний характер для сканування (НЕ індексування) ботами. Який контент буде брати участь в пошуковій видачі, пошукові системи прекрасно розберуться і самостійно. Тому з заборонами потрібно бути акуратними і, звичайно, ні в якому разі не забороняти доступ до віддалених сторінок, які віддають код 404.

Можливо, вас зацікавить:

Аудит та оптимізація сайту

Але «?

Правильний robots.txt для сайту - настройка і перевірка

У чому змінилася настройка robots.txt для Яндекса

Заблоковані ресурси в robots.txt

Перевірка robots.txt

Файл robots.txt для WordPress

Можливо, вас зацікавить:

Восточный

Западный

Зеленоградский

Северный

Северо-Восточный

Северо-Западный

Центральный

Юго-Восточный

Юго-Западный

Южный

Подписаться на новости


		Официальный сайт движения «Москва без Лужкова!»