Официальный сайт движения «Москва без Лужкова!»
Главная Новости Москвы Наши новости Популярное
  • Новости
  • Новости
  • ВХОД В ЛИЧНЫЙ КАБИНЕТ
    логин
    пароль
       
    Новости

    Robots.txt для сайту - правильна настройка - Staurus.net

    1. Д ля чого потрібен robots.txt
    2. З інтаксіс файлу robots.txt
    3. Д іректіва User-agent
    4. Д іректіви Disallow і Allow
    5. І спользование спецсимволов в robots.txt
    6. Д іректіва host
    7. Д іректіва Crawl-delay
    8. Д іректіва Clean-param
    9. Д іректіва Sitemap
    10. Про бщіе питання і рекомендації по robots
    11. П равильна robots.txt
    12. R obots.txt для WordPress
    13. До ак створити robots.txt
    14. Г де перевірити свій robots.txt

    У цьому потрібні інструкції для роботи, пошукові системи не виключення з правил, тому і придумали спеціальний файл під назвою robots.txt. Цей файл повинен лежати в кореневій папці вашого сайту, або він може бути віртуальним, але обов'язково відкриватися за запитом: www.вашсайт.ru / robots.txt

    Пошукові системи вже давно навчилися відрізняти потрібні файли html, від внутрішніх наборів скриптів вашої CMS системи, точніше вони навчилися розпізнавати посилання на тематичні статті та всяких мотлох. Тому багато вебмастера вже забувають робити Роботс для своїх сайтів і думають, що все і так добре буде. Так вони мають рацію на 99%, адже якщо у вашого сайту немає цього файлу, то пошукові системи безмежні в своїх пошуках контенту, але трапляються нюанси, над помилками яких, можна подбати заздалегідь.

    Якщо у вас виникли проблеми з цим файлом на сайті, пишіть коментарі до цієї статті і я швидко допоможу вам в цьому, абсолютно безкоштовно. Дуже часто вебмастера роблять дрібні помилки в ньому, що приносить сайту погану індексацію, або взагалі виключення з індексу.

    Д ля чого потрібен robots.txt

    Файл robots.txt створюється для настройки правильної індексації сайту пошуковим системам. Тобто в ньому містяться правила дозволів і заборон на певні шляхи вашого сайту або тип контенту. Але це не панацея. Всі правила в файлі robots не є вказівками точно їх дотримуватися, а просто рекомендація для пошукових систем. Google наприклад пише:

    Не можна використовувати файл robots.txt, щоб приховати сторінку з результатів Google Пошуку. На неї можуть посилатися інші сторінки, і вона все одно буде проіндексована.

    Пошукові роботи самі вирішують що індексувати, а що ні, і як себе вести на сайті. У кожного пошукача свої завдання і свої функції. Як би ми не хотіли, цим спосіб їх не приборкати.

    Але є один трюк, який не стосується безпосередньо тематики цієї статті. Щоб повністю заборонити роботам індексувати і показувати сторінку в пошуковій видачі, потрібно написати:

    <Meta name = "robots" content = "noindex" />

    Повернемося до robots. Правилами в цій файлі можна закрити або дозволити доступ до наступних типів файлів:

    • Неграфічні файли. В основному це html файли, на яких міститься будь-яка інформація. Ви можете закрити дублікати сторінок, або сторінки, які не несуть ніякої корисної інформації (сторінки пагінацію, сторінки календаря, сторінки з архівами, сторінки з профілями і т.д.).
    • Графічні файли. Якщо ви хочете, щоб картинки сайту не відображалися в пошуку, ви можете це прописати в файлі robots.
    • Файли ресурсів. Також за допомогою robots ви можете заблокувати індексацію різних скриптів, файли стилів CSS і інші незначні ресурси. Але не варто блокувати ресурси, які відповідають за візуальну частину сайту для відвідувачів (наприклад, якщо ви закриєте css і js сайту, які виводять красиві блоки або таблиці, цього не побачить пошукової робот, і буде лаятися на це).

    Щоб наочно показати, як працює robots, подивіться на картинку нижче:

    Щоб наочно показати, як працює robots, подивіться на картинку нижче:

    Пошукової робот, слідуючи на сайт, дивиться на правила індексації, потім починає індексацію за рекомендаціями файлу. Пошукової робот, слідуючи на сайт, дивиться на правила індексації, потім починає індексацію за рекомендаціями файлу Залежно від налаштувань правил, пошуковик знає, що можна індексувати, а що ні.

    З інтаксіс файлу robots.txt

    Для написання правил пошуковим системам в файлі Роботс використовуються директиви з різними параметрами, за допомогою яких слідують роботи. Почнемо з самої першої і напевно найголовнішою директиви:

    Д іректіва User-agent

    User-agent - Цією директивою ви задає назву роботу, з яким слід використовувати рекомендації в файлі. Цих роботів офіційно в світі інтернету - 302 штуки . Звичайно, ви можете прописати правила для всіх окремо, але якщо у вас немає часу на це, просто пропишіть:

    User-agent: *

    * -В даному прикладі означає «Все». Тобто ваш файл robots.txt, повинен починатися з того, «для кого саме» призначений файл. Щоб не морочитися над усіма назвами роботів, просто пропишіть «зірочку» в директиві user-agent.

    Наведу вам докладні списки роботів популярних пошукових систем:

    Google - Googlebot - основний робот

    Яндекс - YandexBot - основний індексує робот;

    Д іректіви Disallow і Allow

    Disallow - найголовніше правило в robots, саме за допомогою цієї директиви ви забороняєте індексувати певні місця вашого сайту. Пишеться директива так:

    Disallow:

    Дуже часто можна спостерігати директиву Disallow: порожню, тобто нібито кажучи роботу, що нічого не заборонено на сайті, індексується що хочеш. Будьте уважні! Якщо ви поставите / в disallow, то ви повністю закриєте сайт для індексації.

    Тому самий стандартний варіант robots.txt, який «дозволяє індексацію всього сайту для всіх пошукових систем» виглядає так:

    User-Agent: * Disallow:

    Якщо ви не знаєте що писати в robots.txt, але десь чули про нього, просто скопіюйте код вище, збережіть в файл під назвою robots.txt і завантажте його в корінь вашого сайту. Або нічого не створюйте, так як і без нього роботи будуть індексувати всі на вашому сайті. Або прочитайте статтю до кінця, і ви зрозумієте, що закривати на сайті, а що ні.

    За правилами robots, директива disallow повинна бути обов'язкова.

    Цією директивою можна заборонити як папку, так і окремий файл.

    Якщо ви хочете заборонити папку вам слід написати:

    Disallow: / papka /

    Якщо ви хочете заборонити певний файл:

    Disallow: /images/img.jpg

    Якщо ви хочете заборонити певні типи файлів:

    Disallow: /*.png$

    ! Регулярні вирази не підтримуються багатьма пошуковими системами. Google підтримує.

    Allow - роздільна директива в Robots.txt. Вона дозволяє роботу індексувати певний шлях або файл в забороняє директорії. До недавнього часу використовувалася тільки Яндексом. Google наздогнав це, і теж почав її використовувати. наприклад:

    Allow: / content Disallow: /

    ці директиви забороняють індексувати весь контент сайту, окрім папки content. Або ось ще популярні директиви останнім часом:

    Allow: /themplate/*.js Allow: /themplate/*.css Disallow: / themplate

    ці значення дозволяють індексувати всі файли CSS і JS на сайті, але забороняють індексувати всі в папці з вашим шаблоном. За останній рік Google дуже багато відправив листів вебмастерам такого змісту:

    Googlebot не може отримати доступ до файлів CSS і JS на сайті

    І відповідний коментар: Ми виявили на Вашому сайті проблему, яка може перешкодити його скануванню. Робот Googlebot не може обробити код JavaScript і / або файли CSS через обмеження у файлі robots.txt. Ці дані потрібні, щоб оцінити роботу сайту. Тому якщо доступ до ресурсів буде заблоковано, то це може погіршити позиції Вашого сайту в Пошуку.

    Якщо ви додасте дві директиви allow, які написані в останньому коді в ваш Robots.txt, то ви не побачите подібних повідомлень від Google.

    І спользование спецсимволов в robots.txt

    Тепер про знаки в директивах. Основні знаки (спецсимволи) в забороняють або дозволяють це /, *, $

    Про слеші (forward slash) «/»

    Слеш дуже оманливий в robots.txt. Я кілька десятків разів спостерігав цікаву ситуацію, коли через незнання в robots.txt додавали:

    User-Agent: * Disallow: /

    Тому, що вони десь прочитали про структуру сайту і скопіювали її собі на сайті. Але, в даному випадку ви забороняєте індексацію всього сайту. Щоб забороняти індексацію саме каталогу, з усіма нутрощами вам обов'язково потрібно ставити / в кінці. Якщо ви наприклад пропишіть Disallow: / seo, то абсолютно всі посилання на вашому сайті, в якому є слово seo - не братимуть індексуватися. Хоч це буде папка / seo /, хоч це буде категорія / seo-tool /, хоч це буде стаття /seo-best-of-the-best-soft.html, все це не буде індексуватися.

    Уважно дивіться на все / в вашому robots.txt

    Завжди в кінці директорій ставте /. Якщо ви поставите / в Disallow, ви забороните індексацію всього сайту, але якщо ви не поставите / в Allow, ви також забороніть індексацію всього сайту. / - в деякому розумінні означає «Все що слід після директиви /».

    Про зірочки * в robots.txt

    Спецсимвол * означає будь-яку (в тому числі порожню) послідовність символів. Ви можете її використовувати в будь-якому місці robots за прикладом:

    User-agent: * Disallow: /papka/*.aspx Disallow: / * old

    Забороняє всі файли з розширенням aspx в директорії papka, також забороняє не тільки папку / old, а й директиву / papka / old. Замудрено? Ось і я вам не рекомендую балуватися символом * в вашому robots.

    За замовчуванням в файлі правил індексації та заборони robots.txt варто * на всіх директивах!

    Про спецсимвол $

    Спецсимвол $ в robots закінчує дію спецсимволи *. наприклад:

    Disallow: / menu $

    Це правило забороняє '/ menu', але не забороняє '/menu.html', тобто файл забороняє пошуковим системам тільки директиву / menu, і не може заборонити всі файли зі словом menu в URL`е.

    Д іректіва host

    Правило host працює тільки в Яндекс, тому є не обов'язковим, воно визначає основний домен з ваших дзеркал сайту, якщо такі є. Наприклад у вас є домен dom.com, але і так само прікуплени і налаштовані наступні домени: dom2.com, dom3, com, dom4.com і з них йде редирект на основний домен dom.com

    Щоб Яндексу швидше визначити, де з них головних сайт (хост), пропишіть директорію host в ваш robots.txt:

    Host: staurus.net

    Якщо у вашого сайту немає дзеркал, то можете не прописувати це правило. Але спочатку перевірте ваш сайт по IP адресою, можливо і по ньому відкривається ваша головна сторінка, і вам слід прописати головне дзеркало. Або можливо хтось скопіював всю інформацію з вашого сайту і зробив точну копію, запис в robots.txt, якщо вона також була вкрадена, допоможе вам в цьому.

    Запис host повинні бути одна, і якщо потрібно, з прописаним портом. (Host: staurus.net:8080)

    Д іректіва Crawl-delay

    Ця директива була створена для того, щоб прибрати можливість навантаження на ваш сервер. Пошукові роботи можуть одночасно робити сотні запитів на ваш сайт і якщо ваш сервер слабкий, це може викликати незначні збої. Щоб такого не сталося, придумали правило для роботів Crawl-delay - це мінімальний період між завантаженнями сторінки вашого сайту. Стандартне значення для цієї директиви рекомендують ставити 2 секунди. У Robots це виглядає так:

    Crawl-delay: 2

    Ця директива працює для Яндекса. В Google ви можете виставити частоту сканування в панелі вебмастера, в розділі Налаштування сайту, в правому верхньому куті з «шестерінкою».

    Д іректіва Clean-param

    Цей параметр теж тільки для Яндекса. Якщо адреси сторінок сайту містять динамічні параметри, які не впливають на їх вміст (наприклад: ідентифікатори сесій, користувачів, реферерів і т. П.), Ви можете описати їх за допомогою директиви Clean-param.

    Робот Яндекса, використовуючи цю інформацію, не буде багаторазово перезавантажувати дублює інформацію. Таким чином, збільшиться ефективність обходу вашого сайту, знизиться навантаження на сервер.
    Наприклад, на сайті є сторінки:

    www.site.com/some_dir/get_book.pl?ref=site_1&book_id=123
    www.site.com/some_dir/get_book.pl?ref=site_2&book_id=123
    www.site.com/some_dir/get_book.pl?ref=site_3&book_id=123

    Параметр ref використовується тільки для того, щоб відстежити з якого ресурсу був зроблений запит і не змінює вміст, за всіма трьома адресами буде показана одна і та ж сторінка з книгою book_id = 123. Тоді, якщо вказати директиву наступним чином:

    User-agent: Yandex Disallow: Clean-param: ref /some_dir/get_book.pl

    робот Яндекса зведе всі адреси сторінки до одного:
    www.site.com/some_dir/get_book.pl?ref=site_1&book_id=123,
    Якщо на сайті доступна сторінка без параметрів:
    www.site.com/some_dir/get_book.pl?book_id=123
    то все зведеться саме до неї, коли вона буде проіндексована роботом. Інші сторінки вашого сайту будуть обходитися частіше, так як немає необхідності оновлювати сторінки:
    www.site.com/some_dir/get_book.pl?ref=site_2&book_id=123
    www.site.com/some_dir/get_book.pl?ref=site_3&book_id=123

    # Для адрес виду: www.site1.com/forum/showthread.php?s=681498b9648949605&t=8243 www.site1.com/forum/showthread.php?s=1e71c4427317a117a&t=8243 # robots.txt буде містити: User-agent: Yandex Disallow: Clean-param: s /forum/showthread.php

    Д іректіва Sitemap

    Цією директивою ви просто вказуєте місце розташування вашого sitemap.xml. Робот запам'ятовує це, «говорить вам спасибі», і постійно аналізує його по заданому шляху. Виглядає це так:

    Sitemap: http://staurus.net/sitemap.xml

    Про бщіе питання і рекомендації по robots

    А зараз давайте розглянемо загальні питання, які виникають при складанні Роботс. В інтернеті багато таких тем, тому розберемо найактуальніші і найчастіші.

    П равильна robots.txt

    Дуже багато але в цьому слові «правильний», адже для одного сайту на одній CMS він буде правильний, а на інший CMS - буде видавати помилки. «Правильно налаштований» для кожного сайту індивідуальний. У Robots.txt потрібно закривати від індексації ті розділи і ті файли, які не потрібні користувачам і не несуть ніякої цінності для пошукових систем. Найпростіший і найправильніший варіант robots.txt

    User-Agent: * Disallow: Sitemap: http://staurus.net/sitemap.xml User-agent: Yandex Disallow: Host: site.com

    У цьому файлі стоять такі правила: налаштування правил заборони для всіх пошукових систем (User-Agent: *), повністю дозволена індексація всього сайту ( «Disallow:» або можете вказати «Allow: /»), зазначений хост основного дзеркала для Яндекса (Host : site.ncom) і місце розташування вашого Sitemap.xml (Sitemap:.

    R obots.txt для WordPress

    Знову ж багато питань, один сайт може бути інтернет-магазинів, інший блог, третій - Лендінгем, четвертий - сайт-візитка фірми, і це все може бути на CMS WordPress і правила для роботів будуть абсолютно різні. Ось мій robots.txt для цього блогу:

    User-Agent: * Allow: / wp-content / uploads / Allow: /wp-content/*.js$ Allow: /wp-content/*.css$ Allow: /wp-includes/*.js$ Allow: / wp-includes / *. css $ Disallow: /wp-login.php Disallow: /wp-register.php Disallow: /xmlrpc.php Disallow: /template.html Disallow: / wp-admin Disallow: / wp-includes Disallow: / wp-content Disallow: / category Disallow: / archive Disallow: * / trackback / Disallow: * / feed / Disallow: /? feed = Disallow: / job Disallow: /? s = Host: staurus.net Sitemap: http: / /staurus.net/sitemap.xml

    Тут дуже багато налаштувань, давайте їх розглянемо разом.

    Allow в WordPress. Перші дозволяють правила для контенту, який потрібен користувачам (це картинки в папці uploads), і роботам (це CSS і JS для відображення сторінок). Саме по css і js часто лається Google, тому ми залишили їх відкритими. Можна було використовувати метод всіх файлів просто вставивши «/*.css$», але забороняє рядок саме цих папок, де лежать файли - не дозволяла використовувати їх для індексації, тому довелося прописати шлях до забороняє папці повністю.

    Allow завжди вказує на шлях забороненого в Disallow контенту. Якщо у вас щось не заборонено, не варто йому прописувати allow, нібито думаючи, що ви даєте поштовх пошуковим системам, типу «Ну на ж, ось тобі URL, індексується швидше». Так не вийде.

    Disallow в WordPress. Забороняти в CMS WP потрібно дуже багато. Безліч різних плагінів, безліч різних налаштувань і тим, купа скриптів і різних сторінок, які не несуть в собі ніякої корисної інформації. Але я пішов далі і зовсім заборонив індексувати всі на своєму блозі, крім самих статей (записи) і сторінок (про Автора, Послуги). Я закрив навіть категорії в блозі, відкрию, коли вони будуть оптимізовані під запити і коли там з'явиться текстовий опис для кожної з них, але зараз це просто дублі превьюшек записів, які не потрібні пошукачам.

    Ну Host і Sitemap стандартні директиви. Тільки потрібно було винести host окремо для Яндекса, але я не став заморочуватися з цього приводу. Ось мабуть і закінчимо з Robots.txt для WP.

    До ак створити robots.txt

    Це не так складно як здається на перший погляд. Вам достатньо взяти звичайний блокнот (Notepad) і скопіювати туди дані для вашого сайту з налагодження з цієї статті. Але якщо і це для вас складно, в інтернеті є ресурси, які дозволяють генерувати Роботс для ваших сайтів:

    Генератор Robots від pr-cy - Один з найпростіших генераторів Robots в Рунеті. Просто вкажіть в інструменті посилання, яким не варто потрапляти в індекс і все.

    Створення Robots від htmlweb - хороший генератор robots з можливість додавання host і Sitemap.

    Г де перевірити свій robots.txt

    Це один з найбільш важливий і обов'язкових пунктів перед відправкою файлу Роботс на свій сервер - перевірка. Якщо ви, що щось зробили не правильно, ви можете «поховати» свій сайт в просторах пошукових систем. Звичайним ляпом, як це трапляється, заборонити індексацію всього сайту.

    Щоб цього не сталося, вам варто перевірити свій файл заборон в одному із зручних перевірочних сервісів:

    Google Webmaster tool

    Яндекс. Веб-майстер

    Ніхто не розповість більше про ваш Robots.txt, як ці товариші. Адже саме для них ви і створюєте свій «заборонений файлик».

    Тепер поговоримо про деякі дрібних помилках, які можуть бути в robots.

    • «Порожній рядок» - неприпустимо робити порожній рядок в директиві user-agent.
    • При конфлікті між двома директивами з префіксами однакової довжини пріоритет віддається директиві Allow.
    • Для кожного файлу robots.txt обробляється тільки одна директива Host. Якщо у файлі зазначено кілька директив, робот використовує першу.
    • Директива Clean-Param є меж секційної, тому може бути вказана в будь-якому місці файлу robots.txt. У разі, якщо директив зазначено кілька, всі вони будуть враховані роботом.
    • Шість роботів Яндекса не дотримуються правил Robots.txt (YaDirectFetcher, YandexCalendar, YandexDirect, YandexDirectDyn, YandexMobileBot, YandexAccessibilityBot). Щоб заборонити їм індексацію на сайті, слід зробити окремі параметри user-agent для кожного з них.
    • Директива User-agent, завжди повинна писатися вище забороняє директиви.
    • Один рядок, для однієї директорії. Не можна писати безліч директорій на одному рядку.
    • Ім'я файл має бути тільки таким: robots.txt. Ніяких Robots.txt, ROBOTS.txt, і так далі. Тільки маленькі букви в назві.
    • У директиві host слід писати шлях до домену без http і без слешів. Неправильно: Host: http://www.site.ru/, Правильно: Host: www.site.ru
    • При використанні сайтом захищеного протоколу https в директиві host (для робота Яндекса) потрібно обов'язково вказувати саме з протоколом, так Host: https://www.site.ru

    Ця стаття буде оновлюватися в міру надходження цікавих питань і нюансів.

    З вами був, ледачий Staurus.

    Замудрено?
    Pl?
    Pl?
    Pl?
    Pl?
    Pl?
    Pl?
    Pl?
    Php?
    Php?

     

    Найди свой район!

    Восточный

    Западный

    Зеленоградский

    Северный

    Северо-Восточный

    Северо-Западный

    Центральный

    Юго-Восточный

    Юго-Западный

    Южный

    Поиск:      


     
    Rambler's Top100
    © 2007 Движение «Москва без Лужкова!»