Google: сканировать и индексировать, несмотря на файл robots.txt?

Разница между сканированием и индексированием Помните, что есть разница между сканированием и индексированием...
Блокировка индексации: по метке мета роботы noindex
Google все еще следует инструкциям в файле robots.txt?
Обратите внимание на хронологию изменений в файле robots.txt
Google знает страницы без доступа к ним!
Могут ли в результатах Google исчезать страницы, которые мы абсолютно не хотим видеть в результатах?
Случай с директивой noindex в файле robots.txt
А вы?
SEO-аудит сайта на основе сканирования

Разница между сканированием и индексированием
Помните, что есть разница между сканированием и индексированием . Во-первых, Google приходит, чтобы просмотреть страницу (впервые или нет): она должна восстановить копию страницы, чтобы сохранить ее на своих серверах. В общем, страница затем рассекается, анализируется и заносится в индекс Google, то есть в каталог всех известных страниц Google, и может за один день выйти в результаты. На этом уровне Google уже подготовил все виды анализа, чтобы легко найти страницу для запросов, для которых она считается актуальной.
В случае новой страницы, которую обнаруживает Google, она должна быть сначала просканирована для индексации. Для страницы, уже включенной в индекс Google, робот Googlebot (сканер Google) должен снова сканировать ее, чтобы узнать, изменилась ли она, и отразить эти (возможно) изменения на страницах результатов.
Теперь, когда вы заметили разницу между сканированием и индексированием, давайте рассмотрим механизмы, которые позволяют ограничивать действия Google.

Блокировка сканирования: файлом robots.txt

Чтобы заблокировать сканирование, необходимо указать URL-адреса страниц, к которым вы хотите запретить доступ. Для этого вы должны опубликовать эти директивы в файле robots.txt в корне сайта. Чтобы быть очень точным, знайте, что:

имя этого файла накладывается: не ставьте robot.txt (без S) или что-то еще, это не будет учитываться
для каждого субдомена должен быть файл robots.txt

Целью данной статьи не является объяснение деталей, поэтому, если вам интересно, посмотрите мой файл на синтаксис файла robots.txt или Справка Google ,

Блокировка индексации: по метке мета роботы noindex

Чтобы Google не проиндексировал ранее просканированную страницу, необходимо добавить метатег роботы noindex (или googlebot noindex). Если соответствующая страница не в формате HTML, вы не можете добавить метатег, но можете передать оператор в заголовке HTTP. Для получения дополнительной информации см. Мой файл на заголовок X тэг роботов или Справка Google ,

При таком представлении вы должны понимать особый момент: если страница уже проиндексирована, блокирующий файл robots.txt не позволяет деиндексировать, даже если эта блокировка связана с запретом индексации ! Поскольку у Google нет вашего разрешения на просмотр страницы, она не может обнаружить, что вы запрещаете ей индексировать страницу (или что вы запрашиваете деиндексацию).

В этом случае, чтобы деиндексировать страницу, вам просто нужно прекратить блокировать сканирование. Как только Google заходит на страницу и обнаруживает, что есть метатег роботов noindex, он будет деиндексирован.

Есть и другая возможность: пройти через консоль поиска Google и запросить немедленную деиндексацию.

Google все еще следует инструкциям в файле robots.txt?

Это вопрос, который часто возникает, и иногда есть вопросы. Действительно, Google все еще пытается проиндексировать больше страниц, могут быть случаи, когда вы спрашиваете, почему Google сканировал (и индексировал) страницы.

Обратите внимание на хронологию изменений в файле robots.txt

Во-первых, самое простое объяснение состоит в том, что Google еще не просмотрел ваш файл robots.txt. Сначала вы должны проверить в журналах своего сервера, что Google действительно просматривал файл robots.txt.

Google знает страницы без доступа к ним!

Я обнаружил еще один небольшой случай: Google, похоже, индексирует страницы, доступ к которым запрещен с помощью robots.txt. Конкретно, вот что я сделал в качестве 1-го теста (повторил несколько раз для проверки):

Я добавляю запрет на сканирование файла testabc.php (в корне сайта) в моем файле robots.txt
Я жду несколько дней, в любом случае время, необходимое, чтобы убедиться, что Google учел новую версию файла robots.txt
только тогда я выкладываю онлайн страницу testabc.php и делаю ссылку с домашней страницы. Вот подробности:
- текст ссылки "WRI", без nofollow
- тег title страницы testabc.php - «Заголовок теста ABC DEF»
- на этой странице запрещена индексация через тег meta name = "robots" content = "noindex"
Эта страница запрещена для сканирования (и даже индексации, на всякий случай), я не ожидаю, что Google придет, чтобы проконсультировать и проиндексировать ее. Я настроил свою систему мониторинга роботов, чтобы получать уведомления, если Google заходит на страницу или индексирует ее, и я жду ...
Несколько дней спустя, хотя Google так и не пришел сканировать страницу (дважды проверьте мои журналы!), Страница проиндексирована в Google! В любом случае, это выглядит много, как вы можете видеть на этом скриншоте:

Google указывает, что знает, что этот URL существует, но у него нет прав на его просмотр. Можно сказать, что он частично проиндексирован ...

Вывод: Google может проиндексировать страницу, не просканировав ее!

Вместо описания страницы Google отображает во фрагменте следующее предложение:

Описание этого результата недоступно из-за файла robots.txt на этом сайте. Узнать больше

Итак, как Google Google проиндексировал страницу, которую он никогда не сканировал? Ответ: это не индексируется, или нет, как это обычно понимают. Чтобы присмотреться, Google не знает своего контента, он обязан придумать заголовок (он объединяет текст привязки «WRI» и бренд сайта «WebRankInfo») и указывает, что не может создать описание ( Msgstr "Описание этого результата недоступно из-за файла robots.txt на этом сайте.")

Также отметим, что Google не предоставляет доступ к кешированной версии страницы. Логично, так как он не мог получить к нему доступ.

На самом деле, Google обеспечивает именно эту информацию на своих страницах поддержки:

Даже если содержимое страниц, заблокированных файлом robots.txt, не исследовано и не проиндексировано, возможно, мы проиндексируем URL-адреса этих страниц, если встретимся на других веб-сайтах. Это означает, что URL-адрес страницы и, возможно, другая общедоступная информация, включая якорный текст ссылок, которые указывают на сайт или заголовок, созданные ODP (Open Directory Project, www.dmoz .org) может появиться в результатах поиска Google.

В частности, Google указывает пользователю, что он знает о существовании страницы, но не может получить к ней доступ (из-за запрета). Такая страница почти никогда не подходит для классических запросов, только в очень особых случаях. И именно, когда мы заинтересованы в SEO, мы можем быть частью этих особых случаев, особенно при использовании специальных заказов от Google. Действительно, из-за механизма, который я только что описал, вы больше не можете полагаться на число результатов, указанных Google для команды сайта: (уже, что это было не очень надежно ...).

Примечание . Поскольку, следуя другим тестам, я разрешил индексировать эту страницу, поэтому вы не сможете увидеть то же, что и на моем снимке экрана выше.

Я сделал другие тесты большей величины, которые я не могу описать здесь, особенно потому, что они относятся к сайту, отличному от WebRankInfo. Когда я говорю «больший масштаб», это означает несколько тысяч страниц. После месяца тестирования я с удивлением обнаружил, что эти страницы никогда не сканировались, что привело к посещению сайта SEO в Google 340. Вывод: Google может генерировать трафик через страницы, которые он никогда не сканировал!

Могут ли в результатах Google исчезать страницы, которые мы абсолютно не хотим видеть в результатах?

Другими словами: можем ли мы деиндексировать эти страницы (которые на самом деле никогда не были проиндексированы и не должны были появиться, так как они были заблокированы в Google)? Чтобы узнать, я снова сделал тест! Кстати, если вам не нравятся многие тесты по SEO, вы не сможете прогрессировать достаточно хорошо ...

Поэтому я удалил директиву Disallow из файла robots.txt, чтобы разрешить Google доступ к странице, чтобы он обнаружил, что индексировать запрещено. Чтобы сэкономить время, я отправился в Инструменты Google для веб-мастеров, чтобы подать заявку на экспресс-сканирование. Менее чем через минуту я получаю предупреждение от своей системы, сообщающее, что робот Google пришел, чтобы увидеть страницу. С другой стороны, страница отчаянно остается в этом состоянии полуиндексирования ...

Для другой «псевдоиндексированной» тестовой страницы, аналогичной первой, я использовал другой метод, чтобы она исчезла из Google: запрос на удаление через Инструменты Google для веб-мастеров. И вот чудо, через несколько часов страница полностью исчезает (не найдена командами Информация: или веб-сайт: ).

Случай с директивой noindex в файле robots.txt

Выполняя все эти тесты, я также попробовал директиву NoIndex, которую я уже нашел в файле robots.txt сайта одного из моих клиентов. Будьте осторожны, не путайте со стандартным метатегом роботов noindex. Не зная об этом, не обнаружив никаких следов в официальной документации Google и обнаружив мало информации об этом в Интернете, я также проверил.

В Инструментах Google для веб-мастеров я прошу Google немедленно просканировать страницу. Вот ответ:

В настоящее время нельзя сканировать страницу, поскольку она заблокирована последней версией файла robots.txt, загруженной роботом Googlebot. Имейте в виду, что если вы недавно обновили файл robots.txt, обновление может занять до двух дней.

Однако для этого URL нет директивы Disallow. Единственная директива в файле robots.txt:

Пользователь-агент: * Noindex: /dossiers/google-desindexation-presse-france.php

Более того, эта пара строк генерирует ошибки в инструментах проверки robots.txt, поскольку за строкой «User-agent: *» не следует никаких директив Allow или Disallow.

Мой тест показал, что эта команда noindex в robots.txt даже блокирует сканирование. Я хотел сделать противоположный тест, чтобы завершить анализ: я удаляю директиву Noindex, разрешаю индексировать страницу и только потом добавляю директиву Noindex. Это заняло несколько дней, но в конечном итоге страница была проиндексирована без повторного сканирования страницы Google.

Я пришел к выводу, что Google соответствует директиве Noindex robots.txt, даже если она не предоставляет никакой документации по ней.

Однако я отметил, что Джон Мюллер (аналитик веб-мастеров в Google - Цюрих, Швейцария) явно не рекомендует использовать его:

А вы?

Я полагаю, что вы уже сталкивались с подобными случаями: не стесняйтесь оставить нам отзыв или задать свои вопросы. Если этого недостаточно, не забудьте обычные решения:

SEO-аудит сайта на основе сканирования

Если вы хотите оптимизировать естественные ссылки на ваш сайт, важно убедиться, что основы сделаны правильно, то есть вся техническая база SEO. Чтобы понять как мой RM Tech SEO инструмент аудита может помочь вам, посмотрите это видео анализ сайта пострадавших от панды :

https://www.youtube.com/watch?v=oOk21I8Xgwk

Вам понравилась эта статья?

Txt?
Могут ли в результатах Google исчезать страницы, которые мы абсолютно не хотим видеть в результатах?
Txt?
Могут ли в результатах Google исчезать страницы, которые мы абсолютно не хотим видеть в результатах?
Другими словами: можем ли мы деиндексировать эти страницы (которые на самом деле никогда не были проиндексированы и не должны были появиться, так как они были заблокированы в Google)?
Com/watch?

Google: сканировать и индексировать, несмотря на файл robots.txt?

Блокировка сканирования: файлом robots.txt

Блокировка индексации: по метке мета роботы noindex

Google все еще следует инструкциям в файле robots.txt?

Обратите внимание на хронологию изменений в файле robots.txt

Google знает страницы без доступа к ним!

Могут ли в результатах Google исчезать страницы, которые мы абсолютно не хотим видеть в результатах?

Случай с директивой noindex в файле robots.txt

А вы?

SEO-аудит сайта на основе сканирования

Восточный

Западный

Зеленоградский

Северный

Северо-Восточный

Северо-Западный

Центральный

Юго-Восточный

Юго-Западный

Южный

Подписаться на новости


		Официальный сайт движения «Москва без Лужкова!»