Карта сайта XML - это тип карты сайта, которую Google предлагает вам отправить через Google Webmaster. инструменты , Это не тот тип веб-сайта, который вы обычно видите при посещении веб-сайта. Скорее, именно такая карта сайта помогает Google сканировать ваш сайт лучше. Эта статья покажет вам, как его создать.
Обратите внимание, что этот вид карты сайта не должен быть доступен посетителям. Например, вам не следует размещать ссылку на этот XML-файл сайта, чтобы посетители могли получить к нему доступ. Этот XML-файл сайта предназначен только для поисковых роботов, таких как Googlebot.
Если вы все еще растеряны и новичок, когда дело доходит до карт сайта, просмотрите очевидную разницу ниже:
Цель XML-карты сайта - сообщить роботу Google обо всех канонических URL-адресах на вашем веб-сайте, которые они могут не найти в обычном процессе сканирования. Есть несколько важных преимуществ наличия карты сайта XML:
Во-первых, в сочетании с robots.txt для предотвращения дублирования контента, карта сайта XML подтверждает ваши канонические URL-адреса и дает вашему сайту лучшую информацию в процессе сканирования роботом Google. Если вы удалите дубликаты URL-адресов содержимого на своем веб-сайте путем правильного использования карты сайта XML (в сочетании с robots.txt, каноническими методами rel link и методами перенаправления), вы сохраните равенство ссылок, и эти заработанные соки ссылок будут перенаправлены на важные страницы, которые требуют оценивать хорошо в Google.
Во-вторых, если у вас большой веб-сайт (например, гигантский веб-сайт электронной коммерции) с тысячами URL-адресов продуктов и категорий, кажется невозможным перечислить их все в обычной карте веб-сайта. Здесь карта сайта XML может быть более полезной; он может отображать большое количество URL-адресов, чтобы информировать робота Google об URL-адресах на вашем веб-сайте. Это особенно полезно для недавно запущенных сайтов.
В этой статье предпринята попытка создать персонализированный / ручной файл Google XML Sitemap с использованием Excel в соответствии с Стандарт Google Эта «настройка» карты сайта Google может исправить проблемы, возникающие при использовании традиционных методов для создания карты сайта Google (например, с помощью бесплатные услуги создателя XML-карты сайта ).
{mospagebreak title = Традиционные проблемы с генератором XML-карты сайта}
Традиционный генератор XML Sitemap может вызвать как минимум две потенциальные проблемы. Во-первых, они имеют тенденцию включать неканонические URL-адреса. Например, если http://www.thisisyourwebsite.com/product.php?id=5 и http://www.thisisyourwebsite.com/latestprogrammingbooks.html в основном являются URL-адресами, содержащими один и тот же контент, популярный генератор XML часто включает в себя как из них в списке, почти без возможности настроить или объявить канонические URL-адреса.
Во-вторых, традиционный генератор XML-файлов сайта требует много времени для сканирования неважных URL-адресов. Если у вас большой веб-сайт, использование этих служб может занять много времени (некоторым может потребоваться несколько часов для завершения процесса сканирования). Хуже всего то, что большинство результатов - это неважные URL-адреса, такие как URL-адреса результатов поиска, URL-адреса расширенного поиска или тысячи URL-адресов «свяжитесь с нами».
Предложенное решение
Ниже приведен предлагаемый метод настройки карты сайта Google XML, который решает проблемы, возникающие при использовании традиционного генератора файлов Sitemap. Это 13-шаговый процесс.
Шаг 1 : просканируйте свой сайт, используя Xenu Sleuth ; Вы можете скачать его по предоставленной ссылке. Установите его на свой компьютер, затем перейдите в Файл -> Проверить URL и введите корневой URL вашего сайта, например:
http://www.php-developer.org/
Или, если это субдомен, введите корень субдомена, например:
http://tools.devshed.com/
НЕ проверяйте «Проверка внешних ссылок». После того, как все это установлено, нажмите «ОК».
Шаг 2 : Xenu Sleuth будет сканировать ваш сайт. Как только он закончится, он покажет это сообщение:
Когда вы увидите это сообщение, нажмите «НЕТ».
{mospagebreak title = Предлагаемое решение продолжено}
Шаг 3 В Xenu sleuth перейдите в File -> Export to TAB разделенный файл -> имя файла и используйте доменное имя вашего сайта в качестве имени файла. Вы можете сохранить его в удобном месте, например на рабочем столе. Используйте «Текстовые файлы (* .txt)» в качестве типа файла. Наконец, нажмите «Сохранить». Это создаст совместимый с Excel файл .csv.
Шаг 4 Чтобы сохранить сеанс обхода Xenu, перейдите в Файл -> Сохранить как -> имя файла; вы все еще можете использовать имя домена в качестве имени файла, но на этот раз используйте * .xen в качестве типа файла. Вы можете снова открыть этот сеанс без необходимости повторного сканирования своего веб-сайта с помощью Xenu. Это экономит пропускную способность.
Шаг 5 Вы можете безопасно закрыть сеанс Xenu, перейдя в File -> Exit.
Шаг 6 На рабочем столе найдите файл * .txt, который вы только что сохранили (пример: PHP developer.txt). Щелкните правой кнопкой мыши файл и выберите «Открыть с помощью»; выберите Microsoft Excel. Смотрите скриншот ниже:
Шаг 7 Файл, который вы только что открыли, не в формате Excel, поэтому вам нужно сохранить его как Excel. Перейдите в Файл -> Сохранить как -> имя файла; Вы все равно должны использовать доменное имя, но выберите «Книга Microsoft Excel» в разделе «Сохранить как тип». Для удобства его можно сохранить на рабочем столе.
Шаг 8 Перейдите в Данные -> Фильтр -> Автофильтр. Это активирует выпадающий фильтр Excel. Сначала нам нужно отфильтровать «Внешние URL», потому что они не являются частью URL вашего сайта. В столбце C щелкните стрелку раскрывающегося списка и выберите «Custom».
В разделе «Статус» выберите «не содержит», а в раскрывающемся меню выберите «Пропустить внешний» (см. Снимок экрана выше).
{mospagebreak title = Решение продолжено: дополнительная фильтрация}
Шаг 9 В столбце D выполните тот же метод фильтрации, который вы использовали в шаге 8, но на этот раз в разделе «Тип» выберите «содержит» и в раскрывающемся меню справа выберите «текст / HTML». При этом будет отображаться только «текст». / html URLs », которые Google рекомендует индексировать.
Шаг 10 В столбце A вы можете дополнительно использовать пользовательский фильтр (из автофильтра в Excel), чтобы продолжить удаление неважных строк, которые не рекомендуется для индексации. Например, вы можете удалить URL-адреса изображений, например:
http://www.php-developer.org/wp-includes/images/smilies/icon_smile.gif
Чтобы отфильтровать файлы .gif, щелкните раскрывающийся фильтр «Столбец А» (который можно увидеть, если включен автофильтр; см. Снимок экрана на предыдущей странице), а затем выберите «не содержит»? «.Gif». Вы можете распространить свою фильтрацию на другие неважные расширения файлов, такие как .js, .css, .xml, .doc и другие типы файлов, не связанные с HTML.
Шаг 10 Выберите отфильтрованные результаты в столбце A, скопируйте и вставьте их в файл блокнота. Процесс копирования и вставки должен выглядеть следующим образом:
Шаг 11 Необходимо убедиться, что отфильтрованные URL-адреса (они еще не являются окончательными каноническими URL-адресами) НЕ ЗАБЛОКИРОВАНЫ в файле robots.txt. Для этого перейдите в свою учетную запись Инструментов Google для веб-мастеров -> Конфигурация сайта -> Crawler Access, скопируйте и вставьте URL-адреса из блокнота в разделе «URL-адреса». Укажите URL-адреса и пользовательские агенты для проверки. »
Вам также необходимо убедиться, что синтаксис robots.txt обновлен в разделе «Текст http: //www.thisisyourwebsite/robots.txt».
Смотрите скриншот ниже:
Когда все будет установлено, нажмите кнопку «Тест». Если есть заблокированные URL-адреса (например, Заблокировано по строке…), удалите эти URL-адреса из файлов блокнота. Полученные URL являются каноническими URL для вашего сайта.
Шаг 12 Убедитесь, что все эти URL имеют статус заголовка «200 OK». Не включайте URL, которые будут перенаправлять на другую страницу; вместо этого введите целевой URL. Вы можете использовать массовая проверка , Удалите любой URL, который не дает 200 OK статуса.
Шаг 13 Как только канонические URL-адреса будут хорошо определены, вы готовы создать свой собственный XML-файл сайта. Перейдите по следующему URL-адресу: http://www.php-developer.org/PHPXML-sitemap-generator.php, а затем скопируйте и вставьте все канонические URL-адреса на основе анализа с шага 1 до шага 12. Убедитесь, что у вас есть сначала введите URL домашней страницы и один URL в каждой строке.
Php?Gif, щелкните раскрывающийся фильтр «Столбец А» (который можно увидеть, если включен автофильтр; см. Снимок экрана на предыдущей странице), а затем выберите «не содержит»?