Вивчаємо метод попарного порівняння для діагностики санкцій в Яндексі: три спостереження

Суть методу, коротко
Спостереження 1: релевантна сторінка в основному пошуку і отримана за допомогою «site:" часто відрізняються
Аналіз site: для старих доменів
Аналіз site: для молодих доменів
Проміжний висновок: при використанні «site:" застосовується інший алгоритм ранжирування
Спостереження 2: при попарном порівнянні проблеми з вибором релевантної зберігаються
Спостереження 3: при попарном порівнянні можуть рости позиції незафільтрованного сайту
висновки

Попарне порівняння - одна з методик визначення текстових фільтрів в Яндексі. Дуже широко застосовується оптимізаторами, лежить в основі ряду SEO-сервісів (інструменти Арсёнкіна, Кулакова і Піксель.Тулс).

Суть методу, коротко

Перевіряється позиція сайту за запитом.
Потім в Яндекс відправляється той же запит, для якого за допомогою операторів область пошуку звужена на два сайти - «пацієнта» і конкурента, який в звичайній видачу знаходиться вище. Тобто запит типу «ключове слово (site: patsient.ru | site: konkurent.ru)».
Якщо в розширеному пошуку наш сайт вище конкурента - значить, на нього накладено фільтр.
Зміна релевантного url - додатковий негативний ознака.

Є багато варіацій підходу (наприклад, порівняння за раз кількох сайтів, порівняння не з одним конкурентом, а з десятком, послідовне порівняння з усім ТОП-100).

Цікаво, що ніяких експериментальних обгрунтувань для методики в публічному доступі знайти не вдалося. Немає і чіткого теоретичного обґрунтування. Лише нічим не підкріплене твердження, що при використанні операторів розширеного пошуку знімаються текстові санкції.

До речі: оператор «()» в Яндексі начебто повинен бути скасований. Але саме для запитів з оператором site: працює коректно - принаймні у видачі дійсно залишаються тільки сторінки з зазначених доменів.

Я вирішив виправити становище і зробив кілька простих спостережень.

Спостереження 1: релевантна сторінка в основному пошуку і отримана за допомогою «site:" часто відрізняються

Для початку я спробував вивчити один з елементів методу - видачу, яка виходить при використанні оператора site :. У мене знайшлося декілька дуже цікавих об'єктів для вивчення. Це сайти, які я створив, готуючи доповідь на BDD про облік віку документа . Там використовується генерований за особливою методикою контент. На сайтах є сторінки-близнюки, заточені під одні і ті ж запити і володіють дуже близькою текстової релевантність.

Схема генерації сторінок (слайд з доповіді):

Аналіз site: для старих доменів

В експерименті використано 522 запиту (по 6 на пару сторінок-близнюків) для 3 сайтів. Спочатку перевірялися позиції в Яндексі за запитом без оператора, потім додавався site: domen.ru.

Для 28 запитів релевантна сторінка в нормальному пошуку і в пошуку з оператором виявилася різною.

При цьому:

в 26 випадках в нормальному пошуку показувалася молода сторінка, а в розширеному - стара.
в 2 випадках одна стара сторінка змінилася іншою старої.

Нагадаю, різниця у віці між «близнюками» - понад три роки.

Напрошується ідея, що вік має більше значення для пошуку з оператором, ніж для нормального (альтернативна гіпотеза - в розширеному пошуки не лютує багаторукий Бандит). Вибірка недостатньо велика, щоб робити обґрунтовані висновки, тому поки просто запам'ятаємо сам факт.

Аналіз site: для молодих доменів

Тут картина набагато цікавіше.

Розбіжність релевантного url в звичайному і розширеному пошуку проявилося на 301 запиті з 522. Тобто в 58% випадків (!). Насправді відмінності можуть бути ще більше - для кількох десятків запитів сторінки з домену не були знайдені в ТОП-100 і не розглядалися.

Ще більш цікавий момент: дуже часто релевантна при пошуку з оператором визначалася невірно.

Запити використовувалися досить довгі - з 5 і 6 слів. Пошукові фрази генерувалися за такою схемою: «слово1 слово2 {унікальне слово} слово4 слово5». Було 6 груп запитів, всередині кожної з них ключі відрізнялися тільки одним терміном.

Кожному запиту відповідало як мінімум одне точне входження на двох сторінках-близнюках. Більш того, на інших сторінках сайту унікальне слово не використовувалося.

Так ось, при запиті з оператором дуже часто унікальне слово ігнорувалося. По ряду запитів весь ТОП-5 був забитий сторінками, які взагалі його не містили. А документи з входженням в title і h1 залишалися десь на 7-10 позиції.

Кількісну оцінку я робити полінувався. Просто перевірив вручну 30 різних запитів, щоб переконатися, що спостережуване явище - не випадкова баг. Дійсно, якщо ви шукаєте оператором на довгих запитах в ТОП-1 постійно показуються не адекватні ІНТЕНТ сторінки. Зате в нормальному пошуку Яндекс справлявся відмінно.

Проміжний висновок: при використанні «site:" застосовується інший алгоритм ранжирування

Все викладене вище наводить на думку, що при ранжируванні всередині домену використовується інший алгоритм, сильно відрізняється від основного. Як мінімум інакше розраховується текстова релевантність.

Показово, що свистопляска з релевантними спостерігається саме на нових сайтах, де всі документи мають однаковий вік. В таких умовах ранжувати доводиться чисто по текстовим характеристикам, що і розкриває недосконалість застосовуваного в розширеному пошуку алгоритму.

Спостереження 2: при попарном порівнянні проблеми з вибором релевантної зберігаються

Тепер я тестував ті ж запити, але вже застосовуючи попарне порівняння для старого і нового доменів. Як нескладно припустити, тотально домінували старі сайти і сторінки. Url зі старого домену займали по 10-15 місць у видачі. Причому url з нового домену з найвищою позицією як і раніше дуже часто виявлявся не релевантним запитом (і збігався з тим, що виявлений за допомогою одиночного site :).

Можна було припускати, що в разі пошуку по декількох сайтів підключається більш просунутий основний алгоритм. Однак ця гіпотеза не підтвердилася. Все вказує на те, що в разі попарного порівняння діють ті ж закономірності, що й при пошуку з одиночним «site:".

Спостереження 3: при попарном порівнянні можуть рости позиції незафільтрованного сайту

Всі, хто використовував методику для аналізу спамних текстів напевно бачили, як сайт покращує свої позиції в пошуку з операторами. Однак щоб визнати методику повністю валидной цього недостатньо. Потрібно, щоб росли тільки такі сайти. Не можна будувати достовірні висновки виключно на позитивних прикладах. Тим, хто не згоден з цим абзацом, пропоную для початку загугли «позитивна упередженість». А ми йдемо далі.

Подивимося, як себе ведуть апріорі не-переоптімізірованние сторінки.

Візьмемо сторінку довідки «Чим відрізняється якісний сайт від неякісного з точки зору Яндекса?»: https://yandex.ru/support/webmaster/yandex-indexing/webmaster-advice.xml . Дуже малоймовірно, що на неї накладені санкції, чи не так?

Я розбив текст на 125 цитат з 4-8 слів. Спочатку Спарс видачу по ним без операторів. Потім додав до запиту попарне порівняння yandex.ru з сайтом, який мав у звичайній видачу максимальну позицію. Повторював по 3 рази на добу протягом 5 днів.

У кожній з проб виявлялося 10-13 запитів, за якими в основній видачі сторінка Яндекса була ТОП-1, а ось в попарном порівнянні виявлялася в ТОП.

Наприклад (звичайний запит):

З операторами:

Склад подібних запитів час від часу змінювався (Бандит?). Однак як мінімум 5 запитів демонструють описане вище поведінка стабільно.

Зверніть увагу: спостереження зроблені для першої-ліпшої, обраної навмання сторінки.

висновки

Пошук з використанням site: якісно відрізняється від звичайного. Ймовірно, в цьому випадку дійсно не враховуються пост-фільтри, але напевно є і маса інших відмінностей.
Зміна релевантної сторінки при попарном порівнянні не є свідченням проблем.
Покладатися на пошук з site: як методику визначення релевантної запиту сторінки неправильно (а часто навіть шкідливо!).

Все це, однак, не означає, що попарне порівняння потрібно виключити з арсеналу. Очевидно, що якщо сайт на позиції 80 в послідовно перемагає всіх своїх конкурентів, це серйозний сигнал, що з посадкової сторінкою щось не так. Просто тому що такі суттєві відмінності не дуже часто зустрічаються. (Інше питання, що ще більш серйозні сигнали можна отримати з Метрики або системи моніторингу позицій).

А ось застосовувати методику «в лоб», щоб нівелювати вплив Бандита, робити висновок саме про текстових санкції або автоматизовано очищати вибірку в масштабних дослідженнях - дуже, дуже спірне підхід.

Планую продовжити дослідження з питання. Сьогодні я тільки злегка спробував його на зуб - все спостереження досить прості і зроблені на невеликих вибірках. Думаю, найцікавіше попереду.

Візьмемо сторінку довідки «Чим відрізняється якісний сайт від неякісного з точки зору Яндекса?
Дуже малоймовірно, що на неї накладені санкції, чи не так?
Бандит?

Вивчаємо метод попарного порівняння для діагностики санкцій в Яндексі: три спостереження

Суть методу, коротко

Спостереження 1: релевантна сторінка в основному пошуку і отримана за допомогою «site:" часто відрізняються

Аналіз site: для старих доменів

Аналіз site: для молодих доменів

Проміжний висновок: при використанні «site:" застосовується інший алгоритм ранжирування

Спостереження 2: при попарном порівнянні проблеми з вибором релевантної зберігаються

Спостереження 3: при попарном порівнянні можуть рости позиції незафільтрованного сайту

висновки

Восточный

Западный

Зеленоградский

Северный

Северо-Восточный

Северо-Западный

Центральный

Юго-Восточный

Юго-Западный

Южный

Подписаться на новости


		Официальный сайт движения «Москва без Лужкова!»