- Навіщо потрібен ще один сервіс підбору синонімів і LSI?
- Ідея сервісу: експертний контент + word2vec
- Що вийшло?
Ось уже кілька місяців я експериментую з word2vec - набором інструментів для аналізу текстів від розробників Google. Прийшла пора не тільки гратися , А й робити за допомогою машинного навчання щось корисне.
Недовго думаючи, взяв і зробив інструмент для підбору тематичних слів до запитів. Ось він (безкоштовно, без реєстрації): https://bez-bubna.com/free/lsi.php
Навіщо потрібен ще один сервіс підбору синонімів і LSI?
Про використання в SEO пов'язаної з пошуковими запитами лексики (LSI - неправильний, але усталений термін) я вже писав, див. Статтю LSI в SEO: розкладаємо по поличках . У тому числі згадав чимало недоліків і обмежень поширених підходів до використання тематікозадающіх слів.
Ось ще одна проблема.
На практиці сервіси, які генерують LSI, часто працюють з контентом або сниппета сторінок з ТОПу видачі за запитом. До ніж це призводить?
- Вибірка для аналізу - всього лише кілька десятків документів. Високий ризик зібрати тільки занадто очевидні і тому даремні слова.
- Далеко не факт, що вивчаються сторінки взагалі містять потрібні слова. Чинників ранжирування безліч, в ТОПі легко можуть триматися сайти з малої текстової релевантність (за рахунок хостових, довідкових, поведінкових ...).
- Спираючись на тексти конкурентів можна піднятися до їх рівня, але не зробити краще.
Я спробував зайти з іншого боку.
Ідея сервісу: експертний контент + word2vec
Використання LSI на основі ТОПу наближає вектор документа з точки зору Яндекса до документів в ТОП і це не завжди добре (див. Вище). А що якщо наближати текст до однозначно хорошим, інформативним і цінним матеріалами?
Де взяти такі чудові матеріали? Вони існують, і чимало. Треба просто відволіктися від статейніков з копірайтінгом 1 $ / тисячезнак і згадати, що є, наприклад, офіційні документи з перевіреною інформацією (закони, інструкції, стандарти лікування). Читайте першоджерела! (С)
Залишається зібрати серйозну базу таких документів і нацькувати на неї word2vec, щоб обчислити зв'язку між різними словами. Завдяки цим зв'язкам можна буде по одному слову знаходити споріднені (ті, що в свідомо хороших текстах часто йому супроводжували).
Що вийшло?
Вийшло не так чарівно, як я хотів. Ідея тільки звучить так просто, на ділі роботи досить багато. Потрібно зібрати базу текстів, очистити її від сміття, перевести в формат, зручний для word2vec, протестувати різні параметри моделі ...
Я зробив 2 моделі за тематиками «медицина» та «юриспруденція». Для інших сфер сервіс поки неактуальний. Однак те що є - працює досить непогано, можна отримувати цікаві результати.
Візьмемо простенький приклад:
А тепер складніше:
В основному у справі.
З області права:
Як це використовувати?
Можна і традиційним способом - шукати терміни кожної окремої сторінки. Але краще просто познайомити копірайтера з результатами по головним ключовим словом загальної теми (рубрика, розділ сайту), щоб він краще розумів, про що тут взагалі мова і глибше розібрався в темі замість того, щоб налити води за звичкою. Тобто ми отримаємо більш якісні і корисні для людей тексти.
(Втім, неспеціалісту писати інформаційні статті в таких серйозних тематиках взагалі не варто, скоріше з міркувань моралі а не SEO. Так що по уму сервіс більше для підготовки контенту на корпоративні сайти - коли потрібно просто грамотно розповісти про послугу, а не описувати «як зробити своїми руками").
Звичайно, інструмент сирої. Буду радий зауважень, прикладів некоректної роботи і пропозицій. Пишіть, які ще тематики хотіли б бачити.
Навіщо потрібен ще один сервіс підбору синонімів і LSI?До ніж це призводить?
Де взяти такі чудові матеріали?
Що вийшло?