Поисковая система Google имеет ряд особенностей индексации сайтов на WordPress.
Эти особенности следует учитывать, чтобы получить хороший результат ранжирования в этом поисковике.
Содержание:
- Скорость индексации
- Глубина индексации
- Отношение Google к структуре сайта
- Квоты на индексацию
- Канонические страницы и Google
- Количество текста на странице
- Индексация изображений в Google
- Индексация видео в Google
- Новости в Google
- Выводы
Некоторые особенности индексации Google имеют вполне логичное объяснение, некоторые не поддаются никакой логике.
Скорость индексации
Спайдер Google узнает о наличии новой страницы на сайте довольно быстро. Иногда в течении нескольких секунд после публикации. Это отнюдь не является гарантией того, что страница появится в поисковой выдаче. Наоборот, страница может быть не проиндексирована несколько месяцев, но поисковая система будет знать о ее существовании.
В чем причина такой скорости индексации остается загадкой. На тестовом проекте был подключен сервис Google Analitycs и сервис пингов pingomatic.com. Возможно спайдер Google пользуется этими сервисами(*).
(*)Даже так, как только появляется вызов скрипта Google Analitycs c новой страницы спайдер обращается к sitemap.xml и в случае наличия новой страницы сообщает об этом спайдеру индексации.
Глубина индексации
Правило доступности страниц в 3 клика действует и сейчас, в 2021 году. Google просто “не найдет” страницу на которую не ведет ни одной ссылки. В то же время ссылка может быть вовсе не оформлена гиперссылкой, спайдеру Google достаточно “видеть” URL объекта по которому он попытается пройти чтобы проиндексировать объект.
Таким образом в индексе Google можно увидеть много “мусорных” страниц, которые создает WordPress и в то же время нужные страницы с хорошим контентом могут не быть в индексе.
Отношение Google к структуре сайта
Структура сайта очень важна для SEO, даже если сайт сделан не на WordPress. Плоская структура вида /главная страница/страница значительно проигрывает структуре /главная страница/раздел/подраздел/страница.
Google крайне негативно относится к реструктуризации сайта даже в том случае если старые URL были перенаправлены с кодом 304 “перемещен постоянно”.
Такие страницы могут выпадать из индекса и не индексироваться месяцами.
В то же время Google упорно будет пытаться найти несуществующую страницу по старому адресу.
На одном из моих старых проектов Google пытается найти страницы которые удалены более 10 лет назад.
Остается загадкой где спайдер Google берет URL этих удаленных страниц. Может быть это его собственная база данных по конкретному сайту, может быть спайдер пытается пройти по несуществующему URL который находит в Вебархиве или анализирует публичные записи в логах других спайдеров.
Квоты на индексацию
У Google существуют квоты на индексацию сайта. Иными словами чем меньший авторитет имеет сайт, тем меньше страниц проиндексирует Google.
Можно создать сайт на WordPress с 10 000 страниц, но проиндексировано будет 100-200 из них на остальные из-за низкого авторитета сайта проиндексированы не будут.
Канонические страницы и Google
Для Google очень важно указание канонической страницы в директиве rel=”canonical”. Страница имеющая не верную директиву rel=”canonical” или страница, для которой Google определяет каноничность самостоятельно может быть исключена из индекса. Это одна из причин по которой следует отказаться от плагинов для SEO в WordPress, большинство таких плагинов создает не корректный канонический URL.
Количество текста на странице
Для успешной индексации Google важно количество символов текста на странице. Минимально это 255 символов которые повторяют описание в значении meta=”description”. Однако замечу, что такие страницы не будут ранжироваться высоко даже в низкочастотных запросах.
В идеале, даже если на странице одиночный медиафайл, его должен сопровождать структурированный текст из 1200-1500 символов.
Страницы с коротким описанием менее 255 символов в индекс Google не попадут, мало того, такие страницы урежут квоты на индексацию, ведь на них Google затратил ресурсы, значит ресурсов не хватит для индексации более ценного контента.
Само собой что публикуемый текст должен быть уникален.
Индексация изображений в Google
Google успешно индексирует изображения если они отвечают его критериям. Из критериев индексации изображений можно отметить следующие:
- Наличие alt у изображения
- Уникальность изображения
- Размер изображения
Альтернативный текст изображения не должен копировать заголовок поста в WordPress иначе Google посчитает это изображение заголовком и не выведет его в Google.Images.
Изображение на странице должно быть уникальным. Google прекрасно распознает дубликаты изображений и не ранжирует такие изображения высоко. Мало того, Google попытается распознать лица людей на изображениях, предметы и текст, если он присутствует на изображении. В случае наличия URL в распознанном тексте Google сделает попытку пройти по этому URL и проиндексировать страницу.
С большей вероятностью Google будет ранжировать большие изображения в HD не менее 1280х800 px. Даже если изображение низкого качества, но большого размера шансов попасть в поисковую выдачу у такого изображения больше(*).
(*)Авторитетность ресурса на котором размещены изображения тоже играет немаловажную роль для ранжирования этих изображений.
Индексация видео в Google
Google может проиндексировать видео и выдать результат в случае наличия микроразметки, отвечающей требованиям Google.
Некоторые видео Google декомпилирует, раскладывает на секвенции и ищет в изображениях секвенций текст, по которому стремиться определить тематику видео и URL по которому сделает попытку пройти для индексации страницы. От чего это зависит пока не совсем понятно.
Все что относится к размерам изображения справедливо и для видео. Чем меньше по ширине и высоте видео на сайте, тем меньше вероятность индексации.
Новости в Google
Для идентификации сайта на WordPress в Google.News требуется отдельная регистрация и модерация ресурса сотрудниками Google.
В случае успешной модерации и подключения к сервису Google.News обязательно нужна карта новостей Google.
Причем при ранжировании новостей больше успеха у авторитетных ресурсов, хотя на менее авторитетных ресурсах больше эксклюзивной информации. Это весьма странный факт.
Выводы
Для успешной индексации сайта на WordPress в Google требуется выполнить несколько не самых сложных, но обязательных действий:
- На новом ресурсе обязательно отключить пинги и не подключать сайт на WordPress к сервисам Google до того момента, пока все страницы не будут в индексе.
- Обязательно добавить директивы в robots.txt запрещающие индексацию служебных страниц WordPress, фидов, страниц вложений, страниц авторов, меток, архивов по датам и меткам, пагинации и других сущностей если они присутствуют.
- Добавить HTML карту сайта для соблюдения правила “доступно в 3 клика”, это значительно повысит шансы индексации нужного контента.
- Структуру сайта необходимо определить сразу, без последующих переделок и редиректов и не менять URL страниц впоследствии.
- Добавить директиву noindex на страницы пагинации.
- Не засорять сайт страницами не имеющими описания или очень короткий текст. Это отрицательно влияет на квоты по индексации.
- Обязательно добавить директиву rel=”canonical”, причем эта директива должна содержать точный URL страницы без всяких исключений.
- Создавать структурированные документы, содержащие заголовки и подзаголовки.
- Использовать изображения большого формата с обязательным альтернативным текстом.
- Публиковать видео, которые бы указывали Google что это видео напрямую, снабдив описанием что это видео и добавив отдельную карту сайта для видео.
- Повышать авторитетность ресурса, получая ссылки с более авторитетных ресурсов и социальных сетей.
- Обязательно использовать микро разметку данных.
- В целом же при добавлении поста должны быть заполнены все поля без исключений. Метки, альтернативный текст, отрывок записи, мета описания в плагинах SEO, если они установлены. При этом заполненные поля должны отличаться.
- Обязательно добавить директивы в robots.txt запрещающие индексацию служебных страниц WordPress, фидов, страниц вложений, страниц авторов, меток, пагинации и других сущностей если они присутствуют.
Комментарий автора
Я отдаю себе отчет в том, что не являюсь истиной в последней инстанции. Все вышеизложенное результат многолетних наблюдений, аналитика логов, контроль индексации и поведения поисковых роботов.
Возможно я и ошибаюсь в каких-то незначительных мелочах, но в целом мои коллеги поддерживают выводы из результатов наблюдений.
Если у вас есть что добавить ко всему этому или вы с чем-то не согласны, напишите свой комментарий. Я обязательно на него отвечу.
Об авторе