- Управление индексацией сайта
- Способы добавления сайта в индекс поисковых систем
- Как работают поисковые роботы
- Как управлять индексацией сайта?
- Контроль над индексацией возможен?
- Почему сайт плохо индексируется?
- Как провести индексацию быстрее конкурентов?
- Что нужно помнить про индексацию сайта поисковиками?
Управление индексацией сайта
Работы по SEO делятся на проработку внутренних и внешних, по которым определяются позиции сайта в поисковой выдаче. Управление индексацией проекта – это взаимодействие настроек ресурса в его шаблоне для отображения в браузере пользователя и поисковых роботов. Присутствие сайтов в индексе поисковых систем продумывается разработчиками еще на стадии создания структуры проекта, верстки и формирования стратегии продвижения. Такая предусмотрительность делает продвижение и работу ресурса в сети комфортной для пользователей и успешной для его владельца.
Индексация сайта — это процедура добавления данных о веб-ресурсе в общую поисковую базу. Индексирование осуществляет робот поисковика.
Способы добавления сайта в индекс поисковых систем
ЛСА-методика — латентно-семантический анализ.
Этот вид работы предполагает обработку данных на естественном языке. С помощью данного анализа определяются логические связи между набором документов и терминологией, встречающейся в них, сопоставляются определенные факторы по всей базе. ЛСА-методика используется для выявления значений контекстно-зависимых единиц благодаря обработке крупных текстовых массивов.
ВЛСА — вероятностный ЛСА анализ.
Данный метод анализирует взаимосвязи двух типов информации. ВЛСА используется в обработке речи, машинном обучении и информационном поиске.
Способы ускорения индексации сайта
- Добавление веб-ресурс в поисковики и социальные закладки.
- Регистрация сайта в популярных каталогах и сервисах, в том числе Яндекс.Вебмастер.
- Внутренняя перелинковка страниц сайта.
- Правильная структура навигации с доступом к любой странице максимум за три клика от главной.
- Тематический рассылки с линками на сайт.
- Ведение блога. Систематическое наполнение сайта новым контентом.
- RSS-трансляции.
Способы ограничения индексирования сайта
- Инструкции в файле
robots.txt
— это простейший способ ограничения индексации сайта. Это позволяет запретить добавление в индекс не нужных страниц и директорий, оградить от них поисковых ботов. - Включение тега
noindex
. Исключает индексацию для конкретной страницы сайта. - Установка пароля. Позволяет на 100% отсечь поисковых роботов от контента на сайте.
- Установка 301-го редиректа. С его помощью можно перенаправить роботов поисковиков и пользователей на другие странички.
Как работают поисковые роботы
Яндекс, Google, другие поисковые системы разработали алгоритмы, по которым данные по сайтам собираются, анализируются и отображаются в рейтинге на определенных позициях. Поисковая выдача — это результат работы краулеров, где первыми показываются лучшие проекты, занесённые в базу данных поисковых систем по конкретным запросам. Googlebot, StackRambler, YandexBot и прочие имеют четкие параметры, которым должен отвечать любой сайт. И не важно, хочет ли владелец сайта зарегистрироваться, ранжироваться и продвигаться в системе. Поэтому первое, о чем надо позаботиться разработчикам – это создание условий для успешного сканирования сайта, расстановкой запрета на индексирование части сайта и добавления ресурса в индекс.
В алгоритм обработки проекта входит и такой показатель, как частота обхода проекта поисковыми роботами. Абсолютной величины или строго установленного временного периода нет, но есть факторы, которые наиболее влияют на конечный результат:
- Количество страниц, рекомендуемых к индексированию.
- Посещаемость сайта.
- Регулярность обновления контента.
Когда на сайт добавляются страницы, поисковые боты узнают о них из таких источников:
- Ссылки на сайт, ведущие к новым записям из уже известных ботам документов.
- Переходы с разных площадок (социальные сети, форумы, прочие).
- Счётчики метрик, расположенные на самом сайте.
Поисковые системы заинтересованы в стабильной работе сайтов, находящихся в базе поисковой выдачи. Поэтому у них цель – не нарушать функционирование сайта проверками. Считается, что краулеры могут создать проблему, слишком сильно нагрузив сервер частыми запросами к сайту. С этим связывают такие факты:
- Число страниц, которое проверяется за одно посещение ограничено (точные цифры неизвестны).
- Сканирование сайтов по возможности происходит в ночное время.
Краулинговый бюджет — инсайдерская информация по SEO сайта
Сотрудник Google Гэри Илш (Gary Illyes) в одном из интервью приоткрыл завесу секретности о том, как определяется число сканируемых страниц для каждого сайта. Все происходит через Краулинговый бюджет. В процессе анализа сайта боты опираются на реальные факторы:
- допустимая скорость сканирования сайта, что может зависеть не только от качества выполненных работ;
- спрос внутри самой компании Гугл (сколько страниц краулер хочет просканировать), за основу берется трафик проекта и другие показатели.
При этом Google определяет под Краулинговым бюджетом, не желаемый, а возможный результат. Допустим, на сканирование дается максимальный период времени – 100 минут. Число пройденных записей за этот период и будет краулинговым бюджетом проекта. Если сайт ускорится к следующей проверке, то его лимит увеличится, но тоже не сразу, а через несколько недель. Причем, существует и конечное значение (больше страниц за один подход бот не может сканировать).
Для оптимизаторов важно контролировать ряд внутренних факторов, которые непосредственно влияют на снижение краулингового бюджета:
- Наличие доступа к индексации записей, где адрес содержит «лишнюю» информацию.
- Дубли документов или просто контента.
- Неправильно оформленные страницы с ошибкой 404.
- Низкое качество страниц, спам, прочее.
К «лишней» информации относятся адреса, где указаны:
- Идентификатор сессии (используется на страницах с отключенными cookies, но практически с теми же целями – сбор инфо о пользователе).
- Элементы фильтрации в URL.
- UTM-метки, используемые для отслеживания маркетинговых кампаний сети.
Как управлять индексацией сайта?
Алгоритмы поисковой системы научились подстраиваться к работе сайта так, чтобы не вызывать помех в его работе или возникновению технических проблем. В свою очередь, оптимизаторам выгодно учитывать введенные ограничения по количеству страниц и другие особенности. Один из важных принципов, рекомендуемых к соблюдению – это оставлять открытыми к индексации только те страницы ресурса, которые принимают участие в его поисковом продвижении.
Как обратить внимание роботов на то, что нужно?
Внутренняя перелинковка позволяет управлять приоритетами в показах страниц в выдаче. Кроме организации самого процесса ссылочного взаимодействия, необходимо настроить канонические адреса записей, которые считаются предпочтительными при индексировании. Но использовать canonical
url надо не всегда, а лишь в случае, если сайт содержит одинаковые страницы. Примером таких записей служит следующее:
- пронумерованные страницы (чтение книги, законов, документации, статей в блоге);
- документы, чьи адреса содержат UTM-метки (свойства товаров);
- наличие на сайте фильтров (похоже на предыдущий пункт, но имеет некоторые особенности);
- прочие.
Важно производить настройки необходимо в теге head
шаблона сайта. Иначе поисковый бот проигнорирует пожелание оптимизаторов. Для этого используется код такого вида что, если документ не должен появляться прямо в выдаче, то поисковому боту сообщается канонический адрес.
Роль robots.txt
в индексации сайта
Файл robots.txt
существует практически у каждого сайта для ограничения активности поисковых роботов. Иначе поисковые краулеры считают, что всё содержимое сайта можно извлекать, использовать, делать доступным общественности.
Внутри файла robots.txt
работают инструкции, с помощью которых и управляют индексацией сайта. Кроме того, есть ряд параметров, которые обеспечивают корректность взаимодействий. Например:
- Инструкция
User-Agent
указывает поисковую систему, к которой относится конкретное сообщение. - Директива
Disallow
сообщает о страницах, которые нежелательно индексировать. Crawl-delay
раньше использовали для снижения нагрузки на сервер, сегодня Яндекс и Гугл игнорируют эту директиву, но некоторые все равно прописывают.- Для Яндекса прописывают
Clean-param
, которая запрещает индексировать записи с заданными динамическими параметрами.
Подробнее о том, как настраивать файл robots.txt рассказывается в этой публикации.
Контроль над индексацией возможен?
Убедиться в корректности показов страниц сайта в выдаче можно несколькими способами.
Панели Вебмастера Яндекса и Google Search Console
Обе поисковые системы (и Яндекс, и Google) дают возможность проверять индексацию. Яндекс.Вебмастер предлагается проверять такие параметры:
- Общее количество документов, успешно прошедших сканирование.
- Настройка мониторинга изменений важных записей с точки зрения маркетинга или по иным признакам.
- Проверка статуса URL конкретных страниц.
- Выявление причин удаления записей из индекса.
По последнему пункту выделяют такие ошибки оптимизации:
- Наличие дублей.
- Некорректная переадресация.
- Неправильная настройка канонических и нет страниц.
- Случайное закрытие записей от индексации в файле
robots.txt
.
Эти данные позволяют понимать уровень возникших ошибок, устранять их без переписки с владельцами сайтов с саппортом поисковых систем и возвращать документы в индекс.
Предложения Google для вебмастеров не столь перспективны. В специальной консоли можно проверить лишь следующее:
- Общее число проиндексированных записей.
- Количество закрытых страниц в
robots.txt
.
Данных по страницам сайта отдельно не предоставляется. Поэтому в случае возникновения проблем, оптимизаторам приходиться вручную искать страницы, выпавшие из индекса.
Получение информации о сайте с помощью site:
и url:
Получить информацию о числе индексируемых страниц могут даже конкуренты, для этого им нужен лишь URL главной страницы. Действие выполняется при помощи специальных операторов, которые максимально уточняют запрос. Например, site:
. Если разница в данных между двумя выдачами многократна, значит, сайт имеет проблемы с технической оптимизацией. Альтернативно, продвижение проекта заточено под работу только одной системы из соображений стратегии раскрутки, по иным объективным причинам.
Оператор url:
в Яндексе используют для определния статуса конкретной записи.
Панель инструментов RDS бар в браузере
Плагин RDS разработан для пользователей браузеров: Opera, Google Chrome и Mozilla Firefox. Добавляется, как вспомогательная панель инструментов. Требуются: специальная, но простая установка и, если потребуется, более точная настройка. При использовании вебмастеру доступны такие данные:
- Объемы присутствия сайта в Яндекс и Гугл (отдельно).
- Статус просматриваемой страницы.
- Количество ссылок на сайт (для обеих систем поочередно).
- Индекс в других поисковиках (Alex, Bing).
- Другие полезные параметры.
Инструменты для работы с проблемами сайта
Процесс предварительной внутренней оптимизации часто выполняют на полностью в автоматическом режиме. Выявление ошибок ресурса не составляет исключения. Инструменты помогающие находить и устранять проблемы индексирования называют парсерами.
Например, Netpeak Spider позволяет проверять отклики страниц, находить канонические адреса, определять открытость страницы в robots.txt
, а также параметры в мета-тега robots (включен индекс и следование по ссылкам или нет).
Программа Comparser используется для углубленного изучения индексации сайта. Оптимизаторам доступны следующие функции:
- Проверка всех страниц сайта.
- Выявление документов, присутствующих в рейтингах ПС, но не имеющих внутренние ссылки.
- Автоматическое удаление из индекса страниц, наличие которых в выдаче поисковых систем нежелательно.
Читай также: Лучшие программы, чтобы сделать анализ оптимизации сайта.
Почему сайт плохо индексируется?
Для SEO продвижения важны внутренние параметры сайта. Например, перелинковка сильно влияет на юзабилити проекта, его маркетинговые преимущества, в итоге: трафик. Но участвовать в ссылочном процессе, сформированном внутри проекта, могут только проиндексированные записи. Некоторые из схем перелинковки перестают работать при выпадении всего лишь одного звена. Другие работают даже при трех закрытых от индекса документов. В любом случае, событие снижает объемы поискового трафика, как следствие, числа продаж или заявок.
Основные причины выпадения страниц из индекса:
- Некорректно настроены отклики 301 или 302 (ведут не на посадочную страницу, а на другую).
- Наличие дублей контента.
- Ошибка в работе оптимизаторов (страницы по недосмотру оказываются закрытыми от сканирования, способ того, как это накосячено, значения не имеет).
- Неправильная настройка страницы с ошибкой 404.
- Сбои в работе хостинга.
Если предотвратить удаление страницы из индекса не удалось, рекомендуется действовать по следующему плану:
- Выявить причину удаления.
- Исправить ошибки.
- Направить документ на индексацию (повторно или впервые).
Как провести индексацию быстрее конкурентов?
Новую или исправленную запись можно добавить в базу данных поисковиков в ускоренном режиме. Для этого предлагается использовать такой алгоритм:
- Внести добавления в файл
sitemap.xml
+ дата исправлений и указание на заинтересованность в индексировании. - В Яндексе URL страницы отправляется запрос на «Переобход страниц».
- Формирование ссылочной массы из внешних источников на желаемый к добавлению в индекс документ.
- Добавление ссылок из социальных сетей (хотя сегодня с этим инструментом надо действовать аккуратно, есть тонкости настройки).
- Создание условий для высокой посещаемости даже если она обеспечивается за счет электронной рассылки.
- Улучшение качества внутренней перелинковки.
Больше способов: Ускорить индексацию страниц.
Что нужно помнить про индексацию сайта поисковиками?
Управление индексацией – это основной козырь, которым владеют опытные оптимизаторы. Умение выводить сайт по большому числу запросов в ТОП выдачи базируется на грамотной перелинковке, верстке, профессиональных приемах. О некоторых секретах оптимизаторов рассказано в этой статье.
Если с вашим сайтом приключилась беда, некоторые страницы оказались удаленными из индекса, перечитайте ещё раз, ну и всё время появляются другие методы работы с индексацией сайта поисковыми системами.
Заберите ссылку на статью к себе, чтобы потом легко её найти!
Раз уж досюда дочитали, то может может есть желание рассказать об этом месте своим друзьям, знакомым и просто мимо проходящим?
Не надо себя сдерживать! ;)