Robots.txt. Примеры использования. Как работает robots.txt?
Robots.txt является стандартом для поисковых роботов


robots.txt — определение.

Robots.txt — это текстовый файл, который содержит параметры индексирования сайта для роботов поисковых систем, а также позволяющий регулировать индексацию веб-ресурса ведущими поисковиками. Этот текстовый документ размещается в основной директории сайта.

Robots.txt является стандартом исключений для роботов, принятым консорциумом W3C 30 января 1994 года. Его использует большая часть современных поисковиков, как рекомендацию к индексированию проекта. Файл Robots.txt – это обычный текстовый файл в формате .txt, содержащий инструкции и директивы для поисковых роботов, запрещающие индексировать определенные файлы сайта, его документы и папки. То есть, данный файл ограничивает ботам поисковых систем доступ к содержимому сайта.

Общая информация и принципы работы robots.txt

Первым делом поисковые роботы, оказываясь на сайте, обращаются к файлу robots.txt, который позволяет им узнать, какие страницы, разделы и иные категории необходимо проигнорировать. Тут же робот получает данные о расположении карты сайта в формате XML и сведения о динамических параметрах в URL-адресах.

С помощью Robots.txt можно исключать из поиска дубликаты веб-страниц, все страницы ошибок, что позволит не только улучшить ранжирование ресурса, но и поднять на новый уровень комфорт пользователя в процессе посещения сайта.

Создать этот текстовый документ можно в любом текстовом редакторе, задав ему это имя. Но его содержание должно удовлетворять имеющимся требованиям и правилам. Подготовленный с учетом всех особенностей файл robots.txt загружается в корень сайта на хостинге или сервере.

Важные команды в robots.txt

User-agent.

С помощью файла robots.txt можно управлять доступом к веб-сайту различных поисковых роботов - Яндекса, Гугла и т.д. После нахождения записи User-agent осуществляется поиск подстроки с названием соответствующего поисковика. Так, для Яндекса задаются такие значения - Yandex, YandexBot или *. В первом случае файл будет использоваться всеми поисковыми роботами Яндекса, во втором - только основным ботом индексации, а в третьем - будет индексироваться вообще любыми роботами.

Disallow.

Этой директивой определяется запрет доступа к ресурсу в целом или отдельным его элементам. 

  • / - полный запрет,
  • /cgi-bin  - запрет индексации только для страниц, которые начинаются с /cgi-bin.

Host.

С помощью этой директивы можно указать имя главного зеркала, если у сайта есть дополнительные зеркала. Для этого напротив Host указывается нужный URL-адрес. При доступе по защищенному каналу также нужно задать HTTPS и при необходимости номер порта.

Пример robots.txt

Вот несколько примеров использования robots.txt для сайта www.example.com :

URL файла robots.txt: www.example.com/robots.txt

Блокирование доступа всех поисковых роботов к любому контенту.

User-agent: *
Disallow: *
  • Использование этого синтаксиса в файле robots.txt укажет всем поисковым роботам не сканировать никакие страницы на www.example.com , включая домашнюю страницу.

Предоставление всем поисковым роботам доступа ко всему контенту.

User-agent: *
Allow: *
  • Использование этого синтаксиса в файле robots.txt указывает поисковым роботам сканировать все страницы на  www.example.com, включая главную.

Блокировка определенного поискового робота из определенной папки

User-agent: Yandex
Disallow: /example-subfolder/
  • Этот синтаксис указывает только поисковому роботу Яндекса (имя агента пользователя Yandex) не сканировать страницы, содержащие строку URL www.example.com/example-subfolder/ .

Блокирование определенного поискового робота с определенной веб-страницы

User-agent: Googlebot
Disallow: /example-subfolder/blocked-page.html
  • Этот синтаксис указывает только сканеру Гугла (имя пользовательского агента Googlebot) избегать сканирования определенной страницы по адресу www.example.com/example-subfolder/blocked-page.html.

Как работает robots.txt?

У поисковых систем есть две основные задачи:

  1. Сканирование Интернета для обнаружения контента.
  2. Индексирование этого контента, чтобы его могли обнаружить пользователи, ищущие информацию.

Чтобы сканировать сайты, поисковые системы переходят по ссылкам с одного сайта на другой, в конечном итоге просматривая многие миллиарды ссылок и веб-сайтов. Такое поведение поисковых роботов иногда называют «пауками».

После перехода на сайт, перед его просмотром, поисковый робот будет искать файл robots.txt. Если он найдет его, сканер сначала прочитает этот файл, прежде чем продолжить просмотр страниц сайта. Поскольку файл robots.txt содержит информацию о том, как поисковая система должна сканировать, найденная там информация будет указывать на дальнейшие действия сканера на этом конкретном сайте. Если файл robots.txt не содержит директив, запрещающих действия поискового бота (или если на сайте нет файла robots.txt), он продолжит сканирование любой информации на сайте.

Что такое RSS.

RSS (Rich Site Summary, богатая сводка сайта) — это особый формат передачи информации с сайта, кратко отображающий содержимое. RSS — это автоматически генерируемая сводка в формате RSS или xml, в которой отображаются недавно опубликованные статьи и новости. При этом на полную версию указанных материалов дается гиперссылка. Очень часто этот формат используется информационными порталами и блогами.

Трансляция контента в ленту новостей — это плюс в карму для сайта, потому что просмотр новой информации в виде ленты прост для пользователя, если он вообще когда-нибудь использовал RSS.

Заберите ссылку на статью к себе, чтобы потом легко её найти!
Раз уж досюда дочитали, то может может есть желание рассказать об этом месте своим друзьям, знакомым и просто мимо проходящим?
Не надо себя сдерживать! ;)

Старт! Горячий старт на просторы интернета
Старт! Горячий старт на просторы интернета
Старт! Меню