Путеводители по сайту для  crawler -ов:

 

  • Любой crawler прежде чем перейти на новый домен проверяет существование файла по адресу http://www.некий-домен.ru/robots.txt. В таком файле веб-мастер может разместить директивы для потенциальных компьютеризированных посетителей в соответствии с соответствующим стандартом. Если поисковый робот обнаруживает этот файл, то прочитав его он корректирует свой маршрут обхода всего интернет-ресурса в соответствии с указанными директивами.
  • Внутри заголовка любой HTML-страницы или любого другого документа, передаваемого по http протоколу (с помощью заголовков самого протокола), можно разместить специальный meta-tag для роботов, который также должен соответствовать стандарту, опубликованному в 1996 году.
  • Основной частью путеводителя чаще всего является карта сайта в формате XML. С ее помощью программа может быстро определить весь ассортимент страниц, которые ей было бы неплохо проиндексировать.
  • Самым последним был воплощен в жизнь метод, основанный на микроформатах. Реализуется он с помощью параметра rel=»nofollow», указанного внутри тэга <a>, который обозначает ссылку, не предназначенную для перехода по ней пауком.

 

Карты сайтов и директивы robots.txt предназначены для определения маршрута путешествия crawler'а, в то время как микроформаты и meta-тэги — для влияния на сам процесс индексации.

 

У каждого из описанных выше методов есть своя узкая специализация:

 

  • robots.txt предоставляет базовый набор директив для роботов, которым они следуют даже в случае конфликтов с другими использованными методами.
  • Карта сайта влияет на последовательность и набор страниц, посещенных пауком, с помощью указания приоритетов страниц или времени последней модификации.
  • Мета-тэги распространяют свое действие на весь документ и влияет на индексирование страниц (если они одновременно присутствуют как в заголовке (X) HTML документа, так и в заголовках X-Robots-Tags HTTP-протокола, то приоритет считается выше у заголовков протокола).
  • Микроформаты позволяют в случае необходимости переопределять параметры любого конкретного тэга документа, не смотря на указания в мета-тэгах.

Вверх