Файл robots.txt необходим для того, чтоб запретить сетевым роботам (web crawlers, например, поисковым ботам) доступ к части содержимого сайта. Для определенного сайта файл robots.txt может быть только один и находится исключительно в корневой дирректории сайта (т.е. /robots.txt). Так как URL чувствительны к регистру, то необходимо помнить, что название файла robots.txt пишется строчными буквами.
Правила запрета или разрешения на индексацию разделяются между собой пустой строкой. Первая строка правила содержит информацию об сетевом роботе User-agent:
и имя этого робота (если правило распространяется на всех роботов, то ставится звездочка *). Следующие строки содержат информацию об запрещенных или разрешенных для индексации дирректорий (Disallow:
). Если имя дирректории отсутствует, то индексация разрешена. Каждой инструкции Disallow
соответствует одня дирректория. Если нужно закрыть несколько дирректорий, то для каждой необходимо писать свою инструкцию Disallow
.
Запрет индексации всего сервера
Для того, чтобы запретить индексацию всего сервера необходимо создать в корневой дирректории файл robots.txt содержащий следующие строчки:
User-agent: *
Disallow: /
В первой стоке определяется правило для всех роботов *, а во второй задается запрет на доступ от корневой дирректории и выше.
Запрет индексации для одного робота
User-agent: BadBot
Disallow: /
Разрешение индексации всего сервера
Для того, чтобы разрешить индексацию всего сервера пишем:
User-agent: *
Disallow:
Аналогичного эффекта можно добиться создав пустой файл robots.txt.
Разрешение индексации только для одного робота
User-agent: WebCrawler
Disallow:
User-agent: *
Disallow: /
Запрет индексации отдельных дирректорий
Для запрета индексации отдельных дирректорий они записываются по одной после диррективы Disallow
:
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /private/
Запрет индексации отдельных файлов
Одним из способов является размещение всех необходимых для запрета файлов в отдельную дирректорию и установки на нее запрета индексации. Или же просто перечислить все запрещаемые файлы:
User-agent: *
Disallow: /~user/private.html
Disallow: /~user/emails.html
Disallow: /~user/contacts.html
Использование мета-инструкций для запрета индексации
Отметим, что вместо файла robots.txt можно использовать мета-инструкций (<META NAME="ROBOTS">) в заголовке HTML документа (<HEAD>). Например,
<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">
запрещает поисковому боту индексацию документа (NOINDEX) и анализ ссылок на странице (NOFOLLOW). Однако не все поисковые роботы анализируют эту мета-инструкцию.