CNSearch 1.5.1
Структура
Структура и семантика файла '/robots.txt" заключается в следующем:
Файл должен содержать одну или несколько записей, разделенных одной или более строками (оканчивающимися кодом CR, CR/NL, or NL). Каждая запись должна содержать строки "<field>:<optional_space><value><optional_space>".
Поле <field> не зависит от регистра.
Комментарии задаются стандартным способом, используемым в UNIX: символ '#' обозначает начало комментария, конец линии обозначает завершение комментария.
Запись следует начинать со строки 'User-Agent' (одной или нескольких), за которой следует одна или более строк Disallow. Нераспознаваемые строки игнорируются.
User-Agent:
- Значение этого поля должно представлять собой имя поискового робота. В этой записи задаются права доступа данного робота;
- Несмотря на то, что стандарт позволяет обозначать имена нескольких роботов, приложение CNSearch распознает только одного, поскольку здесь не реализован метод разделения роботов по именам;
- Регистр не имеет значения;
- В случае если значение этого поля равно '*', то права доступа, заданные в записи, действительны для любого поискового робота, запрашивающего файл '/robots.txt'.
Disallow:
- Значение данного поля должно представлять собой частичный неиндексируемый URL. Путь к файлу может быть полным либо частичным. Например,'Disallow: /help' блокирует доступ как к файлу '/help.html', так и к файлу '/help/index.html', тогда как 'Disallow: /help/' блокирует доступ лишь к файлу '/help/index.html'.
- Любая запись должна содержать как минимум одну строку 'User-Agent' и одну - 'Disallow'.
Если файл '/robots.txt' пуст, не соответствует вышеозначенной структуре и семантике либо отсутствует, поисковые роботы действуют согласно своим настройкам.