Что значит disallow в robots.txt?
Disallow это одна из основных директив, входящая в файл robots txt.
В robots txt disallow используется всегда вместе с директивой user-agent и служит для ограничения доступа к страницам сайта.
Disallow в robots txt может быть несколько. Фактически количество таких директив ограничено только размером файла robots.txt (рис.1).
Рис.1 Количество disallow в robots.txt ограничено только размером файла
Директива disallow применяется для каждого робота отдельно. Имя робота указывается в директиве user-agent.
Если в user-agent вместо имени стоит символ звездочка ( * ), то disallow применяется ко всем роботам, посещающим сайт.
Для удобства каждую disallow можно комментировать. Это хорошо делать, когда директив много. Для этого перед строкой комментария нужно вставить символ решетки (#).
После директивы disallow в rodots txt всегда ставится двоеточие (:), а затем ее параметры, прописывающие путь на сайте
Отсутствие параметров в директиве disallow означает полный доступ ко всем страницам сайта, например:
User-agent: * # параметр * говорит о том, что директива
# disallow применима ко всем роботам
Disallow: # доступ открыт ко всем страницам
Параметр прямой слеш ( / ) в disallow robots txt закрывает доступ ко всем страницам сайта. Если, конечно, он применяется один, например:
User-agent: *
Disallow: / # доступ закрыт для всех страниц сайта
Чтобы сократить количество директив disallow robots.txt, можно применять так называемые регулярные выражения. Суть в том, что в качестве параметра в disallow указывается основной каталог, а далее применяют спецсимвол звездочка (*). Символ * означает любую последовательность символов, в том числе и пустую. Например:
User-agent: * # применимо ко всем роботам
Disallow: /administrator/* # блокирует доступ к страницам начинающимся с
# ‘/administrator’ и далее любые символы
Disallow: /*/cache # блокирует доступ к страницам, путь которых содержит
# слово ‘cache’ , а перед ним и после любые символы
Disallow: /components/
Disallow: /includes/
По умолчанию символ * приписывается в конце каждого правила в директиве disallow.
То есть, если даже вы не поставили в конце символ *, считается, что он там есть. Это нужно иметь в виду.
Это правило можно отменить, применив в директиве disallow robots txt в конце другой спецсимвол – знак доллара ($). Он отменяет правило по умолчанию - * на конце пути. Например:
User-agent: *
Disallow: /component # закрывает доступ к страницам, начинающимся с
# ‘component’, например, ‘component’;/, ‘component.html’ и т.д.
User-agent: *
Disallow: /component$ # запрещает путь ‘component’, но не закрывает
# доступ к странице ‘component.html’ и др.
Таким образом, создавая определенные регулярные выражения с использованием спецсимволов ‘*’ и ‘$’, можно закрывать доступ, как к целым каталогам, так и к отдельной странице. Это значительно сокращает время на создание файла robots.txt, а также сокращает его объем. Дело в том, что файл robots.txt имеет ограничение по объему.
В robots txt директива disallow достаточно надежно закрывает доступ к определенным страницам сайта. Поэтому, создав файл, нужно проверять результат его действия.
Для этого нужно во-первых, проверить сам файл, а затем отслеживать индексацию страниц до и после применения директивы disallow robots txt. Кстати, находится файл robots.txt в корневой папке сайта.
P.S. В файле robots.txt disallow это универсальная дирректива для всех видов CMS – систем. Будь то joomla, вордпресс или какая другая система управления сайтом.
P.P.S Полное или частичное импользование статьи возможно только с активной ссылкой на источник. Ссылка должна быть рабочей и не закрытой для индексации.