Рубрика - Seo-оптимизация

Файл robots txt - краткое описание

Файл robots.txt – это обычный текстовый файл. Он  представляет собой набор инструкций (директив) для поисковых машин. Эти директивы позволяют запретить или разрешить индексацию файлов, страниц и целых каталогов. 

   Надо сказать, что этот файл, то есть robots txt, представляет собой стандарт описания исключений для поисковых роботов. Принят Консо́рциумом Всеми́рной паути́ны ( консорциум W3C - World Wide Web Consortium) 30 января 1994 года и поддерживается большинством поисковых машин.

Почему он желателен для сайта?

Дело в том, что файл robots.txt служит для ограничения доступа поисковым роботам к содержимому сайта и позволяет частично управлять индексированием страниц. Сканирование сайта начинается с просмотра корневой папки на сервере. В ней роботы ищут файл robots.txt и, при обнаружении, считывают его. А почему частично подробнее в конце статьи.

В файле robots.txt всегда присутствуют как минимум две строки:

        User-agent:

        Disallow:

Это простейший вид файла robots txt.

Директива User-agent: указывает, какому роботу разрешено индексировать страницы сайта. Служит для управления доступом роботов к сайту.

Директива Disallow robots txt указывает, к каким страницам сайта закрыт доступ. То есть какие страницы не должны индексироваться.

Обе эти строки в файле представляют собой одну запись. Таких записей в файле robots.txt может быть несколько. Собственно количество таких записей не ограничено, но ограничен размер самого файла robots.txt.

Найти robots txt можно в корневой папке сайта.

Нужен ли robots.txt?

Файл robots txt определяет политику доступа к контенту сайта на сервере, но он не является обязательным.

Зачем нужен robots txt?

Файл robots.txt нужен только тогда, когда ваш сайт содержит контент, который вы не хотели бы, чтобы он был проиндексирован. В этом случае вы можете закрыть доступ к таким страницам, используя определенные директивы.

Отсутствие файла robots.txt в корневой папке сайта (или пустой файл robots txt) расценивается поисковиками как полный доступ ко всем страницам сайта. То есть, если  файла robots.txt нет в корневом каталоге сайта, то считается, что все страницы сайта разрешены к индексации.

Итак, зачем нужен файл robots.txt? Если вы хотите, чтобы все содержимое сайта попало в индекс, файл robots.txt не нужен. Даже пустой файл не нужно создавать.

Но, если же  требуется закрыть какие-то страницы от индексации роботами, то тогда нужен robots txt. Именно в этом файле можно это сделать, задавая соответствующие инструкции.

 

Надежно ли файл robots.txt запрещает индексирование страниц сайта?

 Нет, запрет на индексирование в файле robots.txt не гарантирует, что страница не попадет в индекс поисковика. Как говорилось выше, файл robots.txt позволяет частично управлять индексацией страниц сайта.

Дело в том, что страницы сайта, заблокированные в файле robots txt, все-таки могут попасть в индекс роботов. Это возможно в том случае, если на такие страницы есть ссылки в другом месте интернета. Причем неважно, где эта ссылка расположена: на какой-то странице вашего сайта или на стороннем сайте.

При сканировании страницы робот, встретив ссылку, обязательно переходит по ней. Так он может попасть на страницу, заблокированную в файле robots.txt, и проиндексировать ее.

Кстати, это один из способов, как ускорить индексацию страницы.

Нужно создать ссылку на уже проиндексированной странице сайта. При повторном посещении ее робот обязательно перейдет по ссылке на вашу новую страницу и проиндексирует ее.

Так что нужен ли файл robots.txt на вашем сайте и зачем он нужен решаеть только вам.

P.S.  Если нужно, исключить полностью возможность индексации какой-то страницы сайта, даже если на эту страницу будут сторонние ссылки, нужно использовать метатег noindex или x-robots-tag.

Файл robots txt - краткое описание