А как правильно создать robots.txt для сайта?

сайты

(Николай) #1

Что можно добавлять в индексацию, а что нет?


(Евгений) #2

О robots.txt в двух словах:

Владельцы веб-сайтов используют файл/robots.txt, чтобы дать инструкции о своем сайте веб-роботам (паукам поисковых систем).

Он работает так: робот хочет посетить URL-адрес веб-сайта, скажем по адресу:

http://www.example.com/welcome.html

Прежде чем он это сделает, он сначала проверяет http://www.example.com/robots.txt, и допустим находит:

User-agent: *
Disallow: /

Где User-agent: * означает, что этот раздел (правила) относятся ко всем роботам (* - все).

Disallow: / говорит роботу, что он не должен посещать какие-либо страницы на сайте.

При использовании /robots.txt необходимо учитывать два важных момента:

  1. роботы могут игнорировать ваши файлы robots,txt. Особенно вредоносные роботы, которые сканируют интернет на наличие уязвимостей, или собирают адреса электронной почты, которые потом будут использоваться спамерами.

  2. файл robots.txt является общедоступным файлом. Любой может увидеть, какие разделы вашего сервера вы не хотите, чтобы поисковый роботы обходил.

Поэтому не пытайтесь использовать файл /robots.txt для скрытия информации.

Более детальную информацию, вы может получить в различных справочных местах, например, в Яндексе, где в личном кабинете Вебмастера можете проверить корректность этого файла.

Для скрипта вопросов и ответов Question2Answer, вы можете попробовать начать использовать следующую конструкцию.

User-agent: *
Disallow: /login
Disallow: /ask
Disallow: /forgot
Disallow: /register
Disallow: /questions?sort
Disallow: /admin
Disallow: /message
Disallow: /users

Краткая расшифровка: правила относятся ко всем поисковым системам, и не индексировать документ (папку, путь) login (авторизация). Там мало информации и она не имеет смысла для поиска. И т.д., еще правила…

Через некоторое время, делая анализ занесенных страниц с вашего сайта поисковой системой, вы можете вносить необходимые коррективы.

Например, убирать дубли страниц. Поиску не нравится, когда ему приходится индексировать одно и то же несколько раз, хранить разные копии одинакового содержания, проводить с ними доп. действия: сливать документы, “удалять” из индекса второстепенные страницы и т.д.