Что можно добавлять в индексацию, а что нет?
О robots.txt в двух словах:
Владельцы веб-сайтов используют файл/robots.txt
, чтобы дать инструкции о своем сайте веб-роботам (паукам поисковых систем).
Он работает так: робот хочет посетить URL-адрес веб-сайта, скажем по адресу:
http://www.example.com/welcome.html
Прежде чем он это сделает, он сначала проверяет http://www.example.com/robots.txt
, и допустим находит:
User-agent: *
Disallow: /
Где User-agent: *
означает, что этот раздел (правила) относятся ко всем роботам (* - все).
Disallow: /
говорит роботу, что он не должен посещать какие-либо страницы на сайте.
При использовании /robots.txt
необходимо учитывать два важных момента:
-
роботы могут игнорировать ваши файлы
robots,txt
. Особенно вредоносные роботы, которые сканируют интернет на наличие уязвимостей, или собирают адреса электронной почты, которые потом будут использоваться спамерами. -
файл
robots.txt
является общедоступным файлом. Любой может увидеть, какие разделы вашего сервера вы не хотите, чтобы поисковый роботы обходил.
Поэтому не пытайтесь использовать файл /robots.txt
для скрытия информации.
Более детальную информацию, вы может получить в различных справочных местах, например, в Яндексе, где в личном кабинете Вебмастера можете проверить корректность этого файла.
Для скрипта вопросов и ответов Question2Answer, вы можете попробовать начать использовать следующую конструкцию.
User-agent: *
Disallow: /login
Disallow: /ask
Disallow: /forgot
Disallow: /register
Disallow: /questions?sort
Disallow: /admin
Disallow: /message
Disallow: /users
Краткая расшифровка: правила относятся ко всем поисковым системам, и не индексировать документ (папку, путь) login (авторизация). Там мало информации и она не имеет смысла для поиска. И т.д., еще правила…
Через некоторое время, делая анализ занесенных страниц с вашего сайта поисковой системой, вы можете вносить необходимые коррективы.
Например, убирать дубли страниц. Поиску не нравится, когда ему приходится индексировать одно и то же несколько раз, хранить разные копии одинакового содержания, проводить с ними доп. действия: сливать документы, “удалять” из индекса второстепенные страницы и т.д.