Какие существуют поисковые системы, которые ищут лучше, чем законодательно ограниченные Гугл и Яндекс?

В продолжение тем

3 симпатии

Качество поиска по Интернету зависит и от объема индекса. Чем больше индекс поисковой системы, тем больше вариантов она может предложить. А вот релевантные результаты из уже всей этой базы - отдельный разговор.

Чтобы иметь больший индекс, большую базу, необходимо не только ПО, но и большое количество серверов, инфраструктуру, разбросанную по миру. Свое питание, свои каналы, свои центры обработки - это большие деньги. И на поддержку и на людей, которые будут это все обслуживать.

Обычно деньги получают из рекламы.

Вот в чем проблема начинающих поисковиков. Нет денег, нет потенциала, нет ничего, с чем можно было конкурировать с гигантами.

Региональные системы поиска, поиск по сайту может обеспечить более точные результаты, только из-за того, что их база меньше. Они могут на этой маленькой базе сосредоточиться на качестве. Но и это сложно.

Теперь как поисковая система работает. Первое, она должна знать, что её индексировать. Например, у ней должен быть адрес Toxu. И далее она смотрит, что персонал Toxu говорит ей об индексации. Например, Toxu может вообще запретить индексировать. Поисковые системы, законные, должны уважать эти правила.

Поставить мини- поиск не проблема. Допустим, в Google нет какого-то сайта (что вообще не может практически быть, если сайт доступен). То владелец такого мини- поиска может проиндексировать его. Он даже может игнорировать рекомендации владельца сайта (если он запретил его к индексации, или отдельные его участки) теоретически можно проиндексировать. Но зачем?

Есть отдельные участки сети, “темные места” Интернета, индексация которых затруднительна. Например, туда просто нет доступа обычным методом.

Сайт, как писал ранее, может быть закрыт. Например, на этом сайте. Ни одна из поисковых систем не сможет проиндексировать админку тут. Для этого надо пароль.

Т.е. чтобы иметь большой индекс, нужны деньги, которые дает реклама. Хостинг, сервера, на которых расположен поиск находится территориально на территории какого-то государства и он вынужден соблюдать закон его. Или по крайней мере, пока ему это позволяют.

В общем, я не знаю таких поисковых систем, т.к. ничего принципиального нового придумать нельзя. Мы упремся в те законы, по которым все работает.

Деньги, ресурсы, доступность сайта и т.д.

P.S. у нас есть каталог сайтов. Я нашел свой пост на форуме за 2005 год и что-то просто ради забавы решил поставить то, что было в 2005. )

  1. У нас есть ~ 1000 url, из каталога, отобранных в ручную.
  2. У нас есть скрипт поиска, который (для баловства) я могу поставить на одну из машин.
  3. Для каждого URL из 1000 я установил max 20 документов и глубину 1 клик (с центральной странице сайта).

Результаты получились так себе. Это я мягко написал. База мала, всего 20000 страниц. Программное обеспечение старое (прошло же 15 лет). Но побаловаться можно.

Если есть сайт, которого нет в Google, например, давайте, я занесу его в базу. Если владелец сайта не закрыл его, то он будет проиндексирован. Не весь, max 20 документов чьи ссылки есть с центральной.

Теоретически, я могу игнорировать рекомендации в robots.txt и проиндексировать то, что владелец не хочет, при условии, что есть доступ. Но зачем?

Поисковики ведут себя по большому счету (если упрощать), как пользователи. Пользователь может посмотреть сайт, он доступен? Поиск аналогично может. Если сайт закрыт паролем, например, то нет.

4 симпатии

Дополнение. Недостаток ограниченного индекса.

  1. Поскольку я не могу запустить паука в свободное плавание, не хватит ресурсов, то пауку приходится довольствоваться списком тех URL, что есть в каталоге.

  2. В каталоге есть раздел СПОРТ.

Однако, в этом разделе нет шахмат и шашек. Отличный пример, малого индекса.

Это список 3 первых результатов поиска. “VIP подарки”, паук нашел там шахматы (в подарках. И всё.

Вот. И о каком качестве можно говорить? Это отличный пример, который показывает, что размер индекса важен.

С таким индексом, как сейчас, я могу бесконечно улучшать качество поиска, но качества не будет. Не из чего его делать. Нет шахмат. )

  1. Теперь я добавил 9 сайтов, которые относятся к шахматам. Смысл не добавить все сайты, что есть в сети. Их десятки тысяч, но ниша (шахматы, например) должна быть представлена.

Интересно, а сколько еще тем совсем не представлено? Их огромное количество! Размер исходного материала, размер индекса важен.

А молодые ресурсы, не смогут себе этого позволить. Думаю, это более наглядный пример.

Следующую фото (с результатами поиска) уже с новым индексом (+ 9 сайтов по шахматам) добавлю после индексации.

3 симпатии