GetInfo.Ru – Компьютерная библиотека
Последние поступления
Как выбрать систему управления базы данных
Базы данных03/09/14
Этапы загрузки UNIX (в схеме)
Unix27/03/12
Gatewall Antispam: тотальный контроль электронной почты
Спам21/04/11
Мастер-класс: создаем Интернет-магазин (Часть 1)
Обзоры ПО20/04/11
CorelDRAW Graphics Suite X5: Что нового?
Обзоры ПО20/07/10
Добавить статью
Самые читаемые материалы
Что такое релевантность(28956)
Анализ поисковых систем(15360)
Поисковые системы в сети Интернет(13537)
Как найти иголку в стоге сена, или О поисковых системах Интернета(13364)
Google знает, как найти(12525)
Всего статей: 793Всего авторов: 364Подразделов: 47Добавлено за сутки: 0
Статьи  СТАТЬИ Форум  ФОРУМ Рейтинг  РЕЙТИНГ Поиск  ПОИСК Контакты  КОНТАКТЫ
» Главная » Поисковые системы » Клоакинг. Ловушка для робота

Клоакинг. Ловушка для робота


D-Free
gestapo@vpost.ru
http://defendfree.wallst.ru

Термин "клоакинг" (cloaking) подразумевает один очень интересный эффект, который благодаря некоторым манипуляциям, можно произвести над поисковыми системами.

Идея эта, конечно, не нова. Дело в том, что кроме пользователей твою страничку посещает и огромное количество роботов. Эти "монстры" - боты, краулеры, спайдеры, которые собирают разного рода информацию о Сети и сайтах. Вот, например, TurnitinBot с IP-адресом 64.140.49.69 представляет собой краулер системы, производящей анализ всех сайтов всей сети для занесения в свою базу. Хитрые преподаватели университета Беркли придумали систему TurnitinBot, чтобы устроить веселую жизнь своим студентам.

Информация, полученная ботом заносится в базу данных. Студент, написавший реферат или курсовик сначала предоставляет свои работы для проверки системе, которая производит анализ работы и если выясняется, что учащийся попросту сдул свой курсовик с какого-нибудь сайта, его работа считается плагиатом и не подлежит дальнейшему рассмотрению.

Примерно так же работают и поисковые системы - Яндекс, Рамблер, Гугл и т.д. Сначала страницу посещает бот, который проверяет ее наличие, заносит в базу отдает, команду другому боту, который проверяет содержание и в свою очередь, дает команду следующему боту, что бы тот проверил, к примеру, ссылки на странице. Я не претендую на то чтобы абсолютно правильно описать работу, производимую этими монстрами, а лишь рассказываю о принципе их действий

В каждой поисковой системе несколько ботов. Они имеют разные функции и производят анализ страницы по различным параметрам. Отличает этих монстров от обычных пользователей только два основных параметра. Это IP-адрес и тип браузера.

Иными словами можно выделить робота по параметрам значения переменных REMOTE_ADDR и USER_AGENT. Это значит, что для робота можно выдавать страницу с одними параметрами, а всем остальным пользователям с другими. Смысл в том, что роботу абсолютно все равно, удобочитаемый ли текст на странице или полная ахинея. Робот анализирует, к примеру, количество ключевых слов на странице. Так надо дать ему такое содержание, которое позволит вывести эту страницу на 1-е место по нужным ключевым словам. Мало того, возможен вариант, когда сайт про хомячков будет находится по фразе "эротические обои" и наоборот.

Вот эти манипуляции с ботами поисковых систем и называются клоакингом.

Для клоакинга используются специальные скрипты. Язык скрипта может быть любой - PERL, PHP и т.д. Можно, например, написать такой скрипт, который бы выполнял следующие действия:

  1. Определить робот посещает страницу или человек
  2. Если робот, проверить REMOTE_ADDR и USER_AGENT из базы
  3. Если значения этих переменных совпали, выдать страницу для роботов
  4. Если этих значений нет в базе, но имеется подозрение что на страницу зашел робот, выдать страницу для робота, а его REMOTE_ADDR и USER_AGENT занести в базу
  5. Если это робот, определить какой именно и сгенерировать страницу исходя из особенностей поисковой системы
  6. можно продолжать и дальше - насколько хватит фантазии

Естественно, поисковые системы борются с клоакингом. Есть методы, позволяющие отслеживать подобные страницы. Сайт, заподозренный в клоакинге будет немедленно внесен в бан-лист без малейшей надежды когда-либо быть проиндексированным заново.

Клоакинг приводит к подрыву доверия пользователей к поисковой системе (искал про хомячков, а нашел эротические обои).

Все же для повышения ранжирования страницы лучше написать правильную страницу и никого не пытаться обмануть. В любом случае если твой сайт посвящен хомячкам, не нужно пытаться увеличить посещаемость такими методами. Раз уж сайт про хомячков, пусть будет про хомячков, а эротические обои оставь кому-нибудь другому.

 
21.03.2003
Версия для печати Версия для печати Запомнить ссылку Запомнить ссылку
Ваша оценка:  1   2   3   4   5     

 О проектеПерепечаткаАвторамПартнерыО нас пишут
Наверх
©2003—2007. GETINFO.RU. ВСЕ ПРАВА ЗАЩИЩЕНЫ.