GetInfo.Ru – Компьютерная библиотека
Последние поступления
Как выбрать систему управления базы данных
Базы данных03/09/14
Этапы загрузки UNIX (в схеме)
Unix27/03/12
Gatewall Antispam: тотальный контроль электронной почты
Спам21/04/11
Мастер-класс: создаем Интернет-магазин (Часть 1)
Обзоры ПО20/04/11
CorelDRAW Graphics Suite X5: Что нового?
Обзоры ПО20/07/10
Добавить статью
Самые читаемые материалы
Индексирование документов поисковыми роботами(11909)
Все, все, все о Robots.txt(8691)
Как правильно подобрать ключевые слова(8656)
Расстановка ключевых слов внутри сайта: забытые места(8210)
Keywords для начинающих(8180)
Всего статей: 793Всего авторов: 364Подразделов: 47Добавлено за сутки: 0
Статьи  СТАТЬИ Форум  ФОРУМ Рейтинг  РЕЙТИНГ Поиск  ПОИСК Контакты  КОНТАКТЫ
» Главная » Мета-данные » Индексирование документов поисковыми роботами

Индексирование документов поисковыми роботами


Алексей Петюшкин
http://www.petyushkin.ru/

Краткая справка
Как известно, одними из наиболее эффективных и результативных средств раскрутки веб-сайтов являются регистрация в каталогах Интернет-ресурсов и индексирование поисковыми системами. Но если первый метод в большинстве случаев зависит исключительно от того, как устроена процедура занесения информации о ресурсе в базу данных каталога, то подход пользователя к индексированию веб-документов поисковиками с полной уверенностью можно назвать индивидуальным и вполне предсказуемым. Регистрируясь в каталоге, пользователь вносит в установленные формы данные о сайте так, как он хочет. Однако, далеко не всегда информация о ресурсе будет отображена впоследствии в каталоге в первозданном виде: администраторы многих подобных серверов по-своему редактируют описание ресурсов, руководствуясь при этом собственными доводами и правилами.

Поисковая система представляет собой более сложную структуру и состоит из трех компонентов:

  • Робот (spider):
    Программа, которая просматривает веб-страницы, считывает (индексирует) их содержимое, следуя по ссылкам, найденным внутри документов. Возобновляет работу через определенный период времени.
  • Индексы:
    База данных о проиндексированных роботом документах.
  • Поисковый механизм:
    Программа, проверяющая в соответствии с запросом пользователя содержание индексов.

Следует сказать, что поисковые системы, в отличие от встроенных в каталоги поисковых двигателей, ищут не в пределах определенной серверными настройками базы данных, а по всей Сети, выводя страницы, находящиеся в их индексах (реестрах данных, где хранится информация о проиндексированных ресурсах). Именно последним и занимаются так называемые поисковые роботы (spiders, wanderers, robots). При обращении к серверу робот проверяет наличие файла robots.txt в его корневой директории, в котором могут быть вручную установлены правила индексирования тех или иных документов текущего узла. Однако, не все роботы "умеют" читать указанную в этом файле информацию: часть из них не поддерживает специальный стандарт описания правил индексирования файлов - Standard for Robot Exclusion. К сожалению, сегодня не все веб-мастера и ведущие Интернет-проектов имеют представление об этом стандарте, к тому же не каждый системный администратор, настраивающий веб-сервер, придает применению правил описания для поисковых роботов должное внимание.

Но данная статья будет посвящена не стандарту Standard for Robot Exclusion, что требует изучения специальных параметров описания правил и работы с веб-сервером, а тому, как правильно подготовить веб-документ для индексирования поисковыми роботами.

Релевантность документов
Когда пользователь вводит в строке запроса поисковой системы какое-то слово или словосочетание, робот обращается ко всем проиндексированным страницам. Количество полученных результатов может достигать десятков и даже сотен тысяч. Робот выводит результаты по критерию наибольшего соответствия содержания документов запросу пользователя, который называется релевантностью. Другими словами, самые подходящие страницы будут размещены в начале результирующего списка, выдаваемого поисковой системой. На релевантность влияют факторы ключевых слов, речь о которых и пойдет.

Количество ключевых слов
Под количеством ключевых слов (keywords) подразумевается их частота присутствия в документе (не путать с указанием ключевых слов в мета-тегах, разговор о которых пойдет чуть ниже). То есть страница, на которой робот обнаружит 15 раз запрошенное пользователем слово, будет более релевантна, чем та, которая содержит это слово всего 3 раза. Этот фактор как правило зависит от тематики ресурса и профессиональной этики веб-мастера. Логично допустить, что если страница называется "Лучшие бесплатные программы для Unix", в ее тексте навряд ли можно встретить слова "эротика", "макияж" или "трубопровод". Зато "система" или "Unix" могут встретиться десятки раз. Но когда вопрос траффика перерастает в вопрос жизни или смерти, некоторые веб-мастера идут на неэтичный шаг: указывают в документе ключевые слова, совершенно не имеющие отношения к теме ресурса. Делается это обычно очень мелким шрифтом, в самом низу страницы или цветом, совпадающим с задним фоном. Реже эти методы берут на вооружение люди, стремящиеся искусственным путем повысить релевантность своих документов: одно и тоже ключевое слово указывается большое количество раз.

Густота (плотность) ключевых слов
Под густотой (плотностью) ключевых слов принято понимать степень отношения количества ключевых слов к остальным словам в пределах документа. Поисковые роботы считают более релевантной страницу с конкретным словосочетанием, нежели документ, в котором есть помимо этого словосочетания другие слова и фразы. Например, документ, содержащий только два слова "коммерческое предложение", будет идти в результирующем списке впереди страницы, содержащей помимо сочетания слов "коммерческое предложение" еще и другие слова.

Расположение ключевых слов
Веб-страница имеет ряд особых мест, поместив ключевые слова в которые, можно надеяться на более высокую релевантность в индексах поисковых систем. Прежде всего это самое начало документа: текст, содержащий ключевые слова в верхней части страницы, заметно повысит релевантность. Также часто включают ключевые слова между парными тегами <TITLE></TITLE>. Многие допускают ошибку, загромождая заголовок ключевыми словами. Такой подход имеет, как минимум, три больших минуса: во-первых, исходный размер HTML-файла заметно увеличивается, во-вторых, при выдаче результатов поисковики выводят данные, указанные в заголовке (<TITLE></TITLE>), что делает название найденных документов малопривлекательными, в-третьих, пользователю будет довольно сложно поместить страницу с таким длинным заголовком в папку Favorites/Bookmarks. Кроме этого, на релевантность документов влияет наличие выделенных фрагментов текста (теги форматирования <STRONG>, <B>, <EM>, <U>, <I>, <H1>, <H2> и др.) и внесение ключевых слов в комментарии, поле альтернативного текста <ALT> и мета-теги (им будет посвящена отдельная часть статьи). Комментарии обособляются символами <!-- и --> и могут включать абсолютно любую информацию (она в окне браузера не отображается), например:

<!--Далее в статье идет текст, посвященный мета-тегам-->

Поле альтернативного текста <ALT>, предназначенное для появления подсказок к графическим элементам при наведении на них курсора, тоже имеет большой вес, когда речь заходит о релевантности страниц. Для сравнения приведу следующий пример: на странице абстрактного предприятия "Фирма" размещена кнопка about.gif размером 5 Кб со ссылкой, ведущей в раздел, рассказывающий об истории возникновения предприятия. Три варианта использования поля альтернативного текста <ALT>:

<IMG SRC=about.gif ALT="about.gif, 5 Кб">

<IMG SRC=about.gif ALT="Об истории">

<IMG SRC=about.gif ALT="История возникновения ООО Фирма">

Релевантность страниц согласно порядку применения поля будет изменяться от первого варианта к последнему: документ, где кнопке присвоено поле "История возникновения ООО Фирма", будет иметь более высокую релевантность, чем тот, чья кнопка имеет значение тега "about.gif, 5 Кб".

Мета-теги
Мета-теги по сути имеют два основных атрибута - HTTP-EQUIV и NAME. Первый можно отождествить с HTTP-заголовками, и мета-теги с этим атрибутом на ряде серверов могут быть автоматически преобразованы в HTTP-заголовки. Нас больше интересует атрибут NAME, а точнее - его значения "keywords", "description" и "robots", как влияющие на индексирование поисковыми спайдерами.

  • META NAME="keywords" CONTENT="........."
    Здесь в значении атрибута CONTENT следует указывать ключевые слова и словосочетания. Делается это через запятую. Сюда можно добавить слова, которые не встречаются в документе (или встречаются крайне мало), но имеют отношение к тематике сайта (что снова повысит релевантность). Не стоит избегать указания словосочетаний: во-первых, многие пользовательские запросы состоят из нескольких слов, а во-вторых, документ с указанием в качестве keywords целой фразы, будет иметь большую релевантность, чем страница, где вместо ключевой фразы определены ее отдельные слова (например, "электронные магазины" или "электронные" и "магазины"). В среднем допускается указывать до 150-200 символов в качестве ключевых слов.
  • META NAME="description" CONTENT="........."
    Значение атрибута CONTENT в данном случае уместно использовать, если в самом документе нет (или очень мало) тематического описания вашего сайта. Дело в том, что большинство поисковых систем в результирующем списке рядом с заголовком выводит 70-150 символов, относящихся к характеристике найденного документа. Если робот не обнаружит данного значения, его внимание будет обращено к проверке страницы с целью нахождения текста, характеризующего документ, и дальнейшего вывода этого текста в результирующем списке. Оптимальным решением является параллельное использование значений ключевых слов и описания (возможно дублировать ключевые слова в конструкции META NAME="description" CONTENT="...").
  • META NAME="robots" CONTENT="........."
    Эта конструкция предназначена для того, чтобы указать поисковому роботу, индексирующему ваш сайт, что надо добавлять в индексы, а что нет. Последний случай не является редким, т.к. существует множество ситуаций, когда просто необходимо запретить индексирование: чаты, баннерные показы и пр. Есть шесть возможных значений атрибута CONTENT для данной конструкции:

         (а) ALL (разрешение индексации документа со всеми присутствующими в нем гиперсвязями);

         (б) NONE (запрет индексации документа со всеми присутствующими в нем гиперсвязями);

         (в) INDEX (разрешение индексации документа);

         (г) NOINDEX (запрет индексации документа);

         (д) FOLLOW (разрешение индексации присутствующих гиперсвязей);

         (е) NOFOLLOW (запрет индексации присутствующих гиперсвязей);

Если этот мета-тег пропущен или не указано значение атрибута CONTENT, то поисковый робот понимает их отсутствие как конструкцию CONTENT="INDEX, FOLLOW" (эти два значения - INDEX и FOLLOW аналогичны ALL).

Проблемы индексирования страниц
      Однако в процессе подготовки страниц к индексированию роботами пользователь может столкнуться с целым рядом затруднений (или значительно позже, что еще хуже):

  • Страницы с фреймами
    В Сети огромное количество сайтов, созданных с применением многооконной структуры (фреймов), а большинство поисковых систем не умеют с ними работать. Что же делать пользователю, который хочет, чтобы его ресурс был проиндексирован? Оказывается, выход есть. Если вы когда-нибудь работали с фреймами, то знаете, что подобно роботам некоторые браузеры их не поддерживают, для чего в документе, определяющем адреса загрузки составных страниц, ставится парный тег <NOFRAMES></NOFRAMES>. В нем обычно пишут что-то вроде "Ваш браузер не поддерживает фреймы", дается ссылка на последнюю версию MSIE или NN, а в лучшем случае - линк на безфреймовый вариант сайта. Разумеется, информация, заключенная в данный тег, не отображается браузерами, имеющими поддержку фреймовых структур. Посему туда можно поместить подробное описание вашего сайта, указать ключевые слова и словосочетания. И потом нельзя забывать заголовок начальной страницы (TITLE), в котором тоже следует определить ключевые слова.
  • Невозможность индексирования
    Причин затруднениям индексирования может быть несколько: некоторые поисковые роботы индексируют страницы, расположенные только в зоне .RU и соответствующих ей городских зонах, посему, если ваш сайт размещен на зарубежном сервере, в индексы он не попадет; некоторые спайдеры имеют ограничение на занесение в индексы не более какого-то числа ресурсов с одного домена; в конце концов, возможно, что вы случайно вместо значения INDEX мета-тега указали NOINDEX или сделали синтаксическую ошибку в составлении конструкции тегов мета-данных, влияющих на процесс индексирования веб-документов.

 
25.01.2003
Версия для печати Версия для печати Запомнить ссылку Запомнить ссылку
Ваша оценка:  1   2   3   4   5     

 О проектеПерепечаткаАвторамПартнерыО нас пишут
Наверх
©2003—2007. GETINFO.RU. ВСЕ ПРАВА ЗАЩИЩЕНЫ.