| ||
↓Меню↓ ↓АВТОР↓ Copyright © 2003,Sclif |
Известно, что пользователи, попадающие
на сайт из поисковых машин, дают до сорока процентов трафика. Поэтому
позаботиться о правильном индексировании Вашего сайта в поисковых машинах
весьма полезно. Под "правильным индексированием" я имею в виду, что должна
быть соблюдена релевантность запроса и содержания сайта, т.е., говоря
простым и доступным языком, содержание сайта должно соответствовать
запросу (некоторые "мастера" злоупотребляют наборами не отвечающих
реальности ключевых слов. Например, когда моя сестра готовила к выпуску
компакт-диск с локальными копиями первых уровней Web-страниц, слово "х#й"
и иже с ним встречалось на серверах весьма солидных компаний, ничего
общего не имеющих с подобного рода лексикой:-).
Почему я перечислил именно эти поисковые машины? Потому
что именно ими, по моим наблюдениям, пользуются русскоязычные нетизены
(netizen). Что такое "мои наблюдения"? Это анализ логов доступа к моему
серверу http://citforum.ru/, точнее той части логов, гда собирается
информация по HTTP_REFERER, т.е. адреса (URLs), на которых клиенты
воспользовались ссылкой на какую либо страницу моего сервера. Каков рейтинг перечисленных мною машин на практике, какими
машинами пользуются больше, какими - меньше?
На первом месте с колоссальным отрывом от остальных идет
Altavista. Эта поисковая машина лидировала еще до того как там появился
поиск по различным языкам (в том числе - по русскоязычным документам). Ну
оно и понятно - прекрасный, легкодоступный сервер, давно работает (с
начала 1996 года), огромная база документов (свыше 50 миллионов адресов).
Следует также учесть, что русскоязычные пользователи находятся не только в
России, но и в Болгарии, Чехии и Словакии, в Польше, Израиле, Германии, не
говоря уже о бывших республиках СССР - Украина, Белоруссия ... (Особо хочу
сказать о прибалтах: это они при встрече на улицах какого-нибудь Каунаса
или Таллинна не знают русского языка, а перед монитором, особенно если
очень нужно, очень даже знают:-)) Так вот всем этим пользователям удобнее
пользоваться Альтавистой, а не нашими отечественными машинами - ближе, все
таки...
Следующая по популярности поисковая машина, как ни
странно, самая молодая в России - Яndex. Как мне говорил Алекей Амилющенко
(компания Comptek) на сегодняшний день там наблюдается в среднем 72000
запросов в суткии и есть тенденция +10% в неделю (данные от 7.04.98). Мне
кажется, Яndex наиболее перспективная российская поисковая машина. С
комптековской системой разбора "великого и могучего" русского языка Яndex
вполне может выйти победителем в конкуренции со вторым китом в этой сфере
- Рамблером.
Рамблер - третья серьезная поисковая машина для
русскоязычных пользователей. Главное, что мне в ней не нравится, так это
игнорирование содержимого конструкции <meta name=keywords
content=...>. (Это я не придумал, это сказал Дмитрий Крюков из компании
Stack Ltd.) Наверное, именно из-за отказа учитывать ключевые слова, в
результатах запросов выдаются такой странный набор ссылок. Второй
недостаток чисто интерфейсного характера - результаты постоянно выдаются в
кодировке КОИ, независимо от того, что выбрано пользователем перед этим.
Третий недостаток: спайдер Рамблера работает по протоколу HTTP 0.9, что
приводит к ошибкам индексирования, т.е. если на одном IP-адресе живут
несколько виртуальных серверов, Рамблер видит только первый, а все
остальные считает просто синонимами. Ну да ладно, будем надеяться, что это
вскоре исправят.
Ну и на последнем месте по моему рейтингу идут
Апорт-Поиск, который очень странно индексирует сервера, РусИнфОил, который
регулярно закрывается на реконструкции и ТЕЛА-Поиск - красивый и почти
бесполезный прибамбас для сервера www.dux.ru.
Вы спросите: а в списке были еще HotBot и метапоисковая
машина Следопыт компании "Медиалингва"? Я их не забыл, просто HotBot
непонятно почему оставляет в моих логах толпу записей, что не может быть
случайными залетами не понимающих русского языка иностранцев (с других
импортных машин таких залетов гораздо меньше), а "Следопыт" я еще
недостаточно серьезно изучил. А зачем же поисковые
машины для раскрутки сайта?
Все очень просто, как я уже говорил, поисковые машины
могут дать до сорока процентов трафика к сайту. А чтобы это происходило,
необходимо, чтобы Ваш сайт был правильно проиндексирован, а для этого
необходимо знать, как это делается.
А делается это следующим образом: либо робот поисковой
машины сам добирается до вашего сайта, либо Вы сами указываете сайт в
соответствующем интерфейсе (AddUrl), который наличествует в любой
уважающей себя поисковой машине. Первый вариант страдает затянутостью
(пока еще робот доберется, может через день, может через год: Internet-то
большой). Второй - требует затратить некоторое время (разнообразный софт
для автоматической регистрации Вашего сайта в туче поисковых машин нам
ничего не дает - машины-то импортные).
Чтобы все произошло в лучшем виде требуется:
Итак, Вы уже зарегистрировали первую
страницу своего сайта в различных поисковых машинах.
Вы думаете уже все в подрядке? Как бы не так. Если ссылка
на Ваш сайт в ответе поисковой машины выводится на втором экране -"это так
же плохо, как если бы ссылки вообще не было" (Danny Sullivan, searchenginewatch.com)
Иначе говоря, просто указать страницу в AddURL
недостаточно. Необходимо заранее подготовить документ так, чтобы на
соответствующие запросы к поисковой машине в ее ответе на запрос ссылка на
Ваш документ находилась если не первой, то хотя бы в первой десятке ссылок
(а лучше, если в этой десятке было несколько ссылок на Вашы документы:-).
Что значит "подготовить"? Это чисто технический вопрос, ничего
сверхестественного. Просто в секции HEAD каждого документа Вашего сайта
стоит указать "говорящий" Title, KeyWords, Description и Robots.
Title: заголовок документа. Хороший осмысленный
заголовок может заставить пользователя из множества других выбрать именно
Вашу ссылку. Зачастую видишь примерно следующие заголовки: "Содержание" -
чего, зачем - непонятно, не возникает желания проверять. Другой случай: на
всех страницах сайта в качестве заголовка - "Добро пожаловать в компанию
..." - тоже не слишком привлекательно проверять все таким образом
озаглавленные документы. Представьте себе, что выбран режим поиска по
заголовкам, без описания каждого документа.
KeyWords: ключевые слова. Именно содержимое этого
контейнера влияет на релевантность документа запросу поиска.
<meta name=keywords content="разделенный запятыми список
ключевых слов и устойчивых словосочетаний">
Сколько ни говорят, что поисковые машины -
полнотекстовые, это не совсем верно, а вот содержимое этого контейнера
точно попадет в индекс поисковой машины. К сожалению, создатели одной из
крупнейших отечественных поисковых машин Rambler, не хотят отрабатывать
этот контейнер. А зря.
Description: краткое описание документа. Довольно
полезный контейер, его содержимое используется как краткое описание
релевантных документов в ответе современных поисковых машин. Если этого
контейнера нет, то выдаются некоторое количество строк с начала документа.
Соответственно, не редкая катина, когда в самом начале документа
расположен JavaScript, и вместо нормального описания выдается абракадабра
в виде куска скрипта.
<meta name=description content="краткая аннотация
документа">
Можно ли управлять действиями поисковых
машин?
Можно, и даже нужно! Первое действие, которое для этого
нужно совершить, это написать файл robots.txt и положить его в корень
Вашего сервера. Этот файл популярно объясняет роботу поисковой машины что
надо индексировать, а что не стоит. Например, зачем индексировать
служебные файлы, типа статистических отчетов? Или результаты работы
скриптов? Более того, многие "умные" машины просто не станут индексировать
сервера, не найдя robots.txt. Кстати, в этом файле можно указать разные
маски индексирования для разных поисковых машин.
Второе действие: снабдить страницы сайта МЕТА-тагами
Robots. Это более гибкое средство управления индексацией, чем robots.txt.
В частности, в этом таге можно предписать роботу поисковой машины не
уходить по ссылкам на чужие сервера, например, в документах со списками
ссылок. Формат этого безобразия таков:
<META NAME="ROBOTS" CONTENT="robot_terms">
robot_terms - это разделенный запятыми список следующих
ключевых слов (заглавные или строчные символы роли не играют): ALL, NONE,
INDEX, NOINDEX, FOLLOW, NOFOLLOW.
Если этот мета-таг пропущен или не указаны robot_terms,
то по умолчанию поисковый робот поступает как если бы были указаны
robot_terms=INDEX, FOLLOW (т.е. ALL). Если в CONTENT обнаружено ключевое
слово ALL, то робот поступает соответственно, игнорируя возможно указанные
другие ключевые слова.. Если в CONTENT имеются противоположные по смыслу
ключевые слова, например, FOLLOW, NOFOLLOW, то робот поступает по своему
усмотрению (в этом случае FOLLOW).
Если robot_terms содержит только NOINDEX, то ссылки с
этой страницы не индексируются. Если robot_terms содержит только NOFOLLOW,
то страница индексируется, а ссылки, соответственно, игнорируются. Контроль за текущим состоянием Ваших документов в индексе
поисковых машин.
Ну хорошо, Вы прочитали все, что было выше и так и
сделали. Что же дальше? А дальше будет долгая, нудная и, главное,
регулярная проверка на предмет того, как обстоят дела. Как ни печально, а
придется уделять этому внимание хотя бы потому, что документы временами
пропадают из поисковых машин. Почему? Знать бы... Итак, в хороших
поисковых машинах можно посмотреть какие документы и сколько их в текущее
время находится в индексе. Вот как это делается:
Alta Vista url:
citforum.ru В первом случае будут выданы все проиндексированные страницы сервера.
Во втором - только страницы Windows-кодировки. В третьем - есть ли в
индексе AltaVista файл index.shtml из указанной директории Excite http://citforum.ru/win/database/articles/art_1.shtml HotBot Infoseek WebCrawler Rambler |