Глоссарий терминов по поисковым системам и каталогам

Глоссарий терминов по поисковым системам и каталогам

Глоссарий терминов по поисковым системам и каталогам

Boolean search: Поиск с использованием операндов булевой алгебры, таких, например, как AND, NOT и OR. Использование операндов существенно увеличивает эффективность поиска. Если мы введем в поисковую систему запрос:

(мокрый OR склизкий) AND водяной AND (NOT сантехник),

то получим страницы отвечающие следующим критериям:

содержат слово(а) "водяной";
содержат либо "мокрый", либо "склизкий";
не содержат слова "сантехник".

Детально язык и синтаксис запросов изложен в Нelp каждой поисковой системы.

Bridge Page (redirect page, enter page, редирект-страницы): Страницы, созданные специально для получения высокого рейтинга в поисковых системах. Веб-мастер разрабатывает целый набор подобных страниц, каждая из которых оптимизирована под определенную поисковую систему и определенные ключевые слова. Такие страницы являются промежуточными и перенаправляют посетителя уже непосредственно на веб-сайт. Некоторые поисковые системы считают подобные действия спамом и игнорируют редирект страницы.

Classification (классификация): Процесс определения того, к какой категории принадлежит тот или иной документ, веб-сайт и т.д.

Case sensitivity (чувствительность к регистру): Некоторые поисковые системы чувствительны к запросам с учетом регистра, другие - нет. Например, чувствительная к регистру поисковая система Yandex при запросе "лебедь" выдаст все страницы, содержащие слово "лебедь", где буквы могут быть в любом регистре, то есть надет страницы и про птицу, и про небезызвестного генерала. Но при запросе "Лебедь" - только страницы, содержащие это слово с заглавной первой буквой, скорее всего это будет именно фамилия или предложения, где это слово стоит первым.

Concept search (концептуальный поиск): Поиск документов, имеющих прямое отношение к указанному поисковому слову, а не просто содержащих его.

Document (документ): Информационный объект, который желает найти и получить пользователь. Это может быть текстовый файл, Html-файл, картинка и т.д.

Index (индекс): Индекс поисковой системы представляет собой гигантский информационный массив, где хранятся преобразованные особым образом текстовые составляющие всех посещенных и проиндексированных роботом Html-страниц и текстовых файлов. Робот не только пополняет массив новыми поступлениями, но и регулярно обновляет уже имеющиеся в индексах документы.

Full-text search engine (полнотекстовая поисковая система): Полнотекстовые поисковые системы индексируют все слова на веб-странице (иногда за исключением стоп-слов) и учитывают порядок их расположения. В отличие от них, абстрактные поисковые системы по определенному алгоритму создают некий экстракт проиндексированной страницы.

Keyword search (поиск по ключевым словам): Поиск документов, которые содержат указанные пользователем ключевые слова.

Phrase search (поиск по словосочетаниям): Поиск документов, которые содержат в точности указанное пользователем словосочетание, предложение, отрывок текста.

Proximity search (поиск с расстоянием): Поиск, при котором пользователь указывает, на каком расстоянии между собой должны располагаться ключевые слова в документе. Например, для поисковой системы Яндекс при запросе.

"мокрый /3 сантехник"

Вы требуете найти документы, в которых содержится и слово "мокрый", и слово "сантехник", и расстояние между ними должно быть не более трех слов.

Query (запрос): Набор слов и служебных символов, характеризующий информацию, которую хочет найти пользователь.

Query-By-Example (find similar, найти подобные): Данной полезной функцией обладает лишь часть поисковых систем. При просмотре результатов первоначального поиска Вы выбираете документ или группу документов, наиболее близких к тому, что Вы ищете и даете системе команду "найти подобные документы".

Query Expansion (расширенный запрос): Процесс построения нового запроса на базе предыдущего. Например, AltaVista позволяет разрядить многотысячный список с результатами поиска путем удаления оттуда документов по определенным критериям.

Relevancy (релевантность документа): Мера того, насколько полно тот или иной документ отвечает критериям, указанным в запросе пользователя. Разумеется, далеко не всегда документ, признанный поисковой системой наиболее релевантым, будет таким по мнению самого пользователя.

Search by Field (поиск в определенных полях): Некоторые системы позволяют производить поиск не только по всему Html-документу, но и выборочно, по определенным полям. Например, можно искать по заглавию документа (title). B этом случае учитываются только ключевые слова, встречающиеся именно в заглавии.

Существует поиск по полю ALT тега IMG. Таким поиском пользуются, когда хотят найти в Интернете изображение на определенную тему.

Есть поиск по текстам в гиперссылках, адресах, заголовках разделов. Например, в системе Рамблер по запросу

"$TITLE: реклама and $URL: ресурсы"

система найдет все страницы, содержащие слово "реклама" в заголовке, и, помимо этого, хотя бы одну имеющуюся на странице ссылку, содержащую слово "ресурсы".

Search Engine (поисковая система): Содержит в себе три компонента:

робот, который обходит веб-сайты и заносит страницы в индексы системы;
индекс системы, где хранятся преобразованные особым образом текстовые составляющие всех посещенных и проиндексированных роботом Html-страниц и текстовых файлов;
и, наконец, система поиска - программа, которая обрабатывает запрос пользователя, находит в индексе документы, отвечающие критериям запроса, и выводит список найденных документов в порядке убывания релевантности.

Spider (Crawler, Bot, Robot, робот поисковой системы): Неотъемлемая составляющая поисковой системы - программа, которая посещает веб-страницы, считывает (индексирует) полностью или частично их содержимое и далее следует по ссылкам, найденным на данной странице. Робот возвращается через определенные периоды времени (например, каждый месяц) и индексирует страницу снова. Вся информация заносится роботом в индексы поисковой системы.

Stemming (морфологический поиск): Возможность системы искать слово в документах не только в строго заданном виде, но и во всех его морфологических формах. Например, не только "идти", но и "идет", "шел" и т.д.

Stop words (стоп-слова): Для экономии места и увеличения производительности некоторые поисковые системы не включают в индексы слова, встречающиеся на веб-страницах очень большое количество раз. Например, "www", артикли "а", "the" и т.д.

Thesaurus (тезаурус): Список синонимов для ключевого слова, которые может использовать система при поиске.

Weighting (весовой коэффицент): Увеличивать релевантность документа может не только количество содержащихся в нем ключевых слов, но и их расположение в документе. Больший "вес" имеют слова в заголовке страницы (заголовок - это то, что указанно между парным тегом ); слова, выделенные тегами

, , ; слова, находящиеся ближе к началу документа.

При поиске пользователь может также указывать системе важность того или иного слова в запросе. Например, в системе Рамблер по запросу

"-Коза ++Ностра"

при выдаче результатов большую релевантность получат страницы, содержащие "Ностра", меньшую - "Коза".