Читаем Юный техник, 2001 № 05 полностью

• Поиск по ключевому слову — автоматизированная технология, основанная на поиске вхождения в информационные «выжимки», хранящиеся для каждого сайта из числа включенных в базу данных поискового сервера, заданного пользователем слова (слов) или фразы. Ключевое слово/фраза вводится в специально отведенном поле. После подтверждения ввода (щелчком «мышью» на имеющейся экранной кнопке или нажатием клавиши Enter) поисковый сервер возвращает Web-страницу, содержащую список, в котором для найденных сайтов даны их названия (обычно являющиеся ссылками на сами сайты) и короткие аннотации (обычно несколько первых строк содержащегося на странице текста).

Информационное наполнение (база данных) обычно создается автоматически работающей на данном сервере программой, рассылающей по сети автономные модули — «пауки», выполняющие сбор, первичный анализ и пересылку на поисковый сервер информации об обрабатываемых сайтах.

Преимущества: значительно больший, чем для каталогов, охват имеющейся в Интернете информации.

Недостатки: значительное количество «информационного шума» в результирующем списке (ссылок на сайты, в содержимом которых заданное ключевое слово употреблено лишь формально).

Пример: поисковая служба «Яндекс» (рис. 1).


Рис. 1


«Пауки» — автономные программные модули, рассылаемые поисковым сервером на анализируемые сайты. Обычно «паук» выполняет сбор информации об анализируемом сайте, ее первичную обработку (создание «информационной выжимки») и пересылку на поисковый сервер, где основная программа добавляет эти сведения в базу данных. При обнаружении на анализируемом сайте ссылок на другие сайты «паук» может отправлять на них свои копии. После завершения работы «паук» самоуничтожается.

Технология «пауков» позволяет включить в сферу поиска максимально возможное количество сайтов, но у многих специалистов вызывает опасение тот факт, что способность этих программных модулей к автономной работе на других серверах (точнее, заложенное в системах безопасности этих серверов разрешение на допуск «паука» к информации и его запуск на исполнение) может стать «лазейкой» для создателей компьютерных вирусов и каких-либо разрушительных действий.

• Логика построения поискового запроса — правила, позволяющие формировать правильную ключевую фразу из набора ключевых слов. В зависимости от поставленной поисковой задачи возможны следующие ситуации:

— точное соответствие, когда в искомом тексте должна присутствовать именно эта фраза и никакая иная (пример: компьютерная мышь);

— в искомом тексте должны находиться все заданные ключевые слова (пример: мопеды И мотоциклы);

— достаточно, если в искомом тексте присутствует хотя бы одно ключевое слово (пример: самолет ИЛИ вертолет);

— одно или несколько ключевых слов не должно входить в искомый текст (скажем, чтобы отсечь большой массив «ложных» ссылок; пример: локомотив НЕ футбол).

Иногда отдельно рассматривается ситуация, когда еще заданные ключевые слова должны не только присутствовать в тексте, но и располагаться рядом, например, в пределах одного абзаца. Важным часто является и регистр букв (строчной или прописной), например, ключевое слово «лебедь» позволяет найти и птицу, и генерала, а «Лебедь» — только фамилию.

Современные поисковые серверы, как правило, предоставляют возможность ввода ключевой фразы в свободной форме и автоматически выполняют ее смысловую предобработку: выделение ключевых слов с отсечением незначащих (предлогов, местоимений и пр.), вариации окончаний слов, иногда автоматический перевод фразы на другие языки (например, заданная пользователем фраза «книги по программированию на Бейсике» автоматически превращается в запрос типа: (книга ИЛИ книге ИЛИ книгу ИЛИ книги ИЛИ книг ИЛИ book ИЛИ books) И (программирование ИЛИ программированию ИЛИ программирования ИЛИ programming) И (Бейсик ИЛИ Бейсике ИЛИ Бейсика ИЛИ Бейсику ИЛИ Basic ИЛИ BASIC). Кроме того, при задании нескольких ключевых слов в результирующий список могут включаться и сайты, в которых содержатся не все эти ключевые слова (на поисковом сервере «Яндекс» в этом случае после аннотации, помещенной в результирующий список, делается примечание: «Нестрогое соответствие»). Дополнительно предусматривается сортировка найденных ссылок в списке по «релевантности» — этот термин подразумевает максимальное соответствие найденных страниц заданному ключу поиска, которое программа определяет на основе анализа количества вхождений ключевых слов в текст, место, в котором они обнаружены (наиболее подходящими, например, считаются страницы, где ключевые слова обнаружены в заголовке документа), благодаря использованию алгоритмов «искусственного интеллекта» (хотя они пока еще далеко не совершенны). Соответственно, в результирующем списке наиболее подходящие ссылки выдаются первыми.

Перейти на страницу:

Похожие книги

Образы Италии
Образы Италии

Павел Павлович Муратов (1881 – 1950) – писатель, историк, хранитель отдела изящных искусств и классических древностей Румянцевского музея, тонкий знаток европейской культуры. Над книгой «Образы Италии» писатель работал много лет, вплоть до 1924 года, когда в Берлине была опубликована окончательная редакция. С тех пор все новые поколения читателей открывают для себя муратовскую Италию: "не театр трагический или сентиментальный, не книга воспоминаний, не источник экзотических ощущений, но родной дом нашей души". Изобразительный ряд в настоящем издании составляют произведения петербургского художника Нади Кузнецовой, работающей на стыке двух техник – фотографии и графики. В нее работах замечательно переданы тот особый свет, «итальянская пыль», которой по сей день напоен воздух страны, которая была для Павла Муратова духовной родиной.

Павел Павлович Муратов

Биографии и Мемуары / Искусство и Дизайн / История / Историческая проза / Прочее
Неучтенный
Неучтенный

Молодой парень из небольшого уральского городка никак не ожидал, что его поездка на всероссийскую олимпиаду, начавшаяся от калитки родного дома, закончится через полвека в темной системе, не видящей света солнца миллионы лет, – на обломках разбитой и покинутой научной станции. Не представлял он, что его единственными спутниками на долгое время станут искусственный интеллект и два странных и непонятных артефакта, поселившихся у него в голове. Не знал он и того, что именно здесь он найдет свою любовь и дальнейшую судьбу, а также тот уникальный шанс, что позволит начать ему свой путь в новом, неизвестном и загадочном мире. Но главное, ему не известно то, что он может стать тем неучтенным фактором, который может изменить все. И он должен быть к этому готов, ведь это только начало. Начало его нового и долгого пути.

Константин Николаевич Муравьев , Константин Николаевич Муравьёв

Фантастика / Фанфик / Боевая фантастика / Киберпанк / Прочее