Читаем Журнал «Компьютерра» №30 от 23 августа 2005 года полностью

По доброй традиции – ложка дегтя: помните правило «6 к 1» (из шести попыток соединения пять непременно срываются)? Опыт показал, что в часы пик (после шести вечера) оно плавно трансформируется в «15 к 1», а то и «20 к 1». Зато по утрам летает аки «Стрим».

Мораль: неограниченный тарифный план «Киевстара» на сегодняшний день – абсолютно лучшее решение мобильных коммуникационных задач на украинских незалежностях. Поглядим, каков будет ответ UMC в следующем году!

Линки, помянутые в «Голубятне», вы найдете на домашней странице internettrading.net/guru.

ТЕХНОЛОГИИ: Гадания на поисковых образах

В редакции «КТ» стоит огромный шкаф, две полки которого отведены под подшивки журнала за несколько лет. Если распечатать в том же формате содержимое сайта «КТ», то потребуется уже три шкафа. По оценке Nigma.ru, в Интернете хранится больше 1 млрд. русскоязычных документов (оценка очень приблизительная, но других – более точных – извините, нет). Если предположить, что каждый документ содержит в среднем 5 килобайт текста, то для их офлайнового хранения потребовалось бы 17500 шкафов, для размещения которых необходимо помещение, чья суммарная площадь примерно равна площади двух футбольных полей. Причем практически сразу же нам потребовалось бы еще одно футбольное поле – для новых документов, которые ежедневно появляются тысячами.

Разумеется, ориентироваться в миллиардах документов без поисковых сервисов невозможно. Но так ли хороши современные средства поиска в текстовых документах и нельзя ли их радикально улучшить?

Прежде чем попытаться ответить на этот вопрос, давайте определимся, что же нужно пользователю поискового сервиса и что могут ему предложить современные поисковые системы. В обоих случаях речь идет об информации, но информация – это сложное понятие, и очевидно, что пользователи и поисковые системы понимают под информацией несколько разные вещи. Собственно говоря, предполагать, что всем пользователям нужно примерно одно и то же, также неверно. Одним требуется фактологическая информация, другим – описания реальных процессов (информационные образы), третьим – метаинформация, а четвертым, наоборот, нужно удостовериться в отсутствии тех или иных данных (например, при проверке изобретения на новизну).

Поисковая система работает с материальными носителями информационных образов – документами, оценивая каждый из них согласно качеству содержащейся в нем информации. Разумеется, оценка эта производится динамически – говорить о ценности информации вне контекста информационного запроса бессмысленно. Так, для механика, который ищет схему нужного узла, не имеет никакой ценности информация о правлении Карла I, тогда как историку совершенно не нужны необходимые механику схемы.

Качество работы поисковой системы напрямую зависит от качества основных моделей, положенных в основу поисковых алгоритмов (технических нюансов, связанных с работой серверов, активностью роботов и т. д., мы касаться не будем). Структура документа, в общем случае, крайне неоднородна и сложна. Это может навести на мысль, что и модель документа тоже является, скажем так, непростой. На самом деле, в существующих поисковых системах используются предельно упрощенные модели документа. Максимально простой в системном анализе является модель «черного ящика», то есть автономной системы, обособленной от внешней среды, с входами и выходами. В нашем случае на входе – текст, на выходе – список всех слов текста, не входящих в стоп-лист. Вот и вся модель. Понятно, что и функциональные потенции такого модельного описания тоже достаточно ограничены.

Объект, в который воплощена модель документа, называется поисковым образом документа. Для модели «черного» ящика – это тот же список ключевых слов, или вектор, если использовать понятия векторной алгебры. Размерность такого вектора, естественно, совпадает с числом ключевых слов (терминов), представляющих документ. Если значимость разных терминов считается различной, то им приписываются соответствующие веса. Принцип здесь простой: чем большей считается значимость термина, тем больший вес ему приписывается. Само же вычисление веса опирается на достаточно произвольные эмпирические конструкции, выбор которых остается за разработчиком. Как строится поисковый индекс, когда документ моделируется «черным ящиком», в общем-то очевидно: каждому документу, до которого может «дотянуться» сервис, ставится в соответствие его поисковый образ. Полученное таким образом множество векторов вместе с адресной информацией и составляют основу индекса поисковой системы.

Перейти на страницу:

Похожие книги

Сатиры в прозе
Сатиры в прозе

Самое полное и прекрасно изданное собрание сочинений Михаила Ефграфовича Салтыкова — Щедрина, гениального художника и мыслителя, блестящего публициста и литературного критика, талантливого журналиста, одного из самых ярких деятелей русского освободительного движения.Его дар — явление редчайшее. трудно представить себе классическую русскую литературу без Салтыкова — Щедрина.Настоящее Собрание сочинений и писем Салтыкова — Щедрина, осуществляется с учетом новейших достижений щедриноведения.Собрание является наиболее полным из всех существующих и включает в себя все известные в настоящее время произведения писателя, как законченные, так и незавершенные.В третий том вошли циклы рассказов: "Невинные рассказы", "Сатиры в прозе", неоконченное и из других редакций.

Михаил Евграфович Салтыков-Щедрин

Документальная литература / Проза / Русская классическая проза / Прочая документальная литература / Документальное
Чего не видит зритель. Футбольный лекарь №1 в диалогах, историях и рецептах
Чего не видит зритель. Футбольный лекарь №1 в диалогах, историях и рецептах

Из диалогов заслуженного врача России Савелия Мышалова и журналиста Гагика Карапетяна читатели получат возможность познакомиться с многолюдными «командами мечты» – символическими сборными тренеров, футболистов и конькобежцев, которые «образовались» за более чем полвека (!) работы Доктора от Бога, трудившегося с национальными командами и ведущими клубами страны.Оба собеседника искренне, невзирая на лица и титулы, а также дополняя друг друга, мозаично обогащают портреты наших «звезд» штрихами, неизвестными большинству знатоков отечественного спорта. А рассыпанные чуть ли не на всех страницах книги забавные и занимательные истории не только исключительно доброжелательные, но и мудрые по своему содержанию.Для удобства читателей в текст вкраплены лаконичные биографические справки главных действующих лиц и статистические отчеты упоминаемых матчей.

Гагик Карапетян , Савелий Мышалов

Боевые искусства, спорт / Прочая документальная литература / Спорт / Дом и досуг / Документальное