Читаем Информационные технологии и лингвистика XXI века полностью

Поисковым машинам иногда приходится анализировать, когда имели место события, описываемые на странице. Ведь информация постоянно устаревает, а пользователю нужны в первую очередь ссылки на самые последние новости, актуальные прогнозы и анонсы событий, которые еще не завершились или должны наступить в будущем. Понять, что актуальность страницы зависит от времени, и сопоставить ее с моментом выполнения запроса также требует от поисковой машины изрядной доли интеллекта.

Далее, поисковая машина ищет ближайший по смыслу ключевой запрос в индексе и формирует результаты, сортируя ссылки в порядке убывания их релевантности. Каждому ключевому запросу в индексе соответствует отдельный рейтинг страниц, релевантных ему. Не на каждое сочетание букв и цифр система заводит новый ключевой запрос, а делает это на основе анализа частоты тех или иных пользовательских запросов.

Поисковая машина может также перемешивать в результатах поиска рейтинги из разных ключевых запросов, если посчитает, что пользователю нужно именно это. Разработчики поисковых систем затрачивают большие усилия, направленные на то, чтобы «очистить» результаты своей поисковой выдачи от разного рода информационного мусора, то есть спама (spam).

Поисковая машина при поддержке входящих в нее приложений (пауков и краулеров) постоянно сканирует Интернет на предмет появления новых и обновления существующих страниц, поскольку неактуальная информация ценится ниже.

Поисковая машина периодически обновляет ранжирование ресурсов по их релевантности ключевым запросам, поскольку в индексе постоянно появляются новые страницы. Этот процесс называют обновлением (updating) поисковой выдачи.

В силу огромных объемов информации, размещенной во всемирной паутине и ограниченности ресурсов самой поисковой системы, поисковая машина всегда старается загружать только самое (по ее мнению) необходимое. В ее арсенале имеются всевозможные фильтры, которые отсекают многое ненужное уже на этапе индексации или выкидывают спам из индекса по результатам обновления поисковой выдачи.

Современные поисковые системы в ходе анализа запроса стараются учитывать не только текст самого запроса, но и его окружение: контекст и предпочтения пользователя, о которых было сказано ранее, а также время запроса, регион и многое другое.

На релевантность конкретной страницы влияют не только внутренние ее параметры (структура, содержание), но и внешние параметры, такие как ссылки на страницу с других сайтов и поведение пользователя при ее просмотре.

Работа поисковых систем постоянно совершенствуется. Идеальная работа поисковой машины (для человека) возможна только в том случае, если все решения, касающиеся индексации и ранжирования будет принимать комиссия, состоящая из большого числа специалистов всех областей и направлений человеческой деятельности. Поскольку это нереально, то такую комиссию заменяют экспертные системы, эвристические алгоритмы поиска и прочие элементы искусственного интеллекта. Вероятно, работа всех этих подсистем также могла бы давать более адекватные результаты, если бы была возможность обрабатывать абсолютно все данные, имеющиеся в открытом доступе в интернете, но и это практически невозможно. Несовершенный искусственный интеллект и ограниченность ресурсов – две основные причины того, что результаты поисковой выдачи не всегда радуют пользователей, но все это корректируется временем. Сегодня работа наиболее известных и крупных поисковых систем таких, как Google, Yahoo, Bing, Baidu, Яндекс, Рамблер, Nigma вполне соответствует потребностям и ожиданиям их пользователей.


Вопросы для самоконтроля

1. Что такое информационный поиск? Дать определение поисковой системе и поисковой машине.

2. Перечислить основные этапы информационного поиска. Дать краткую характеристику каждому этапу.

3. В чем заключаются принципиальные отличия поиска в Интернете от обычного информационного поиска?

4. Перечислить основные приложения, входящие в поисковую машину. Охарактеризовать каждое из приложений со своими примерами.

5. Какие факторы учитывает поисковая машина при отборе запрашиваемой пользователем информации?

6. Каковы наиболее популярные и эффективные поисковые системы в современном мире?


Задания для самостоятельного исследования

1. Используя три (по выбору) поисковые системы найти список самых популярных книг первой четверти нынешнего столетия. Сравнить результаты поиска.

2. Подготовить доклад по одной из поисковых систем современности.

3. Поиск по рубрикатору поисковой системы

Поисковые каталоги представляют собой систематизированную коллекцию (подборку) ссылок на другие ресурсы Интернета. Ссылки организованы в виде тематического рубрикатора, представляющего собой иерархическую структуру, перемещаясь по которой, можно найти нужную информацию. Например:

• Бизнес и экономика;

• Общество и политика;

• Наука и образование;

• Компьютеры и связь;

Перейти на страницу:

Похожие книги

Физика для всех. Движение. Теплота
Физика для всех. Движение. Теплота

Авторы этой книги – лауреат Ленинской и Нобелевской премий академик Л.Д. Ландау и профессор А.И. Китайгородский – в доступной форме излагают начала общего курса физики. Примечательно, что вопросы атомного строения вещества, теория лунных приливов, теория ударных волн, теория жидкого гелия и другие подобные вопросы изложены вместе с классическими разделами механики и теплоты. Подобная тесная связь актуальных проблем физики с ее классическими понятиями, их взаимная обусловленность и неизбежные противоречия, выводящие за рамки классических понятий, – все это составляет сущность современного подхода к изучению физики. Новое, свежее изложение делает книгу полезной для самого широкого круга читателей.

Александр Исаакович Китайгородский , Лев Давидович Ландау

Научная литература / Физика / Технические науки / Учебники / Образование и наука
Стратегические операции люфтваффе
Стратегические операции люфтваффе

Бомбардировочной авиации люфтваффе, любимому детищу рейхсмаршала Геринга, отводилась ведущая роль в стратегии блицкрига. Она была самой многочисленной в ВВС нацистской Германии и всегда первой наносила удар по противнику. Между тем из большинства книг о люфтваффе складывается впечатление, что они занимались исключительно поддержкой наступающих войск и были «не способны осуществлять стратегические бомбардировки». Также «бомберам Гитлера» приписывается масса «террористических» налетов: Герника, Роттердам, Ковентри, Белград и т. д.Данная книга предлагает совершенно новый взгляд на ход воздушной войны в Европе в 1939–1941 годах. В ней впервые приведен анализ наиболее важных стратегических операций люфтваффе в начальный период Второй мировой войны. Кроме того, читатели узнают ответы на вопросы: правда ли, что Германия не имела стратегических бомбардировщиков, что немецкая авиация была нацелена на выполнение чисто тактических задач, действительно ли советская ПВО оказалась сильнее английской и не дала немцам сровнять Москву с землей и не является ли мифом, что битва над Англией в 1940 году была проиграна люфтваффе.

Дмитрий Владимирович Зубов , Дмитрий Михайлович Дегтев , Дмитрий Михайлович Дёгтев

Военное дело / История / Технические науки / Образование и наука