Читаем Компьютерра PDA 10.07.2010-16.07.2010 полностью

- Французско-Русский, 73258 статей;

- Русско-Французский, 56230 статей (Ru-Fr);

- Немецко-Русский, 376125 статей (De-Ru)

и так далее - почти до бесконечности.

В общем, настоятельно рекомендую TranslateIt! всем читателям, которые уже образумились либо находятся на пути к просветлению, и избрали Mac OS X своей основной операционной системой (никого не склоняю отказываться от Форточек! Упаси боже! Сам прекрасно уживаюсь на двух машинах - Sony Vaio Z и MacBook Pro 17). Есть и ещё один замечательный повод для рекомендации: разработчики TranslateIt! специально для читателей Сидра создали скидку в 25%!

Купон "discount" действителен до 18 июля 2010 года. По этому линку вы можете приобрести годовую лицензию на программу:

https://www.plimus.com/jsp/buynow.jsp?contractId=1689462&referrer=UncleMiF&currency=USD&templateId=2

А по этому - бессрочную лицензию:

https://www.plimus.com/jsp/buynow.jsp?contractId=1689463&referrer=UncleMiF&currency=USD&templateId=2

Купон нужно ввести в соответствующее поле и нажать Recalculate.

"Яндекс" научили искать в режиме реального времени

Автор: Андрей Письменный

Опубликовано 14 июля 2010 года

Поисковик "Яндекс" начал использование системы поиска, которая позволяет искать по только что созданным документам - буквально через минуты после их появления. В пресс-релизе компании сообщается, что количество запросов, в ответ на которые нужна самая свежая информация, в дни важных событий достигает восьми процентов, а в обычные - около двух. Новые алгоритмы позволяют поисковику удовлетворять этот спрос.

В основе этой системы - новый поисковый робот под названием Orange. Он отслеживает появление в интернете новых страниц и буквально за секунды включает их поисковую базу. Когда происходит поиск, их оттуда извлекает так называемый "Real-Time поиск". В блоге компании сообщаются некоторые подробности устройства нового поискового механизма. В частности, говорится о том, что в первую очередь он старается обращать внимание на новостные и прочие часто обновляемые сайты.

Сообщается также, что обе технологии были созданы в калифорнийской офисе компании в рамках инициативы Yandex.Labs. Федор Романенко, менеджер качества поиска, раскрыл для "Компьютерры" некоторые детали.

- Есть ли у быстрого робота какие-то особенности индексации? Или же это просто отдельная версия обычного поиска, ориентированная на часто обновляющиеся сайты?

Задача двух новых технологий Яндекса - робота "Orange Crawler" и "Real-Time поиска" - уменьшить до считанных секунд время появления новых важных страниц в поиске, которое раньше можно было сократить для части документов до 20 минут (но не устранить полностью), а также рассчитывать ссылочные факторы, которые используются для отбора самых интересных страниц и их ранжирования на поиске.

Для этого робот Orange должен уметь обрабатывать и индексировать документы (в частности, рассчитывать ссылочные факторы ранжирования) по одному, в отличие от большого робота, который сортирует страницы "пакетами" - какое-то время готовит версию индекса с новыми документами, обрабатывая сразу много страниц, потом выкладывает её на поиск. Обработка документов по одному позволяет сократить до секунд время выкладки конкретного документа, но более затратна с точки зрения нагрузки на сервера; к тому же она не позволяет вычислять факторы ранжирования, основанные на глобальной статистике по всем страницам, и факторы класса PageRank.

При этом Orange и "большой робот" работают вместе: новый робот подготавливает "быструю" часть поисковой базы, которая должна использоваться совместно с основной базой.

Другая новая технология Яндекса - "Real-Time поиск" - на ходу добавляет документы в поисковую часть по одному за секунды (обычный поиск работает на индексе, который обновляется целиком с некоторой периодичностью).

- Чтобы показывать наиболее актуальные результаты, найденные быстрым поиском, их нужно ставить выше в выдаче поисковика. Значит ли это, что сайт, обновляющийся чаще, получит преимущество при ранжировании?

Задача поисковика - выдавать релевантную информацию по любому запросу. Необходимо понять, обязательно ли релевантный ответ на конкретный запрос должен быть свежим. Если должен, и на некотором сайте есть релевантные свежие страницы, то они могут быть показаны в результатах поиска. Но сам факт свежести страницы не является достаточным, релевантность определяется с помощью сотен факторов ранжирования с применением технологии Матрикснет.

Перейти на страницу:

Похожие книги

Главный рубильник. Расцвет и гибель информационных империй от радио до интернета
Главный рубильник. Расцвет и гибель информационных империй от радио до интернета

Превратится ли всемирная паутина в «традиционное СМИ», содержание которого строго контролируется в интересах максимизации прибыли? В чьих руках сейчас находится Рубильник интернет-истории и, по сути, — развития общества? Исследуя развитие телефонии, радио, кино и телевидения, автор показывает, как эти индустрии прошли путь от хобби — к крупному бизнесу, от открытости и гибкости — к закрытой и жесткой системе. Какое будущее ожидает всемирную Сеть?Пролить свет на прошлое, чтобы предвидеть будущее — главная задача этой книги.Эта книга для тех, кто считает интернет не просто средством общения, но и инструментом познания мира, способом самовыражения. Для думающих и неравнодушных интернет-пользователей. Для студентов и преподавателей, особенно — экономических, телекоммуникационных и гуманитарных специальностей.

Тим Ву

Карьера, кадры / Интернет / Прочая компьютерная литература / О бизнесе популярно / Финансы и бизнес / Книги по IT