Читаем Все лгут. Поисковики, Big Data и Интернет знают о вас всё полностью

После запланированного времени окончания нашей встречи прошло полтора часа. Разговор затягивался, но я до сих пор не имел понятия, зачем понадобился Саммерсу, когда мне нужно будет уходить и как я узнаю об этом. Такое впечатление, что на тот момент Саммерс и сам, вероятно, забыл, зачем устроил эту встречу.

И тогда он задал вопрос на миллион – или, возможно, миллиард – долларов. «Вы думаете, что на основе каких-либо данных сможете предсказать ситуацию на фондовом рынке?»

Ага! Вот наконец и выяснилась причина, по которой меня позвали сюда.

Саммерс не был первым, кто задал мне этот вопрос. Мой отец в основном поддерживал мои нетрадиционные научные интересы. Но однажды и он поднял эту тему. «Расизм, жестокое обращение с детьми, аборты, – сказал он. – А ты не можешь зарабатывать на этом деньги для себя?» Другие члены семьи и друзья тоже заговаривали об этом. Не говоря уже о коллегах и незнакомцах в интернете. Кажется, всем хотелось знать, могу ли я использовать поиск в Google и другие крупные базы данных для покупки акций. Теперь к ним присоединился бывший секретарь казначейства Соединенных Штатов. Это было уже серьезнее.

Так могут ли новые источники больших данных успешно предсказать, какие акции будут наиболее выгодны? Короткий ответ – нет.

В предыдущих главах мы обсудили четыре мощных достоинства больших данных. В этой поговорим об их ограничениях – о том, чего мы не можем сделать с их помощью и, порой, как мы не должны их применять. Я решил начать этот разговор с рассказа о нашей с Саммерсом неудачной попытке выиграть на фондовых рынках.

В главе 3 мы отмечали, что новые данные скорее будут полезны в случае неубедительности результатов уже осуществленных исследований в той или иной области. Это горькая правда: гораздо легче получить новые выводы по поводу расизма, жестокого обращения с детьми или абортов, чем о том, как функционирует бизнес. Это является следствием того, что на поиск даже малейшего преимущества в эффективности бизнеса брошены поистине огромные ресурсы. Конкуренция в области финансов крайне жесткая.

Саммерс, человек, не склонный воспевать похвалу чужому уму, был уверен, что хедж-фонды нас уже опередили. Во время нашей беседы я был очень впечатлен тем, насколько уважительно он говорил о них, а также его убежденностью в том, что они предвосхитили многие из моих предложений. В ответ я с гордостью поделился с ним придуманным мной алгоритмом, который позволил мне получать более полные данные с помощью Google Trends. Он сказал, что это очень здорово. Когда же я спросил, мог ли «Ренессанс», количественный хедж-фонд, придумать подобный алгоритм, он усмехнулся и сказал: «Да, конечно, они бы смогли догадаться».

Сложность конкурирования с хедж-фондами – не самая основная проблема, с которой мы с Саммерсом столкнулись, продумывая возможность использования новых больших наборов данных для победы на фондовых рынках.

Проклятие числа размерностей

Предположим, ваша стратегия прогнозирования на фондовом рынке – подбрасывание монетки. Но при этом она создана на основе тщательного тестирования. Вот ваша методика: вы наносите метки на тысячу монет – от 1 до 1000. Каждое утро в течение двух лет вы подбрасываете все монеты, записывая, падают они орлом или решкой, а затем смотрите, идет ли индекс Standard & Poor’s в тот день вверх или вниз. Вы постоянно анализируете всю статистику. И вуаля! Вы что-то обнаружили. Получается, что при 70,3 % подбрасываний монета № 391 падает решкой вверх тогда, когда индекс S&P растет. Связь статистически значимая, ее уровень высокий. Вы нашли свою счастливую монету!

Теперь просто каждое утро подбрасывайте ее и покупайте акции, когда она выпадает решкой. Ваши дни в футболке и с ужином пустой лапшой закончились. Монета 391 – это ваш билет в хорошую жизнь!

Или нет.

Вы стали очередной жертвой одного из самых дьявольских аспектов «проклятия числа размерностей». Он может нанести удар, когда у вас имеется много переменных (или «размерностей») и не так много наблюдений: в данном случае, тысяча монет и 504 торговых дня за эти два года соответственно. Одна из этих размерностей – монета 391 – скорее всего, счастливая. Уменьшите количество переменных – подбрасывайте всего сто монет. И вероятность того, что вам повезет, существенно уменьшится. Увеличьте число наблюдений, попытавшись предсказать поведение индекса S&P за 20 лет – и монеты постараются «не ударить в грязь лицом».

«Проклятия размерности» является серьезной проблемой при работе с большими данными, поскольку новые наборы данных никогда не дают нам экспоненциально больше переменных, чем традиционные источники – каждый поисковой запрос, каждая категория твитов и т. д. Многие люди, утверждающие, что способны прогнозировать динамику рынка, используя какой-то большой источник данных, просто оказались в плену этого проклятия. Все, что они действительно сделали – нашли эквивалент монеты 391.

Перейти на страницу:

Все книги серии IT - бестселлер

Похожие книги

Оптимизация BIOS. Полный справочник по всем параметрам BIOS и их настройкам
Оптимизация BIOS. Полный справочник по всем параметрам BIOS и их настройкам

Прочтя эту книгу, вы узнаете, что представляет собой BIOS, какие типы BIOS существуют, как получить доступ к BIOS и обновлять ее. Кроме того, в издании рассказано о неполадках в работе BIOS, которые приводят, например, к тому, что ваш компьютер не загружается, или к возникновению ошибок в BIOS. Что делать в этот случае? Как устранить проблему? В книге рассказывается об этом и даже приводится описание загрузки BIOS во флэш-память.Также вы научитесь использовать различные функции BIOS, узнаете, как оптимизировать их с целью улучшения производительности и надежности системы. Вы поймете, почему рекомендуемые установки являются оптимальными.После прочтения книги вы сможете оптимизировать BIOS не хуже профессионала!Книга предназначена для всех пользователей компьютера – как начинающих, которые хотят научиться правильно и грамотно настроить свою машину, используя возможности BIOS, так и профессионалов, для которых книга окажется полезным справочником по всему многообразию настроек BIOS. Перевод: А. Осипов

Адриан Вонг

Зарубежная компьютерная, околокомпьютерная литература / Программирование / Книги по IT