Читаем Все лгут. Поисковики, Big Data и Интернет знают о вас всё полностью

Возьмем, к примеру, команду ученых-компьютерщиков из университета штата Индиана и университета Манчестера. Эти специалисты утверждали, что могут спрогнозировать динамику рынков, основываясь на сообщениях в Twitter{173}. Они построили алгоритм обработки каждодневного настроения твитов всего мира, используя методы, подобные анализу настроений, рассматриваемому в главе 3. Однако они учитывали не одно настроение, а множество – счастье, злость, доброту и многие другие. И обнаружили, что повышенное число твитов с выражением спокойствия – таких как «я спокоен» – позволяет предположить повышенную вероятность роста промышленного индекса Доу – Джонса через шесть дней. Для использования их результатов был основан хедж-фонд.

В чем здесь проблема?

Основная загвоздка заключается в том, что ученые протестировали слишком много элементов. Если вы в случайном порядке исследуете достаточно много переменных, одна из них окажется статистически значимой. Они изучили много эмоций, они тестировали каждую эмоцию за день, два, три, семь до дня, поведение фондового рынка в который пытались предсказать. И все эти переменные были использованы для того, чтобы попытаться объяснить взлеты и падения индекса Доу – Джонса всего за несколько месяцев.

За шесть дней до этого спокойствие не было легитимным прогностическим фактором фондового рынка. В тот момент оно было эквивалентом нашей гипотетической монеты 391 для больших данных. Хедж-фонд на базе твитов был закрыт через месяц после запуска вследствие малой отдачи{174}.

Не только хедж-фонды, пытающиеся предсказать динамику рынков, страдали от «проклятия размерности». Те же проблемы возникли у ученых, пытавшихся найти генетические ключи, объясняющие, кто мы есть.

Благодаря проекту «геном человека» теперь можно собрать и проанализировать полную ДНК человека. Потенциал этого проекта казался огромным.

Возможно, нам удалось бы найти ген, ответственный за шизофрению. Может быть, мы могли бы обнаружить ген, вызывающий болезни Альцгеймера, Паркинсона и боковой амиотрофический склероз. Может быть, мы могли бы найти ген, отвечающий – ух ты! – за высокий уровень интеллекта. Есть ли ген, который в состоянии добавить кучу пунктов к IQ? Есть ли ген, создающий гения?

В 1998 году Роберт Пломин, видный поведенческий генетик, утверждал, что нашел ответ. Он получил набор данных, включавший ДНК и уровни интеллекта сотен студентов. Он сравнил ДНК «умников» (учащихся с IQ от 160 и выше) с ДНК студентов со средним уровнем IQ.

И обнаружил поразительную разницу в ДНК этих двух групп. Это различие было расположено в одном маленьком уголке 6-й хромосомы – неясный, но мощный ген, задействованный в метаболизме мозга. Одна версия этого гена, названного IGF2r, у более умных встречалась в два раза чаще.

«Сообщается о находке первого гена, связанного с высоким уровнем интеллекта», – запестрели заголовки «Нью-Йорк Таймс».

Можете задуматься о многочисленных этических вопросах, возникших после открытия Пломина. Следует ли разрешить родителям проводить тестирование детей на наличие гена IGF2r? Должны ли быть разрешены аборты, если у плода выявлен низкий уровень IQ? Можно ли генетически модифицировать людей, чтобы обеспечить им высокий уровень IQ? Коррелирует ли IGF2r с расой? Хотим ли мы знать ответ на этот вопрос? Следует ли продолжить исследования в области генетики, связанные с IQ?

Прежде чем специалисты по биоэтике, которым приходилось заниматься подобными острыми вопросами, занялись решением проблемы, перед генетиками – в том числе перед самим Пломиным – встал более простой вопрос: насколько точным был результат? Неужели правда, что IGF2r предопределяет уровень интеллекта? Неужели правда, что гении вдвое чаще являются носителями этого гена?

Нет. Через несколько лет после первого исследования, Пломин получил доступ к данным другой выборки людей, также включавшей ДНК и показатели IQ. На этот раз IGF2r с IQ не коррелировал. Пломин – и это показатель добросовестного ученого – отказался от своих заявлений.

Это, по сути, реализация общей схемы исследований в области генетики и IQ. Во-первых, ученые сообщили, что нашли генетический фактор, определяющий уровень IQ. Затем они получили новые данные и обнаружили, что исходное утверждение было неправильным.

Например, недавно группа ученых под руководством Кристофера Шабри исследовала 12 громких заявлений о вариантах генома, связанных с IQ. Специалисты изучили данные о 10 тысячах человек и не смогли воспроизвести корреляции ни для одной из 12 заявок{175}.

В чем проблема во всех этих случаях? «Проклятие размерности». Геном человека, как теперь известно ученым, отличается миллионами элементов. То есть, попросту говоря, слишком много генов для тестирования.

Если вы анализируете достаточно много твитов, чтобы понять, коррелируют они с фондовым рынком или нет, то лишь случайно можете найти тот, который действительно коррелирует. Если вы испытываете достаточно много генетических вариантов, чтобы понять, коррелируют они с IQ или нет, то найдете нужный лишь случайно.

Перейти на страницу:

Все книги серии IT - бестселлер

Похожие книги

Оптимизация BIOS. Полный справочник по всем параметрам BIOS и их настройкам
Оптимизация BIOS. Полный справочник по всем параметрам BIOS и их настройкам

Прочтя эту книгу, вы узнаете, что представляет собой BIOS, какие типы BIOS существуют, как получить доступ к BIOS и обновлять ее. Кроме того, в издании рассказано о неполадках в работе BIOS, которые приводят, например, к тому, что ваш компьютер не загружается, или к возникновению ошибок в BIOS. Что делать в этот случае? Как устранить проблему? В книге рассказывается об этом и даже приводится описание загрузки BIOS во флэш-память.Также вы научитесь использовать различные функции BIOS, узнаете, как оптимизировать их с целью улучшения производительности и надежности системы. Вы поймете, почему рекомендуемые установки являются оптимальными.После прочтения книги вы сможете оптимизировать BIOS не хуже профессионала!Книга предназначена для всех пользователей компьютера – как начинающих, которые хотят научиться правильно и грамотно настроить свою машину, используя возможности BIOS, так и профессионалов, для которых книга окажется полезным справочником по всему многообразию настроек BIOS. Перевод: А. Осипов

Адриан Вонг

Зарубежная компьютерная, околокомпьютерная литература / Программирование / Книги по IT