Второй смысл термина «большие данные» – это измерение в каждом примере многих характеристик или признаков. Они часто обозначаются буквой p (возможно, от слова parameter). Если снова обратиться ко временам моей статистической юности, то обычно p не превышало 10 – мы знали не так много пунктов в медицинской карте отдельного человека. Но с получением доступа к миллионам генов человека проблемы геномики оказались в малых значениях n, но больших значениях p, то есть в наличии колоссального количества информации об относительно небольшом числе случаев.
А теперь мы вступили в эру задач с большими n и большими p, когда имеется огромное количество случаев, каждый из которых может быть очень сложным, – подумайте об алгоритмах, анализирующих все посты, лайки и дизлайки каждого из миллиардов подписчиков Facebook, чтобы определить, какие новости и рекламу показывать.
Такие новые захватывающие задачи привели в науку о данных массу новых людей. Но давайте еще раз вспомним утверждение, приведенное в начале книги: данные не говорят сами по себе. Это мы наполняем их смыслом, а потому с ними нужно обращаться умело и с осторожностью, чтобы избежать многих потенциальных ловушек при наивном использовании алгоритмов. В этой главе мы приведем примеры некоторых классических катастроф, но сначала рассмотрим фундаментальную задачу по сведению данных в нечто полезное.
Одна из стратегий при работе с чрезмерным количеством случаев – формирование групп по схожести – процедура, известная как кластеризация, или неконтролируемое обучение (обучение без учителя
), поскольку мы должны определить эти группы сами, нас не предупреждают заранее об их существовании. Нахождение таких однородных кластеров может быть и конечной целью. Например, можно определить группы людей с одинаковыми предпочтениями или предубеждениями, установить их характеристики, дать название, придумать алгоритмы для классификации будущих случаев. А затем давать таким выявленным кластерам соответствующие рекомендации фильмов, политическую, коммерческую и социальную рекламу – в зависимости от мотивации людей, построивших алгоритм.Прежде чем конструировать алгоритм для классификации или прогнозирования, возможно, придется сократить объем исходных данных по величине p до приемлемого размера, поскольку изначально она может быть очень большой (в каждом конкретном случае измерялось слишком много характеристик). Этот процесс называется конструированием признаков
. Просто представьте, сколько измерений можно сделать на человеческом лице. Чтобы разрабатывать программное обеспечение для распознавания лиц и сравнения их с базой данных, можно ограничиться измерением нескольких важных признаков. Те измерения, которые не нужны для прогноза или классификации, можно определить с помощью визуализации данных или методов регрессионного анализа, а затем отбросить. Кроме того, уменьшить число признаков можно с помощью «составных» измерений, которые включают бПоследние разработки в области чрезвычайно сложных моделей (вроде тех, что относятся к так называемому глубокому обучению
) предполагают, что необходимости в первоначальном этапе сокращения данных может и не быть, то есть один алгоритм способен обработать все исходные данные.Сегодня доступно ошеломляющее количество различных методов для построения алгоритмов классификации и прогнозирования. Исследователи обычно используют то, к чему привыкли в ходе своей профессиональной деятельности: например, статистики предпочитают регрессионные модели, а специалисты по теории вычислительных машин и систем – логику на основе правил и нейронные сети, которые были альтернативными способами имитации человеческого познания. Реализация любого из этих методов требует специальных навыков и программного обеспечения, но сейчас появились удобные программы, которые позволяют выбирать методы с помощью меню и тем самым поощряют менее однобокий подход, когда эффективность важнее, чем философия моделирования.
Начав измерять и сравнивать практическую эффективность алгоритмов, люди неизбежно стали соревноваться, и сейчас такие платформы, как Kaggle.com
, проводят конкурсы в сфере науки о данных. Какая-нибудь коммерческая или академическая организация предоставляет участникам набор данных: это может быть задача по обнаружению китов по зафиксированным звукам, регистрация темной материи по астрономическим данным или прогнозирование числа госпитализированных больных. В каждом случае конкурсантам предоставляется тренировочный (обучающий) набор данных для конструирования алгоритма, а также тестовый набор для определения его эффективности. Особенно популярен конкурс (привлекающий тысячи команд) по созданию алгоритма для следующей задачи.Можно ли сказать, какие пассажиры выжили после гибели «Титаника»?