Читаем Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных полностью

Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных

Как правило, алгоритмы для создания подобных диагностических классификаций могут ошибаться: симптомы часто бывают неоднозначными, а у молодого кандидата на ипотеку может быть очень короткая история финансовых транзакций. Один из способов улучшить такой алгоритм состоит в том, чтобы изучить случаи, которые он ранее неверно классифицировал, и посмотреть, сможем ли мы каким-то образом изменить или скорректировать его, чтобы прогнозы стали точнее. Метод, который позволяет сделать это, – создание искусственных данных по следующей схеме. Мы начинаем с определения пациентов или кандидатов, по которым был сделан неправильный прогноз, и добавляем к данным дополнительные копии этих случаев, возможно, огромное число дополнительных копий. Теперь, когда мы настроим параметры нашей модели для классификации этого расширенного набора данных, она будет вынуждена уделять больше внимания случаям, в которых ранее ошибалась. Чтобы лучше понять это, представьте себе экстремальную ситуацию, в которой ранее неверно классифицированный случай был реплицирован 99 раз и теперь существует 100 абсолютно идентичных его копий. Ранее наша классификация выдавала только один ошибочный случай, что было незначительным, но теперь этих случаев стало в 100 раз больше. Эффективность метода классификации значительно улучшится, если у нас получится настроить его так, чтобы он мог теперь правильно оценивать этот случай (и его 99 копий

Иначе говоря, изменение алгоритма путем применения его к этому новому набору данных – (где исходные данные дополнены большим количеством ошибочно классифицированных копий – позволяет получить новую версию алгоритма, которая будет точнее классифицировать те данные, где ранее допускалась ошибка. Идея состоит в том, чтобы создавать искусственные данные, смещающие «внимание» алгоритма в нужном направлении. Или, по-другому, использовать данные, которые могли бы быть.

Процедура, основанная на этой идее, называется бустингом,

или усилением. Когда-то она была революционной, но сегодня широко используется в машинном обучении. На момент написания книги версии алгоритмов бустинга являются лидерами в соревнованиях по машинному обучению, проводимых такими организациями, как Kaggle (например, особенно хорошо показывает себя версия алгоритма, называемая экстремальный градиентный бустинг.)

В то время как бустинг сосредоточен на тех случаях, которые ранее были неверно классифицированы и требуют дополнительного внимания, для определения точности оценок был разработан другой подход к использованию искусственных наборов данных. Речь идет о методе бутстреппинга

, изобретенном американским статистиком Брэдом Эфроном. (Надо признать, статистики и специалисты по машинному обучению неплохо поднаторели в придумывании ярких имен, раскрывающих суть концепций.)

Бутстреппинг работает следующим образом. Часто нашей целью является составление общего сводного отчета по некоторой совокупности чисел (скажем, нам может потребоваться среднее значение), но иногда невозможно определить каждое отдельно взятое число. Например, нам нужно узнать средний возраст людей в стране, но людей в стране слишком много, чтобы мы могли опросить их всех. Как мы уже видели ранее, часто само понятие всеохватывающего измерения бессмысленно – мы не можем, к примеру, многократно измерять массу добываемой руды, так как смысл ее добычи в переработке. Решение заключается в том, чтобы сформировать выборку – просто спросить некоторых людей об их возрасте или взвесить несколько партий добытой руды, – а затем использовать среднее значение этой выборки в качестве нашей оценки.

Средние показатели выборки безусловно полезны – они дают нам общее представление о значении, но было бы неразумным ожидать, что они окажутся абсолютно точными. В конце концов, если мы возьмем другую выборку данных, то, вероятно, получим иной результат. Можно, конечно, ожидать, что он не будет слишком отличаться от первого, но рассчитывать на их идентичность не стоит. Это означает, что кроме среднего значения хотелось бы получить оценку степени его точности. Хотелось бы знать, насколько велик разброс средних значений, которые мы получим, сформировав разные выборки, и насколько далеки от истинного значения наши средние показатели выборки.

Чтобы найти показатель дисперсии для средних значений, достаточно использовать несложную статистическую теорию. Однако для других описаний и сводок данных это будет куда сложнее, особенно если наши вычисления выходят далеко за рамки простого определения среднего. Но и здесь синтетические темные данные могут снова прийти нам на помощь.

Если бы мы могли сформировать много выборок (например, как в случае с десятикратным подбрасыванием монеты), проблемы бы не возникло: мы бы просто сделали это, привели нашу модель в соответствие с каждой выборкой и посмотрели бы, насколько различаются результаты. Но, к сожалению, у нас есть только одна выборка.

Перейти на страницу: