Например, менеджер банка, использующий дерево, показанное на левой верхней панели, сначала спросит, содержит ли кредитная история недостатки; если да, заявка классифицируется как высокорискованная и отклоняется. Если нет, то задается второй вопрос о том, составляет ли соотношение сбережений к кредиту менее 5 процентов; если да, то заявка классифицируется как высокорискованная. Если нет, задается третий вопрос, и так далее. Обратите внимание, что первые два выхода относятся к "высокому риску", что помогает менеджерам избежать ложных срабатываний. Напротив, в дереве на панели справа вверху только первый выход является "высокорискованным", что позволяет получить больше ложных срабатываний, но при этом добиться более высокого показателя истинных срабатываний (т. е. избежать ложноотрицательных результатов).
Сплошная диагональная линия на нижней панели рисунка 12.4 представляет собой случайную характеристику. Например, если все кредиты приняты, то коэффициент ложноположительных и истинно-положительных результатов равен 1, что соответствует точке в правом верхнем углу. Если случайным образом принимается половина кредитов, то коэффициент ложноположительных и истинно-положительных результатов равен 0,5. Видно, что результаты работы менеджеров банка лишь немного превышают случайность. Они могли бы работать гораздо лучше, если бы использовали одно из быстрых и экономных деревьев, о которых говорилось в этой статье.
Могут ли сложные и непрозрачные методы машинного обучения принимать лучшие решения по кредитам, чем прозрачные быстрые и экономные деревья? Мы протестировали восемь мощных алгоритмов машинного обучения, включая SVM, случайный лес и нейронные сети. Эти алгоритмы используют все семнадцать признаков и весов и добавляют их зачастую сложными способами. На нижней панели рисунка 12.4 показано, что в среднем они не достигают лучшей производительности, чем быстрые и экономные деревья. Если судить по метрике d′, которая уравновешивает количество ложных и истинных срабатываний, то производительность алгоритмов машинного обучения и быстрых и экономных деревьев была схожей, и для всех них d′ составлял около 1,90.
В отличие от этого, результаты работы менеджеров банка оказались на удивление низкими: скудный показатель d′ составил 0,13 (а точность на уровне шансов - 0). Аналогичные результаты работы экспертов были обнаружены и в медицине. Действительно, разочарование по поводу низкой эффективности работы врачей отделения неотложной помощи при классификации пациентов с сердечным приступом стало основной причиной того, что медицинские исследователи Ли Грин и Дэвид Мер разработали одно из первых быстрых и экономных деревьев в медицине. 17 Одним из решений этой проблемы является обучение врачей и менеджеров банков систематической разработке и использованию быстрых и экономных деревьев. В книге "Классификация в дикой природе" Константинос Кацикопулос и его коллеги описывают, как быстрые и экономные деревья достигают таких же результатов во многих других задачах классификации, а также как построить быстрое и экономное дерево на основе количественных и качественных данных. 18 В целом, это исследование - еще одна демонстрация того, как эвристика может быть эффективным инструментом в большом мире. Важно отметить, что, в отличие от большинства алгоритмов машинного обучения , быстрые и экономные деревья абсолютно прозрачны, что позволяет менеджерам понимать, обучать и изменять их.
Прогнозирование выбытия населения
Во всех исследованиях, описанных в этой главе, для проверки точности прогнозирования эвристики или алгоритма использовался метод кросс-валидации. В базовой форме кросс-валидации набор данных делится на две части: обучающую и тестирующую выборки. Свободные параметры модели оцениваются на обучающей выборке, и с этими значениями параметров модель применяется на тестирующей выборке: точность модели там является ее предсказательной точностью. Этот подход также известен как предсказание вне выборки и обычно практикуется в машинном обучении и аналитике данных. Он является улучшением по сравнению с подгонкой данных, при которой параметры модели оцениваются по всему набору данных, а точность модели определяется тем, насколько хорошо она соответствует данным. Подгонка данных имеет тенденцию "объяснять" закономерности, вызванные случайным шумом, что приводит к чрезмерной подгонке. Использование подгонки вместо прогнозирования - проблема, до сих пор не признанная многими исследователями и практиками бизнеса. Она способствует возникновению иллюзии сложности - убежденности в том, что сложные стратегии всегда будут более точными, чем простые. Сложные стратегии с большим количеством свободных параметров могут лучше подходить к данным, но не обязательно лучше предсказывать их на основе выборки.