Читаем Разберись в Data Science полностью

Разберись в Data Science

Однако в 2010-х годах сочетание больших наборов данных (благодаря Интернету), усовершенствования алгоритмов (в частности, применения более эффективных по сравнению с логистическими функций активации) и компьютерного оборудования, известного как графические процессоры (GPU), произвело настоящую революцию в сфере глубокого обучения. Графические процессоры позволили сократить время обучения в сто раз[131]. Благодаря этому для изучения тысяч параметров глубокой нейронной сети требовались уже не недели или месяцы, а всего несколько часов или дней. С тех пор успехи в области глубокого обучения росли как снежный ком, особенно в том, что касалось таких неструктурированных данных, как текст, изображения и звук. Это проявилось в создании систем, позволяющих решать всевозможные задачи – от идентификации и маркировки лиц до преобразования аудио в текст.

Преимущества глубокого обучения

Прежде чем приступать к обсуждению того, как методы глубокого обучения позволяют обрабатывать неструктурированные данные, давайте поговорим о том, чем глубокое обучение отличается от алгоритмов, с которыми вы познакомились ранее. Мы уже сказали, что скрытые нейроны способны генерировать новые и более нюансированные представления набора данных, взаимодействия моделей и нелинейные взаимосвязи, тем самым позволяя обнаруживать тонкости, упускаемые другими методами.

С практической точки зрения это может быть невероятно полезно для специалистов по работе с данными, поскольку сокращает время на ручное конструирование признаков.

Конструирование признаков – это процесс объединения или преобразования необработанных данных в новые признаки (новые столбцы) в наборе данных с использованием экспертных знаний. Например, в случае с набором данных, предсказывающим вероятность дефолта по кредиту, создание показателя доступности путем деления стоимости жилья на доход домохозяйства может повысить эффективность модели. Однако этот процесс может оказаться очень трудоемким и запутанным. Благодаря использованию скрытых слоев методы глубокого обучения часто позволяют автоматизировать процесс конструирования признаков, создавая представления данных, более подходящие для решения задачи прогнозирования.

При использовании большого количества данных, все более глубоких сетей, автоматического конструирования признаков и последовательного наслоения нейронов в данных могут обнаруживаться все более сложные и богатые представления, которые улучшают производительность модели по мере того, как она обучается на все более объемных наборах данных. Это показано на рис. 12.4.

Рис. 12.4. Теоретическое сравнение динамики роста производительности традиционных алгоритмов регрессии и классификации и нейронных сетей разного масштаба по мере увеличения размера набора размеченных данных[132]

На данном изображении показаны теоретические кривые производительности различных алгоритмов и то, что производительность традиционных методов (например, логистической и линейной регрессии) может стагнировать даже при увеличении размера набора размеченных обучающих данных. Линейные методы способны захватывать очень ограниченное количество сигналов. В то же время углубление архитектуры нейронной сети позволяет «выжимать» из данных все больше информации и повышать прогностическую эффективность. И по мере увеличения размера набора данных производительность крупных глубоких нейронных сетей может продолжать расти. На практике, разумеется, есть предел, поскольку каждый набор данных ограничен. Из любого лимона в конечном итоге будет выжат весь сок.

Однако по поводу рис. 12.4 следует сделать важную оговорку. Производительность модели будет расти только в том случае, если в данных присутствует значимый сигнал или информация. А гарантировать этого нельзя.

Глубокое обучение с его автоматизированным конструированием признаков и способностью улавливать нюансированные закономерности в данных хорошо справляется с решением задач восприятия. В следующих разделах мы поговорим о том, как это работает.

Как компьютеры «видят» изображения

В предыдущей главе вы узнали о том, как компьютер «читает» текст. В этом разделе вы узнаете, как компьютеры «видят» изображения, а также получите представление о том, как методы глубокого обучения применяются в области компьютерного зрения.

На рис. 12.5 показано, как простое изображение в градациях серого – написанная от руки цифра – воспринимается компьютером[133]. Каждый пиксел изображения был преобразован в значение в диапазоне от 0 (белый цвет) до 255 (черный цвет), который включает все оттенки серого. На рис. 12.5 показано изображение размером 8 на 8 пикселов с низким разрешением, представленное в виде матрицы с 64 значениями в диапазоне от 0 до 255. Люди видят написанную от руки цифру слева, а компьютер – электронную таблицу с числами, показанную в середине.

Перейти на страницу: