Глубинное обучение использует наслоения распознавателей. Прежде чем вы сможете распознать собаку, вы должны уметь распознавать фигуры. Прежде чем вы сможете распознавать фигуры, вы должны уметь распознавать края, чтобы отличить фигуру от ее фона. Каждый из этих последовательных этапов распознавания дает сжатое математическое представление, которое передается на следующий уровень. Правильное сжатие имеет ключевое значение. Если вы попытаетесь сжать слишком много, вы не сможете отобразить богатство происходящего и у вас появится уведомление об ошибке. Если вы попытаетесь сжать слишком мало, сеть прекрасно запомнит примеры для обучения, но не обобщит должным образом новые материалы.
Машинное обучение использует способность компьютеров очень быстро делать одно и то же или незначительные вариации одного и того же снова и снова. Ян однажды в шутку заметил: «Главная проблема с реальным миром заключается в том, что вы не можете ускорить реальный ход времени». Но компьютеры делают это постоянно. Программа для игры в го на базе искусственного интеллекта AlphaGo, созданная британской компанией DeepMind, в 2016 году победившая одного из лучших игроков в мире, сначала изучила 30 миллионов позиций го из исторических матчей, сыгранных опытными игроками-людьми. Затем она сыграла миллионы игр сама с собой, чтобы еще больше усовершенствовать свой стиль игры.
Машинное обучение стало основной составляющей поиска Google. В 2016 году компания Google анонсировала RankBrain, модель машинного обучения, помогающую определить страницы, которые относятся к теме запроса пользователя, но фактически могут не содержать слова из запроса. Это может быть особенно полезным для запросов, которых никогда не было раньше. По данным компании Google, оценка RankBrain стала третьей по важности среди более чем двухсот факторов, которые она использует для ранжирования страниц.
Google также использует глубинное обучение для перевода на иностранные языки. Результаты настолько разительно улучшились, что после нескольких месяцев тестирования команда прекратила работу над старой системой Google Translate и полностью заменила ее на систему, базирующуюся на глубинном обучении. Она еще не настолько хороша, как люди-переводчики, но она близка к этому, по крайней мере в том, что касается повседневного функционального использования, хотя, возможно, пока не подходит для литературного перевода.
Для Google Фото также используется глубинное обучение. Если вы пользовались сервисом Google Фото, вы видели, как он может распознавать объекты на ваших фотографиях. Введите слово «лошадь», и вы увидите изображения лошадей, даже если они не подписаны. Введите слово «за́мок» или «забор», и вы увидите изображения за́мков или заборов. Это магия.
Не забудьте, что сервис Google Фото делает это по запросу для фотографий более 200 миллионов пользователей для сотен миллиардов фотографий, которые он никогда раньше не видел.
Это называется контролируемым обучением, потому что, несмотря на то что сервис Google Фото не видел ваших фотографий раньше, он видел много других фотографий. В частности, он видел то, что называется учебным набором. В учебном наборе данные промаркированы. «Механический турок» компании Amazon или похожие сервисы используются, чтобы отправлять изображения одно за другим тысячам работников, которым предлагается назвать, что содержит каждое из них, или ответить на вопрос о каком-либо аспекте (например, о цвете), или, как и в случае с учебным набором для Google Фото, просто подписать его.
Amazon называет эти микрозадания хитами (HITs – Human Intelligence Tasks). Каждому задается один вопрос, возможно даже с множеством вариантов ответов: «Какого цвета автомобиль на этом изображении?», «Что это за животное?». Один и тот же хит отправляется множеству работников; когда многие работники дают один и тот же ответ, это, по-видимому, правильно. За каждый хит платят копейки, используя распределенную рабочую силу «экономики свободного заработка», благодаря которой работа водителем Uber выглядит как хорошая работа для среднего класса.
Роль «Механического турка» компании Amazon в обучении – служить напоминанием о том, насколько глубоко переплетаются человеческий и машинный труд в разработке приложений следующего поколения. Мэри Грей, исследователь из Microsoft, которая изучила использование «Механического турка», обратила мое внимание на то, что историю исследований ИИ можно проследить, посмотрев, как менялись хиты, использовавшиеся для создания наборов обучающих данных, с течением времени. (Интересным примером является обновление Руководства Google по определению рейтинга сайтов в начале 2017 года, которое было произведено, по словам Пола Хаара, инженера по ранжированию поисковых систем Google, чтобы создать наборы обучающих данных для алгоритмического обнаружения фальшивых новостей.)