В отличие от пауков и пчел Бэкона, машинное обучение не стремится объяснять. Возможно, именно поэтому развитие искусственного интеллекта в последние годы привело к появлению соблазнительной идеи, которая ознаменовала поворот судьбы пауков Бэкона с их одержимостью пониманием: зачем вообще объяснять? Почему бы не покончить с теорией и вторым шагом, необходимым для создания виртуального человека? Почему бы просто не положиться на муравьев и машинное обучение?
Одна из причин заключается в том, что реальность машинного обучения прозаична: оно делает статистические выводы, своего рода прославленную аппроксимацию известных данных кривой. Как следствие, соблазнительная комбинация машинного обучения и больших данных сталкивается с теми же проблемами, что и финансовые услуги: прошлые результаты игры на фондовом рынке не являются гарантией будущих.
Также глубокое обучение часто идет наперекосяк. Например, когда дело доходит до искусственного зрения, машинное обучение может привести к причудливым результатам. Искажения, которые незаметны для людей[221], могут обмануть машину и заставить ее принять панду за гиббона[222]. Глубокая нейронная сеть может рассматривать абстрактные изображения как знакомые объекты. Несколько удачно расположенных наклеек могут заставить автомобиль с искусственным интеллектом неправильно прочитать знак «Стоп»[223]. Если эти алгоритмы не обучены на тщательно отобранных данных, они могут стать неадаптированными, часто встраивая в себя предвзятость, о которой их создатели совершенно не подозревают[224].
За использование глубоких нейронных сетей приходится платить. Для каждой связи между парой нейронов в нейронной сети вводится еще один «вес» связи. Эти параметры множатся примерно пропорционально квадрату этого числа, так что большая сеть может иметь от десятков тысяч до многих миллионов таких весов. Успех зависит от оптимизации огромного количества настраиваемых параметров во время обучения, на которую тратится большая часть вычислительных циклов.
Часто сеть можно адаптировать с помощью тщательно выбранных алгоритмов и хорошего набора данных, который не содержит слишком много разрывов или исключений, таких как маловероятные события, являющиеся большим отклонением от нормы, например событие «черного лебедя» на фондовом рынке. Но поиск «оптимальной» сети означает использование огромного количества сетей-кандидатов со всеми способами разделения вашего набора данных, обычно путем обучения сетей на одной части данных, а затем их проверки на другой, с которой они еще не сталкивались. Это нечто большее, чем процесс проб и ошибок, и требует большой мощности компьютера.
Машинное обучение сопряжено с риском так называемого переобучения[225]. Под этим мы подразумеваем, что глубокая нейронная сеть хорошо работает с данными, используемыми для ее обучения, но не способна делать прогнозы, выходящие за пределы того, что она уже знает, – как перчатка, которая идеально подходит для вытянутой ладони, но недостаточно гибка, чтобы включать в себя приветствие, сжатый кулак или черчиллевский знак «V».
Вот почему машинное обучение так привлекательно и в равной степени проблематично: при достаточном количестве параметров нейронная сеть всегда может обеспечить идеальное и красивое соответствие очень сложным данным. AlphaFold использовал сотни миллионов параметров, чтобы предсказать, как линейные цепочки аминокислот в белках складываются в сложные трехмерные кристаллические структуры, но, как мы уже упоминали, он не так хорошо справился со структурой в растворе (следовательно, модель, основанная на рентгеновских лучах, является переобученной). Методы машинного обучения могут легко стать ненадежными, если их экстраполировать на новое и неожиданное, что является истинной формой прогнозирования, которой действительно жаждут все ученые. И причина, по которой мир часто ведет себя новым и неожиданным образом, заключается, конечно же, в том, что он очень нелинеен.
В последнее время исследователи стали использовать данные моделирования хаотической системы для машинного обучения прогнозированию поведения сложных систем, таких как турбулентные потоки, молекулярная динамика и другие проявления хаоса[226]. Действительно, некоторые (но не Питер и его коллеги, столкнувшиеся с пределами чисел с плавающей запятой, как мы писали ранее) полагают, что машинное обучение может предсказать будущую эволюцию хаотических систем до восьми «ляпуновских времен», что, грубо говоря, в восемь раз дальше, чем позволяли предыдущие методы[227][228].
Тем не менее многие приложения машинного обучения полагаются на округленные числа (числа с плавающей запятой одинарной и все чаще даже половинной точности) для экономии времени и затрат меньшего количества энергии. В основе лежит предположение, что цифровые данные, полученные в результате такого моделирования, надежны, но в условиях хаоса это маловероятно.