Многие приложения машинного обучения не обращают внимания на то, как данные, используемые для обучения, распределяются статистически. Сосредотачиваясь на этой важной детали, многие также предполагают, что статистические распределения хаотических данных будут колоколообразными, или гауссовыми, названными в честь великого немецкого математика Карла Фридриха Гаусса (1777–1855). Когда вы проводите серию измерений (рост людей, кровяное давление или даже ошибки в измерениях), вы обнаруживаете, что данные разбросаны, часто вокруг центрального значения, без особого смещения в сторону более высоких или низких значений. Полученная колоколообразная кривая называется нормальным распределением, потому что она очень распространена.
Хотя это «нормальное распределение» играет важную роль в науке и более широких сферах человеческой деятельности, оно далеко не универсально. Оно не может описать большинство нелинейных явлений, в которых преобладает сложность, поскольку они основаны не на случайности, а обычно формируются петлями обратной связи, взаимодействиями и корреляциями. Эти сложные системы (а есть системы сложнее, чем человеческое тело) сильно коррелированы, поэтому не подчиняются статистике Гаусса. Чтобы обнаружить такие явления, необходимо собрать и проанализировать гораздо больше данных.
Другие примеры негауссовой статистики встречаются в турбулентности, когда потоки и вихри в жидкости простираются на гораздо большие масштабы длины, чем молекулы, или в удаленной тяге гравитации в турбулентных потоках материи, которые формируют галактики и Вселенную[229]. В молекулярной динамике, когда теория используется для предсказания движений отдельных молекул, взаимодействия между молекулами выходят далеко за рамки прямых столкновений, подобных твердым сферам, когда в игру вступают электростатические силы. Другие примеры можно найти в эпидемиологии и науке о климате[230], например, великие течения, переносящие тепло по океанам. В таких системах предположительно редкие события «черного лебедя» встречаются гораздо чаще, чем если смотреть через розовые очки нормального распределения[231].
Рисунок 24. Нормальное распределение. Модифицировано из книги Притхи Бхандари The Standard normal distribution: examples, explanations, uses («Стандартное нормальное распределение: примеры, объяснения, использование») (Scribbr 2005)
Без знания того, как распределяются данные, машинное обучение может легко привести к серьезным ошибкам. Полагаясь на гауссову статистику и колоколообразные кривые, эти трудности можно усугубить. Использование несовершенных данных и ошибочной статистики для обучения ИИ тому, как предсказывать поведение системы, чрезвычайно чувствительной к взмаху крыльев бабочки, иногда может привести к искусственной глупости[232][233]. Хорошей новостью является то, что, как упоминалось ранее, ученые-компьютерщики и специалисты по вычислительной технике работают над способами уменьшения неопределенности в таких прогнозах, работая с ансамблями нейронных сетей, чтобы проверить, работают ли они статистически надежно[234].
Большинство подходов к машинному обучению исходят из другого предположения, которое обсуждается редко. Предполагается, что между рядом точек данных и измерений можно построить плавную и непрерывную кривую. Чтобы понять суть того, что происходит внутри нейронной сети, представьте себе панораму холмов и долин, где высота ландшафта эквивалентна размеру ошибки между прогнозом и предыдущими данными. В типичном приложении алгоритм обучения ищет наименьший признак (наименьшую ошибку) на этом ландшафте или в пространстве поиска.
Самый простой подход – ползти в поисках самого низкого места. Это нормально для спокойного ландшафта холмов. Но когда дело доходит до неровного горного ландшафта, можете ли вы убедить себя, что один провал среди каменистых зубцов действительно является самым глубоким, тем, что ученые называют локальным минимумом? Это звучит как простая проблема, но когда дело доходит до реальных сложностей, таких как соединение молекулы лекарства с целевым белком в организме, это «сложная» задача оптимизации, поскольку ландшафт лежит в многомерном пространстве. На эту задачу оптимизации влияет проклятие размерности: невозможно получить достаточно данных и обработать их, чтобы сделать надежные прогнозы.
Есть способы обойти ловушку локального минимума, которую мы описали в Frontiers of Complexity, в том числе использование алгоритма имитации отжига, генетических алгоритмов и машины Больцмана[235], названной в честь великого Людвига Больцмана, с которым мы столкнулись ранее. Точно так же, как случайные тепловые движения атомов во время отжига металла снимают внутренние напряжения и помогают металлическому кристаллу принять наиболее организованное атомное расположение, так и смоделированный случайный шум, генерируемый на компьютере, может вытряхнуть нейронную сеть из локального провала и направить его к самой глубокой долине на ландшафте ошибок.