Возможно, самое впечатляющее использование ИИ, имеющее отношение к виртуальному человеку, произошло при решении проблемы сворачивания белка, описанной в первой главе. Эта грандиозная задача заключалась в том, чтобы найти способ превратить один вид данных – аминокислотную последовательность белка – в другой – трехмерную форму белка, что имеет решающее значение для понимания его роли в клетке или организме. По словам организаторов проводимого раз в два года конкурса «Критическая оценка предсказания белковых структур», или CASP, в 2020 г. задача была решена с помощью искусственного интеллекта AlphaFold, созданного с целью стимулировать самые современные исследования в области прогнозирования структуры белка.
AlphaFold был разработан DeepMind, британской компанией, которая уже продемонстрировала мощь и потенциал ИИ в решении ограниченных, но сложных задач, таких как победа в шахматах и го. Под ограниченностью мы подразумеваем, что в этих играх ограничены правила, размер доски и количество фигур. Но даже в этом случае, как и в случае с проблемой сворачивания белка, они сложны в вычислительном отношении, поскольку существует слишком много возможных ходов, чтобы компьютер мог изучить их все за разумное время. Например, когда речь идет о сворачивании белка, «разумное время» это «быстрее, чем время, необходимое для выделения кристаллов белка (редко простого), анализа их с помощью рентгеновских лучей или крио-ЭМ – криоэлектронной микроскопии (разновидность электронной микроскопии с разрешением, близким к атомному), и выяснения структуры» (рис. 22).
Чтобы применить ИИ к сворачиванию белков, Джону Джамперу и его коллегам из DeepMind сначала пришлось сформулировать проблему в математических терминах. AlphaFold просматривает в базе данных Protein Data Bank известные структуры последовательностей аминокислотных остатков в белках, которые в эволюционном отношении связаны с интересующей структурой, а затем учится предсказывать структуру целевой последовательности на основе своего рода «пространственной диаграммы», которая показывает взаимосвязь – близость – между аминокислотными остатками в трех измерениях. Благодаря этому ИИ может предсказать положение и ориентацию каждого остатка и их боковых цепей.
Рисунок 22. Белки бывают разных форм, что имеет решающее значение для их работы (DeepMind)
Команда DeepMind обучила AlphaFold, используя последовательности аминокислот и полученные формы белков, хранящиеся в общедоступных данных о примерно 170 000 белковых структурах, определенных стандартными экспериментальными методами, с использованием рентгеновской кристаллографии и спектроскопии ядерного магнитного резонанса (ЯМР). Один нюанс: все эти белковые структуры верны, хотя есть опасения, что сегодня слишком много полагаются на автоматизированные методы анализа рентгеновских данных[214]. Когда дело доходит до анализа, компьютеры до сих пор не могут конкурировать с химиками, хотя методы совершенствуются. И еще одна оговорка: AlphaFold обучается на множестве структур, в которых белки связаны с другими молекулами в комплексах. И, конечно, не следует забывать, что форма, которую принимают белки в виде холодного кристалла, далека от гибких конфигураций, принимаемых в теплых пределах клетки.
AlphaFold был запрограммирован не для предсказывания взаимоотношений между аминокислотами в окончательной структуре (до 2000 аминокислот), а для того чтобы выяснять, какие аминокислоты лежат рядом друг с другом. Нейронная сеть глубокого обучения AlphaFold имеет много слоев, и ее взаимосвязи меняются по мере того, как обучающие данные о белковых структурах подаются на нижний слой – входной – и проходят через последующие уровни. В ходе обучения вес и пороговые значения связей изменяются. Удивительно, но AlphaFold даже не знал, что аминокислоты существуют в цепочке – он просто научился располагать их таким образом. Для этого он оптимизировал 100 миллионов параметров.
Это много. Если вы рассматриваете ИИ как прославленную подгонку кривой (то есть построение кривой или математической функции, которая соответствует ряду точек данных), вы можете подогнать под это число практически все. Чтобы представить эти 100 миллионов в контексте, американский пионер компьютеров Джон фон Нейман пошутил: «С четырьмя параметрами я могу выразить слона, а с пятью могу заставить его шевелить хоботом». У команды DeepMind, похоже, было достаточно параметров, чтобы дать ИИ сознание и целеустремленность.