DeepMind называет AlphaFold «нейронной сетью, основанной на внимании», способной динамически передавать информацию по мере обучения в течение нескольких недель на широком спектре известных белковых структур. Как сказал Джампер Роджеру: «Мы видим, что по мере того, как нейронная сеть начинает узнавать, какие части белка расположены близко, она способна по существу установить связь для передачи информации между различными фрагментами аминокислот. Таким образом, „внимание“ означает, что в некотором смысле каждая часть белка обслуживает или взаимодействует с другими частями белка, которые, по мнению сети, могут быть близки. Итак, вы видите, что сеть накапливает знания о структуре белка, а затем использует их, чтобы узнать еще больше о том, как он сворачивается»[215].
В 2020 г. CASP измерил точность прогнозов AlphaFold с точки зрения процента аминокислот на пороговом расстоянии от правильного положения, известного как тест глобального расстояния, и Alpha-Fold достиг медианного значения 92,4 (идеальное соответствие – 100). Используя другой показатель (среднеквадратичное отклонение всех аминокислотных остатков от их экспериментально установленных положений), AlphaFold сообщил о впечатляюще маленькой средней ошибке, составляющей примерно 1,6 ангстрем, что сравнимо с шириной атома (0,1 нм) (рис. 23).
К лету 2021 г. AlphaFold предсказала структуру почти всего человеческого набора белков, или протеома (98,5 % полного набора человеческих белков), а также почти полных протеомов различных других организмов, от мышей и плодовых мушек до рыбы-зебры и малярийного паразита[216]. Эти около 350 000 белковых структур, созданных всего за 48 ч, были обнародованы Европейской лабораторией молекулярной биологии и Европейским институтом биоинформатики в Хинкстоне, Великобритания. Демис Хассабис из DeepMind заявил, что это открытие ознаменовало самый большой на сегодняшний день вклад ИИ в науку, поскольку в июле 2022 г. число предсказаний достигло 200 миллионов структур, охватывающих известную белковую вселенную[217]. Наличие надежного метода прогнозирования трехмерных структур белков, несомненно, ускорит темпы исследований в области структурной молекулярной биологии.
Рисунок 23. Как визуализировать точность предсказаний AlphaFold: вот «матрицы расстояний» для трех белков, где яркость каждого пикселя представляет собой расстояние между аминокислотами в последовательности, составляющей белок – чем ярче пиксель, тем ближе пара. В верхнем ряду показаны реальные, экспериментально определенные расстояния, а в нижнем – среднее значение прогнозируемых распределений расстояний AlphaFold, которые с ними хорошо совпадают (DeepMind)
Когда появилась статья с описанием методов и исходного кода AlphaFold, команда из Вашингтонского университета в Сиэтле опубликовала подробности RoseTTAFold, еще одной программы прогнозирования сворачивания белков. Вдохновленная AlphaFold, RoseTTAFold приблизилась к точности своей алгоритмической музы[218]. Тот факт, что два разных подхода к машинному обучению показали такой успех в структурной биологии, обнадеживает, но мы все еще должны быть уверены, что можем доверять этим данным – их необходимо проверить и подтвердить, особенно когда речь идет об активных центрах в белках, где связывание происходит с другими молекулами, например, с теми, которые используются в качестве лекарств.
Однако AlphaFold предоставляет структуры только для определенного конформационного состояния, то есть одну статическую структуру, которая может лучше соответствовать целевой. Цель обычно выделяют с помощью рентгеновской кристаллографии в искусственных условиях, и она вполне может не представлять собой биологически значимые конформации, в отличие от структур, измеренных с помощью ЯМР, который создает более динамичный и реалистичный ансамбль структур.
Есть и другие нюансы. Структуры, предсказанные ИИ, необходимо расширить, включив в них целевые молекулы, используемые для открытия лекарств, чтобы помочь создать лекарства следующего поколения, а экспериментально определенные структуры по-прежнему будут очень необходимы, в том числе, в частности, для выявления с помощью криоэлектронной микроскопии работы больших молекулярных машин. Более того, как отметил Пол Уоркман из Института исследования рака в Лондоне, AlphaFold не справляется с «неупорядоченными» областями, которые составляют от 37 до 50 % человеческих белков, хотя иметь возможность их идентифицировать очень полезно[219].
Однако есть и более серьезный недостаток. Нам еще предстоит вся работа, направленная на открытие науки – основные аспекты биологии, химии и физики – того, как и почему белки сворачиваются. «AlphaFold окажет большое влияние на открытие новых лекарств, – заключает Уоркман, – но нет никаких сомнений в том, что после ранних стадий, на которых AlphaFold будет иметь максимальный эффект, еще многое предстоит сделать для открытия и разработки лекарств, где точная трехмерная структура белка мало чем полезна»[220].