Масштаб этой проблемы обрисовал Сайрус Левинталь, американский молекулярный биолог, который был пионером в компьютерном графическом отображении белковых структур. Он отметил, что для определения вероятных конфигураций типичного белка путем грубого расчета (то есть путем тестирования каждой возможной формы, которую он может принять) потребуется больше времени, чем возраст известной Вселенной. Левинталь подсчитал, что существует 10300
возможных конформаций типичного белка, и почти парадоксально, что клетка может «разработать» функциональную версию гораздо быстрее, чем компьютер. Однако в четвертой главе мы описываем, как ИИ догнал клеточную реальность. Когда дело доходит до виртуального человека, этот подвиг может дать много подсказок (например, когда белки принимают неправильную форму, вызывающую болезнь) и помочь провести виртуальные испытания лекарств для поиска возможных методов лечения.Мы живем в эпоху того, что некоторые называют большими данными. Однако, когда дело касается медицины и биологии, большие данные на самом деле крошечны по сравнению со сложностью клетки, ткани или органа. Более того, у живых существ все эти данные постоянно меняются. Специалисты по данным любят говорить о «трех V»: объем (volume) – количество данных; разнообразие (variety) – сложность данных и источников, из которых они собираются; скорость (velocity) – скорость потока данных и информации. Сегодня скорость, разнообразие и объем данных кажутся ошеломляющими, хотя нам еще очень далеко до того, чтобы охватить всю сложность человеческого тела.
Другие говорят о достоверности (veracity) данных, которая тоже меняется. Большинство традиционных данных являются структурированными, то есть достаточно аккуратными, чтобы их можно было напрямую вставлять в электронные таблицы и базы данных. Представьте себе лабораторный блокнот, в котором в одном столбце указана одна величина, скажем, цвет реагентов в пробирке, а в другом – pH или число потомков в популяции кроликов, выстроенное по времени.
Когда дело доходит до создания виртуального двойника, существуют всевозможные структурированные наборы данных о пациентах, которые собираются регулярно в виде результатов замера температуры, анализов крови и мочи. Генетические данные становятся все более обширными, поскольку стоимость секвенирования нашей ДНК резко упала. На молекулярном уровне существует геометрическая информация о форме участков белков, где взаимодействуют другие молекулы, а также скалярные и векторные поля, используемые математиками и учеными для демонстрации изменяющихся величин – например, концентрации биохимического вещества в клетке. С помощью протеомики можно получить информацию о белках, а с помощью метаболомики – о метаболизме. Несколько рождественских праздников назад Роджер самоотверженно работал с командой Имперского колледжа Лондона над изучением метаболического воздействия похмелья[66]
. Эти страдания, по-видимому, связаны с необычным профилем сахароподобных молекул и спиртов – полиолов, которые играют роль в обезвоживании[67].Но теперь мы вступили в эпоху неструктурированных данных, поскольку Интернет с помощью микрочипа оцифровывает все и вся, от твитов и СМС до сообщений в социальных сетях и загрузок на видеохостингах. По всему миру данные вытекают из датчиков, мобильных телефонов, приложений и вообще всего, что только можно себе представить, поскольку чипы встраиваются в обычные предметы домашнего обихода, от принтеров до холодильников, образуя так называемый интернет вещей.
Смартфоны и другие беспроводные устройства все чаще будут использоваться для сбора данных о пациентах – например, о движении, характере активности, артериальном давлении, частоте сердечных сокращений, исходящих и входящих звонках, использовании клавиатуры и обработке естественного языка – для цифрового фенотипирования, которое, в свою очередь, может использоваться для мониторинга биполярного расстройства, выявления проблем с употреблением алкоголя или распознавания дистресса[68]
. Хотя диагноз психического здоровья когда-то был чисто субъективным, сегодня его можно сделать объективным с помощью огромного количества личных данных об активности и манере речи, тоне и дыхании – от смеха до вздохов.В долгосрочной перспективе, по словам нашей коллеги из UCL Андреа Таунсенд-Николсон, точные и структурированные данные медицинского сообщества будут откалиброваны таким образом, чтобы сравнивать разных людей, в то время как мы будем использовать неструктурированные данные и «журналы жизни» со смартфонов и других устройств для тонкой настройки внешнего вида и поведения виртуального тебя.
Рисунок 9. Подробная анатомическая модель высокого разрешения, созданная на основе данных магнитно-резонансной томографии (IT’IS Foundation)