Белки — важная составляющая каждой клетки живых организмов. В организме человека они выполняют множество функций. Отвечают за работу мышц, рост и восстановление тканей и волос. Белок гемоглобин транспортирует кислород через кровь, а белок инсулин контролирует уровень сахара в крови. Антитела, которые выделяют клетки иммунной системы для борьбы с вирусами — это тоже белки.
Белки состоят из аминокислот, которые выстраиваются в цепочку, а затем сворачиваются в сложные трехмерные структуры. Этот процесс называется фолдингом или укладкой белка. И от того, в какую форму в итоге свернется белок, зависят его свойства и функции в организме. В начале 1970-х нобелевский лауреат биохимик Кристиан Анфинсен предположил, что последовательность аминокислот белка должна полностью определять его конечную структуру.
На практике все оказалось не так просто. Вычислить аминокислотный состав белка — это только полдела. А вот предсказать, в какую структуру сложится белок с определенной последовательностью аминокислот, намного сложнее. Все потому, что количество способов, которыми он может сворачиваться, является астрономическим.
Проблема предсказания структуры белков стала одной из важнейших задач науки. Десятилетиями для этого применяли такие лабораторные методы, как рентгеновская кристаллография, ядерный магнитный резонанс или криоэлектронная микроскопия. Это дорогой, сложный и, главное, длительный процесс, на который уходят месяцы и даже годы. В итоге на сегодня удалось установить 3D-структуры примерно 170 тысяч белков из около 200 миллионов, известных науке.
От компьютерных технологий здесь тоже помощи немного. Расшифровать математически структуру родственных белков по шаблону еще возможно. Однако для того, чтобы предсказать «с нуля» структуру неизвестного белка, особенно с длинной последовательностью аминокислот, вычислительных возможностей не хватает.
Ученые организовали «белковую олимпиаду», чтобы ускорить прогресс. С 1994 года раз в два года проводится конкурс CASP — Critical Assessment of Рrotein Structure Prediction (Критическая оценка предсказания структуры белков). На ней результаты команд, которые используют компьютерные алгоритмы, сравнивают с результатами, полученными «классическими» лабораторными методами структурной биологии.
Долгое время величина совпадения компьютерных и лабораторных результатов Global Distance Test (GDT) не поднималась выше 20—40 баллов из 100 возможных.
На помощь пришел искусственный интеллект. Британская компания DeepMind уже десять лет занимается исследованиями в области искусственного интеллекта. Ее программы уже успешно соревновались с людьми в шахматах и го, а также в компьютерных играх Starcraft II и Atari.
В 2018 году DeepMind представила свою нейросеть AlphaFold для участия в конкурсе CASP. И уже тогда превзошла другие компьютерные проекты, показав результат около 60 баллов GDT. К конкурсу 2020 года исследователи «скормили» AlphaFold данные 170 тысяч расшифрованных структур белков. На обучение ушло несколько недель при работе на эквиваленте от 100 до 200 графических процессоров — по современным меркам это средняя вычислительная мощность.
По итогам конкурса оказалось, что новая версия AlphaFold превосходит по своей точности не только другие компьютерные программы, но и лабораторные измерения. В среднем за все проанализированные белки нейросеть DeepMind получила 92,5 балла из 100. Для сравнения, 90 баллов получали самые лучшие лабораторные методы. Даже прогнозирование структуры самых сложных белков AlphaFold удалось на 87 баллов. А на рассчеты у нейросети уходит от нескольких часов до нескольких минут.
Это важнейший прорыв для медицины и биологии. Моделирование свертывания белков — ключевая задача для исследования того, как болезни распространяются и влияют на организм человека. Понимание этого процесса может позволить блокировать распространение инфекции в организме или исправлять ошибки в свертывании, которые приводят к разным расстройствам вроде болезни Альцгеймера. Это может помочь гораздо быстрее разрабатывать новые лекарства и понять, как лучше применять существующие препараты для лечения новых вирусов и болезней.
Нейросеть уже помогла предсказать несколько самых «опасных» белковых структур вируса SARS-CoV-2. Это белок ORF3a, который помогает изменить среду внутри зараженной клетки и запускает воспаление — один из наиболее опасных симптомов COVID-19. И ORF8 — этот белок блокирует сигналы, которые инфицированная клетка посылает иммунной системе. Кроме того, он блокирует специфические внутриклеточные противовирусные белки, на которые нацелены вирусы полиомиелита и гриппа.
Если бы этот прорыв случился хотя бы на год раньше, то это помогло бы создать вакцину от коронавируса намного быстрее. Теперь же исследователи считают, что нейросеть AlphaFold поможет справиться с будущими пандемиями.