Sztuczna inteligencja u progu wielkiej rewolucji w medycynie i naukach biologicznych

| Technologia
DeepMind

AlphaFold, sieć sztucznej inteligencji zbudowana w oparciu o słynny DeepMind dokonała olbrzymiego kroku w kierunku poradzenia sobie z jednym z najpoważniejszych wyzwań nauk biologicznych – określeniem kształtu białek z sekwencji ich aminokwasów. To zmieni medycynę, zmieni bioinżynierię. Zmieni wszystko, mówi Andrei Lupas, biolog ewolucyjny z Instytutu Biologii Rozwojowej im. Maxa Plancka w Tybindze, który oceniał możliwości podobnych programów. Lupas dobrze zna AlphaFold. Program pomógł określić mu strukturę białka, z którym jego laboratorium nie mogło sobie poradzić od dekady.

Możliwość określenia prawidłowej struktury białek pozwoli zarówno na lepsze zrozumienie życia, jak i na szybsze opracowywanie supernowoczesnych leków. Obecnie znamy 200 milionów białek, ale w pełni rozumiemy strukturę i funkcję niewielkiego ułamka z nich. Jednak nawet opisanie tej niewielkiej liczby dobrze poznanych białek zajęło nauce wiele lat, a do ich badań konieczny był wyspecjalizowany sprzęt warty miliony dolarów.

AlphaFold pokonał około 100 innych programów, które wraz z nim stanęły do zawodów CASP (Critical Assesment of Structure Prediction). Zawody odbywają się co dwa lata, a AlphaFold wystartował w nich po raz pierwszy w 2018 roku i od razu trafił na szczyt klasyfikacji. Jednak w tym roku jego możliwości zaskoczyły specjalistów. Nie dość, że znacząco wyprzedził konkurencję, to jego osiągnięcia były tak imponujące, iż mogą zwiastować rewolucję w biologii.

W niektórych przypadkach wyniki uzyskane za pomocą AlphaFold nie różniły się niczym od tych osiąganych za pomocą metod eksperymentalnych stanowiących złoty standard, takich jak krystalografia rentgenowska czy mikroskopia krioelektronowa. Naukowcy mówią, że AlphaFold nie zastąpi – przynajmniej na razie – tych metod, ale już teraz pozwoli na badanie struktur biologicznych w zupełnie nowy sposób.

Białka to podstawowe budulce organizmów żywych. Odpowiedzialne są za większość procesów zachodzących w komórkach. O tym, jak działają i co robią, decyduje ich struktura 3D. Odpowiedni kształt przyjmują one bez żadnej instrukcji, kierowane jedynie prawami fizyki.

Od dziesięcioleci główną metodą określania kształtów białek były metody eksperymentalne. Badania tego problemu rozpoczęto w latach 50. ubiegłego wieku korzystając z metod krystalografii rentgenowskiej. W ostatniej dekadzie preferowanym narzędziem badawczym stała się mikroskopia krioelektronowa.

W latach 80. i 90. zaczęto prace nad wykorzystaniem komputerów do określania kształtu protein. Jednak nie szło to zbyt dobrze. Metody, które sprawdzały się przy jednych białkach nie zdawały egzaminu przy badaniu innych. John Moult, biolog obliczeniowy z University of Maryland, wraz z kolegami wpadł na pomysł zorganizowania CASP, zawodów, które miały uporządkować prace nad wykorzystaniem komputerów do badania kształtów białek. W ramach tych zawodów przed zespołami naukowymi stawia się zadanie określenia właściwej struktury protein, których to struktura została wcześniej określona metodami eksperymentalnymi, ale wyniki tych badań nie zostały jeszcze upublicznione.

Moult mówi, że eksperyment ten – uczony unika słowa „zawody” – znakomicie przysłużył się badaniom na tym polu, pozwolił na uporządkowanie metod i odrzucenie wielu nieprawdziwych twierdzeń. Tutaj naprawdę możemy przekonać się, która metoda jest obiecująca, która działa, a którą należy odrzucić, stwierdza.

W 2018 roku na CASP13 po raz pierwszy pojawił się AlphaFold. To algorytm sztucznej inteligencji bazujący na słynnym DeepMind, który pokonał mistrza go Lee Sedola, przełamując kolejną ważną barierę dla sztucznej inteligencji.

Już w 2018 roku AlphaFold zyskał sobie uznanie specjalistów. Jednak wówczas korzystał z bardzo podobnych technik, co inne programy. Najpierw wykorzystywał metody głębokiego uczenia się oraz dane strukturalne i genetyczne do określenia odległości pomiędzy parami aminokwasów w proteinie, a następnie – już bez użycia SI – wypracowywał „konsensus” dotyczący ostatecznego wyglądu proteiny. Twórcy AlphaFolda próbowali to udoskonalać korzystając z takiego właśnie modelu, ale natrafili na przeszkody nie do pokonania.

Zmienili więc taktykę i stworzyli sieć sztucznej inteligencji, która wykorzystywała też informacje o fizycznych i geometrycznych ograniczeniach w zawijaniu białek. Ponadto nowy model zamiast przewidywać zależności pomiędzy poszczególnymi aminokwasami miał do zrobienia coś znacznie trudniejszego – przewidzieć ostateczny kształt białka.

CASP trwa kilka miesięcy. Biorące w nim udział zespoły regularnie otrzymują niezbędne informacje o proteinach lub ich fragmentach – w sumie jest ich około 100 – i mają określić ich strukturę. Wyniki pracy tych zespołów oceniają niezależni eksperci, którzy sprawdzają, na ile wyniki uzyskane na komputerach są zgodne z rzeczywistą strukturą białek określoną wcześniej metodami eksperymentalnymi. Oceniający nie wiedzą, czyją pracę oceniają. Wyniki są anonimizowane. Dane z AlphaFold były w bieżącym roku opisane jako „grupa 427”. Jednak niektóre z przewidywań dostarczonych przez tę grupę były tak dokładne, że wielu sędziów domyśliło się, kto jest autorem pracy. Zgadłem, że to AlphaFold. Większość zgadła, mówi Lupas.

AlphaFold nie sprawował się równo. Raz radził sobie lepiej, raz gorzej. Ale niemal 2/3 jego przewidywań dorównywało wynikom uzyskanym metodami eksperymentalnymi. Czasami nie było wiadomo, czy różnica wynika z niedoskonałości AlphaFold czy metod eksperymentalnych. Jak mówi Moult, największą różnicę pomiędzy AlphaFold a metodami eksperymentalnymi było widać, gdy rzeczywisty wygląd proteiny określano za pomocą rezonansu jądrowego. Jednak różnica ta może wynikać ze sposobu obróbki surowych danych uzyskanych tą metodą. AlphaFold słabo sobie radził też w określaniu indywidualnych struktur w grupach protein, gdzie kształt białka mógł być zaburzany obecnością innego białka.

Ogólnie rzecz biorąc średnia wydajność modeli biorących udział w tegorocznym CASP była lepsza niż przed dwoma laty, a za większość postępu odpowiadał AlphaFold. Na przykład tam, gdzie proteiny określano jako średnio trudne najlepsze modele uzyskiwały 75 na 100 możliwych punktów, a AlphaFold uzyskał tam 90 punktów. Przekroczenie granicy 90 punktów uznaje się za dorównanie metodom eksperymentalnym.

Mohammed AlQuraishi, biolog obliczeniowy z Columbia University, który też brał udział w CASP chwali osiągnięcie AlphaFold: myślę, że trzeba uczciwie powiedzieć, iż osiągnięcie to wstrząśnie dziedziną badania struktur białek. Sądzę, że wielu specjalistów przestanie się tym zajmować, gdyż główny problem został rozwiązany. To olbrzymi przełom, jedno z najważniejszych osiągnięć naukowych, jakie widziałem w swoim życiu.

O tym, jak wielkie możliwości ma AlphaFold i jak olbrzymia rewolucja może nadchodzić niech świadczy przykład badań, jakie prowadził zespół Andreia Lupasa. Niemcy od dawna próbowali określić strukturę białka pewnej bakterii. Za pomocą krystalografii rentgenowskiej uzyskali surowe dane, jednak ich przełożenie na odpowiednią strukturę wymagało pewnych informacji o kształcie proteiny. Wszelkie próby rozwiązania zagadnienia spaliły na panewce. Spędziliśmy dekadę próbując wszystkiego. Model opracowany przez group 427 dostarczył nam tę strukturę w ciągu pół godziny, mówi Lupas.

Demis Hassabis, współzałożyciel i szef firmy DeepMind, która obecnie należy do Google'a, mówi, że jego firma dopiero zaczyna rozumieć, czego biolodzy chcą od AlphaFold.

AlphaFold już zresztą przydaje się w praktyce. Na początku 2020 roku algorytm opisał strukturę kilku białek wirusa SARS-CoV-2. Później okazało się, że przewidywania dotyczące białka Orf3a zgadzają się z wynikami uzyskanymi eksperymentalnie.

Rozpowszechnienie się AlphaFold raczej nie doprowadzi do zamknięcia laboratoriów. Jednak dzięki niemu do określenia struktury protein wystarczą gorszej jakości, a więc i łatwiejsze do uzyskania, dane. Możemy się też spodziewać olbrzymiej liczby odkryć, gdyż już w tej chwili dysponujemy olbrzymią liczbą danych, które program będzie mógł wykorzystać. Dodatkową korzyścią jest fakt, że będzie można prowadzić bardziej zaawansowane badania. Nowa generacja biologów molekularnych będzie mogła zadać bardziej złożone pytania. Będą mogli skupić się bardziej na myśleniu niż na prowadzeniu eksperymentów, mówi Lupas.

Naukowcy mają nadzieję, że dzięki AlphaFold poznamy funkcje tysięcy białek tworzących ludzkie DNA, a to z kolei pozwoli nam poznać przyczyny wielu chorób.

AlphaFold białko proteina sztuczna inteligencja