Sztuczna inteligencja u progu wielkiej rewolucji w medycynie i naukach biologicznych
AlphaFold, sieć sztucznej inteligencji zbudowana w oparciu o słynny DeepMind dokonała olbrzymiego kroku w kierunku poradzenia sobie z jednym z najpoważniejszych wyzwań nauk biologicznych – określeniem kształtu białek z sekwencji ich aminokwasów. To zmieni medycynę, zmieni bioinżynierię. Zmieni wszystko, mówi Andrei Lupas, biolog ewolucyjny z Instytutu Biologii Rozwojowej im. Maxa Plancka w Tybindze, który oceniał możliwości podobnych programów. Lupas dobrze zna AlphaFold. Program pomógł określić mu strukturę białka, z którym jego laboratorium nie mogło sobie poradzić od dekady.
Możliwość określenia prawidłowej struktury białek pozwoli zarówno na lepsze zrozumienie życia, jak i na szybsze opracowywanie supernowoczesnych leków. Obecnie znamy 200 milionów białek, ale w pełni rozumiemy strukturę i funkcję niewielkiego ułamka z nich. Jednak nawet opisanie tej niewielkiej liczby dobrze poznanych białek zajęło nauce wiele lat, a do ich badań konieczny był wyspecjalizowany sprzęt warty miliony dolarów.
AlphaFold pokonał około 100 innych programów, które wraz z nim stanęły do zawodów CASP (Critical Assesment of Structure Prediction). Zawody odbywają się co dwa lata, a AlphaFold wystartował w nich po raz pierwszy w 2018 roku i od razu trafił na szczyt klasyfikacji. Jednak w tym roku jego możliwości zaskoczyły specjalistów. Nie dość, że znacząco wyprzedził konkurencję, to jego osiągnięcia były tak imponujące, iż mogą zwiastować rewolucję w biologii.
W niektórych przypadkach wyniki uzyskane za pomocą AlphaFold nie różniły się niczym od tych osiąganych za pomocą metod eksperymentalnych stanowiących złoty standard, takich jak krystalografia rentgenowska czy mikroskopia krioelektronowa. Naukowcy mówią, że AlphaFold nie zastąpi – przynajmniej na razie – tych metod, ale już teraz pozwoli na badanie struktur biologicznych w zupełnie nowy sposób.
Białka to podstawowe budulce organizmów żywych. Odpowiedzialne są za większość procesów zachodzących w komórkach. O tym, jak działają i co robią, decyduje ich struktura 3D. Odpowiedni kształt przyjmują one bez żadnej instrukcji, kierowane jedynie prawami fizyki.
Od dziesięcioleci główną metodą określania kształtów białek były metody eksperymentalne. Badania tego problemu rozpoczęto w latach 50. ubiegłego wieku korzystając z metod krystalografii rentgenowskiej. W ostatniej dekadzie preferowanym narzędziem badawczym stała się mikroskopia krioelektronowa.
W latach 80. i 90. zaczęto prace nad wykorzystaniem komputerów do określania kształtu protein. Jednak nie szło to zbyt dobrze. Metody, które sprawdzały się przy jednych białkach nie zdawały egzaminu przy badaniu innych. John Moult, biolog obliczeniowy z University of Maryland, wraz z kolegami wpadł na pomysł zorganizowania CASP, zawodów, które miały uporządkować prace nad wykorzystaniem komputerów do badania kształtów białek. W ramach tych zawodów przed zespołami naukowymi stawia się zadanie określenia właściwej struktury protein, których to struktura została wcześniej określona metodami eksperymentalnymi, ale wyniki tych badań nie zostały jeszcze upublicznione.
Moult mówi, że eksperyment ten – uczony unika słowa „zawody” – znakomicie przysłużył się badaniom na tym polu, pozwolił na uporządkowanie metod i odrzucenie wielu nieprawdziwych twierdzeń. Tutaj naprawdę możemy przekonać się, która metoda jest obiecująca, która działa, a którą należy odrzucić, stwierdza.
W 2018 roku na CASP13 po raz pierwszy pojawił się AlphaFold. To algorytm sztucznej inteligencji bazujący na słynnym DeepMind, który pokonał mistrza go Lee Sedola, przełamując kolejną ważną barierę dla sztucznej inteligencji.
Już w 2018 roku AlphaFold zyskał sobie uznanie specjalistów. Jednak wówczas korzystał z bardzo podobnych technik, co inne programy. Najpierw wykorzystywał metody głębokiego uczenia się oraz dane strukturalne i genetyczne do określenia odległości pomiędzy parami aminokwasów w proteinie, a następnie – już bez użycia SI – wypracowywał „konsensus” dotyczący ostatecznego wyglądu proteiny. Twórcy AlphaFolda próbowali to udoskonalać korzystając z takiego właśnie modelu, ale natrafili na przeszkody nie do pokonania.
Zmienili więc taktykę i stworzyli sieć sztucznej inteligencji, która wykorzystywała też informacje o fizycznych i geometrycznych ograniczeniach w zawijaniu białek. Ponadto nowy model zamiast przewidywać zależności pomiędzy poszczególnymi aminokwasami miał do zrobienia coś znacznie trudniejszego – przewidzieć ostateczny kształt białka.
CASP trwa kilka miesięcy. Biorące w nim udział zespoły regularnie otrzymują niezbędne informacje o proteinach lub ich fragmentach – w sumie jest ich około 100 – i mają określić ich strukturę. Wyniki pracy tych zespołów oceniają niezależni eksperci, którzy sprawdzają, na ile wyniki uzyskane na komputerach są zgodne z rzeczywistą strukturą białek określoną wcześniej metodami eksperymentalnymi. Oceniający nie wiedzą, czyją pracę oceniają. Wyniki są anonimizowane. Dane z AlphaFold były w bieżącym roku opisane jako „grupa 427”. Jednak niektóre z przewidywań dostarczonych przez tę grupę były tak dokładne, że wielu sędziów domyśliło się, kto jest autorem pracy. Zgadłem, że to AlphaFold. Większość zgadła, mówi Lupas.
AlphaFold nie sprawował się równo. Raz radził sobie lepiej, raz gorzej. Ale niemal 2/3 jego przewidywań dorównywało wynikom uzyskanym metodami eksperymentalnymi. Czasami nie było wiadomo, czy różnica wynika z niedoskonałości AlphaFold czy metod eksperymentalnych. Jak mówi Moult, największą różnicę pomiędzy AlphaFold a metodami eksperymentalnymi było widać, gdy rzeczywisty wygląd proteiny określano za pomocą rezonansu jądrowego. Jednak różnica ta może wynikać ze sposobu obróbki surowych danych uzyskanych tą metodą. AlphaFold słabo sobie radził też w określaniu indywidualnych struktur w grupach protein, gdzie kształt białka mógł być zaburzany obecnością innego białka.
Ogólnie rzecz biorąc średnia wydajność modeli biorących udział w tegorocznym CASP była lepsza niż przed dwoma laty, a za większość postępu odpowiadał AlphaFold. Na przykład tam, gdzie proteiny określano jako średnio trudne najlepsze modele uzyskiwały 75 na 100 możliwych punktów, a AlphaFold uzyskał tam 90 punktów. Przekroczenie granicy 90 punktów uznaje się za dorównanie metodom eksperymentalnym.
Mohammed AlQuraishi, biolog obliczeniowy z Columbia University, który też brał udział w CASP chwali osiągnięcie AlphaFold: myślę, że trzeba uczciwie powiedzieć, iż osiągnięcie to wstrząśnie dziedziną badania struktur białek. Sądzę, że wielu specjalistów przestanie się tym zajmować, gdyż główny problem został rozwiązany. To olbrzymi przełom, jedno z najważniejszych osiągnięć naukowych, jakie widziałem w swoim życiu.
O tym, jak wielkie możliwości ma AlphaFold i jak olbrzymia rewolucja może nadchodzić niech świadczy przykład badań, jakie prowadził zespół Andreia Lupasa. Niemcy od dawna próbowali określić strukturę białka pewnej bakterii. Za pomocą krystalografii rentgenowskiej uzyskali surowe dane, jednak ich przełożenie na odpowiednią strukturę wymagało pewnych informacji o kształcie proteiny. Wszelkie próby rozwiązania zagadnienia spaliły na panewce. Spędziliśmy dekadę próbując wszystkiego. Model opracowany przez group 427 dostarczył nam tę strukturę w ciągu pół godziny, mówi Lupas.
Demis Hassabis, współzałożyciel i szef firmy DeepMind, która obecnie należy do Google'a, mówi, że jego firma dopiero zaczyna rozumieć, czego biolodzy chcą od AlphaFold.
AlphaFold już zresztą przydaje się w praktyce. Na początku 2020 roku algorytm opisał strukturę kilku białek wirusa SARS-CoV-2. Później okazało się, że przewidywania dotyczące białka Orf3a zgadzają się z wynikami uzyskanymi eksperymentalnie.
Rozpowszechnienie się AlphaFold raczej nie doprowadzi do zamknięcia laboratoriów. Jednak dzięki niemu do określenia struktury protein wystarczą gorszej jakości, a więc i łatwiejsze do uzyskania, dane. Możemy się też spodziewać olbrzymiej liczby odkryć, gdyż już w tej chwili dysponujemy olbrzymią liczbą danych, które program będzie mógł wykorzystać. Dodatkową korzyścią jest fakt, że będzie można prowadzić bardziej zaawansowane badania. Nowa generacja biologów molekularnych będzie mogła zadać bardziej złożone pytania. Będą mogli skupić się bardziej na myśleniu niż na prowadzeniu eksperymentów, mówi Lupas.
Naukowcy mają nadzieję, że dzięki AlphaFold poznamy funkcje tysięcy białek tworzących ludzkie DNA, a to z kolei pozwoli nam poznać przyczyny wielu chorób.
Komentarze (18)
Paradokser, 1 grudnia 2020, 09:31
A to z kolei pozwoli nam poznać wiele nowych chorób. Radujmy się...
Flaku, 1 grudnia 2020, 09:44
Z lepszego zrozumienia rzeczywistości trzeba się cieszyć. Poznanie nowych chorób to też pożyteczna wiedza.
radar, 1 grudnia 2020, 10:19
Raczej... na razie.
Można się wkurzyć... a jednocześnie zastanowić nad sensem prowadzenia takich prac w dalszym ciągu?
Ciekawe, że gdy teraz Alpha(x) dość dobrze radzi sobie z tym estymatami, jak dalece będą mogli go jeszcze ulepszyć?
... a jak dodamy do tego ten wielki procesor do sieci neuronowych opisywany ostatnio?
okragly, 1 grudnia 2020, 10:56
chciałbym żeby moim lekarzem była sztuczna inteligencja, zamiast sprowadzać lekarzy za granicy, czego nie skorzystać z takiej możliwości, przynajmniej dla zainteresowanych.
Flaku, 1 grudnia 2020, 13:50
Nie da się wprost zastąpić całkowicie eksperymentu przez AI. AI potrzebuje danych, a te mogą pochodzić jedynie z eksperymentów. Przewaga jest gdzie indziej, w rozpoznawaniu wzorców, czyli gdy mamy już sporą ilość wyników eksperymentów opierających się o jakąś cechę, AI jest w stanie przewidzieć wynik kolejnego, o ile nie dzieje się tam nic jeszcze nieznanego charakterystycznego tylko dla tego eksperymentu. Eksperyment zawsze będzie potrzebny aby iść dalej gdy dotrzemy do granic możliwości poznanych wzorców. Nikt jednak nie mówi, że AI nie może sama planować i przeprowadzać eksperymentów.
radar, 1 grudnia 2020, 16:17
Więc jak? Niby się nie wyklucza, ale dla naukowców jakby trochę tak
Kikkhull, 2 grudnia 2020, 00:03
A gdzie tu sztuczna inteligencja. Wykonuje tylko obliczenia, zgodnie z programem. Inteligentne to będzie, gdy przestanie liczyć i zacznie samo grać w szachy.
radar, 2 grudnia 2020, 01:43
Raczej
, np. z nudów,
I n-ty raz pytanie o definicję inteligencji, a może człowiek też tylko wykonuje obliczenia zgodnie z programem?
peceed, 2 grudnia 2020, 10:26
Moja definicja inteligencji brzmiała, że jest to zdolność tworzenia i wykorzystywania modeli.
Nie ma "a może", bo każdy system fizyczny może być utożsamiany z pewnym programem, w zależności od przyjętego opisu o korzystającym z różnych modeli obliczeń.
tempik, 2 grudnia 2020, 18:28
Tworzenie modeli ściśle łącz się z wiedzą, a ta nie jest wymagana przez inteligencję, oczywiście jest z nią w symbiozie.
Moja definicja wykluta na twojej brzmi, że inteligencja jest to zdolność wyboru właściwego modelu, swojego czy nie, nie ma znaczenia. Studiując na renomowanych uczelniach, zdobywając wiedzę, nie zwiększa się swojej inteligencji. Jej poziom wydaje mi się że jest stały (do początków starzenia mózgu oczywiście)
peceed, 2 grudnia 2020, 19:11
Jasne, najpierw nie wiemy czym jest inteligencja a potem wiemy czego wymaga.
Niektórzy sprowadzają inteligencję do rozpoznawania wzorców, otóż wzorzec widziany w danych jest modelem tych danych. Przed tym nie ma ucieczki, za to można rozróżniać jakość modeli. Czy są one niskopoziomowe, czy też muszą rozważać uwzględniać abstrakcyjną wiedzę.
A jaki model jest właściwy? Do tego wybór modelu jest wykorzystywaniem modeli, a na dodatek tworzeniem modelu wyrzszego poziomu.
radar, 3 grudnia 2020, 00:09
A mi tam się ta definicja podoba, bo nawet jeśli wybór modelu jest wykorzystywaniem/tworzeniem modeli, to definicja wyżej dalej ma zastosowanie, bo zauważ, że zawiera założenie wyboru "własnego modelu", czyli jak rozumiem wytworzonego przed siebie. Natomiast nie do końca zgadzam się z tym:
bo może w niewielkim stopniu, ale jednak zdobywając wiedzę (a raczej doświadczenie) możemy uczyć nasz mózg pracy w inny sposób. Weźmy chociażby te wszystkie zagadki logiczne, które widziane choć raz wcześniej następnym razem są "logiczne". Oczywiście jest to dość osobnicze i ograniczone pewnie jakimś delta V (prędkość przystosowywania mózgu do rozpoznawania innych modeli/wzorców, dla niektórych ludzi = 0 ). Czyli IMHO, zdobywanie wiedzy o wzorcach/modelach zwiększa jednak inteligencję. Ograniczeniem na delta V jest czas i fizjologia, nie da się pracować/uczyć 24/7. Pytanie czy doniesienia o tym, że "najwięksi naukowcy" z reguły potrzebowali tylko do 3h snu na dobę nie ma właśnie na to wpływu?
peceed, 3 grudnia 2020, 16:01
Ciężko uciec od analogi z sieciami neuronowymi, podstawowe 2 procesy ich wykorzystania to trening i inferencja (czyli używanie).
Inteligencję połączyłbym w większym stopniu z jakością procesów uczenia.
W przypadku mózgu pewne obwody trenują inne, i na pewno dochodzi do sytuacji, w której mózg uczy się lepiej uczyć, do tego na pewno można mózg wytrenować aby lepiej myślał (logicznie).
Kiedy już rozbijemy działanie mózgu na elementarne procesy o różnej jakości, nikt już nie będzie się pytał o precyzyjną definicję słowa inteligencja. Zdolność do tworzenia i wykorzystywania modeli jest bardzo ogólna ale ciężko o coś lepszego, bo wykorzystanie modeli to również rozwiązywanie problemów z ich użyciem.
Bardzo ważną umiejętnością jest stawiane dobrych pytań. Na niskim poziomie jest to umiejętność odnajdywania słabych punktów naszych modeli i ich "ekonomicnego" rozszerzania.
radar, 4 grudnia 2020, 10:30
No tak, odpowiednio dobre i szybkie backpropagation. Mnie interesuje bardzo skąd mózg "wie", że po usłyszeniu frazy listen carefully, I shall say this only once ma wzmocnić akurat te połączenia między neuronami, które zostaną pobudzone tym co nastąpi? Nie mówiąc już o wszelkich zaburzenia postrzegania, wypieraniu traumatycznych wydarzeń czy chorobie dwubiegunowej, schozofremii etc. Jeszcze długa droga przed nami chyba.
peceed, 6 grudnia 2020, 10:43
Skąd taki pomysł? Po usłyszeniu takiej frazy koncentrujemy się w większym stopniu na wypowiedzi, tzn. blokujemy poboczne aktywności mózgu. Zapamiętuje się zawsze, cały czas, a przy większym skupieniu mamy lepszy stosunek "sygnału" do szumu.
radar, 9 grudnia 2020, 00:38
Ok, ale to na jedno wychodzi, parafrazując, skąd mózg "wie" jak "koncentrować się w większym stopniu" ?
Dodatkowo, może nawet istotniejsze, skąd mózg wie co zapamiętać "bardziej" bez tej frazy? Które szlaki pamięciowe wzmocnić, a które nie? J/w np. wypieranie traumatycznych wydarzeń?
peceed, 9 grudnia 2020, 01:55
Mózg dezaktywuje wszystkie obszary stowarzyszone z traumami/szokiem/lękiem, niekoniecznie związane z przechowywaniem wspomnień ale też z ich reprezentacją. Nie ma tam wzmacniania, a odłączanie. Nie ma to nic wspólnego z zapominaniem, to są zbyt doniosłe zdarzenia aby je zapominać.
Po prostu się nauczył.
radar, 10 grudnia 2020, 00:44
No tak, ja właśnie pytam o to "po prostu"