AI löser gåtan om proteinernas form – efter 50 år

AI löser gåtan om proteinernas form

Artificiell intelligens har löst biologins omöjliga problem och räknar på minuter ut formen på ett protein – något som tar år för forskare att mäta. Det banar väg för nya mediciner, vaccin och ny forskning. DN 2020-12-13.

Text Maria Gunther         Grafik Jenny Alvén

För snart fem år sedan skapade företaget Deepmind rubriker i hela världen när deras program Alphago besegrade Lee Sedol, en av världens bästa spelare i det mer än 3000 år gamla kinesiska spelet Go. Go, som spelas med vita och svarta stenar på ett rutat bräde, har några få, enkla regler, men antalet möjliga kombinationer av stenar på brädet är en etta med 170 nollor efter, eller fler än alla atomer i hela universum.

Spelet Go handlar därför om intuition och mönsterigenkänning snarare än uträkningar, alltså om de undermedvetna processer som vår hjärna är bra på att hantera men som är mycket svårt för datorer att klara av. Ända fram till matchen mellan Sedol och Alphago var en sådan seger nästan som den heliga graalen för utvecklarna av artificiell intelligens.

Nu har Deepmind löst en annan, svårare, och framför allt mycket mer användbar uppgift med artificiell intelligens. Deras program Alphafold 2 har lyckats förutsäga hur proteiner veckas. Här är de möjliga varianterna ännu mer ofattbart många: uppskattningsvis en etta med 300 nollor efter. Genombrottet kommer dessutom att få stora praktiska konsekvenser för forskning och medicinutveckling.

– Det är ett enormt viktigt steg. Att förstå proteinveckning är nyckeln till att förstå proteiner. Det är ett problem som är helt obegripligt för människor, säger Matthew Thompson, forskare vid företaget Enginzyme i Solna.

Proteiner är livets byggstenar. Vårt dna innehåller generna som är ritningen för hur kroppen ska fungera och se ut, och proteinerna omsätter ritningen i praktiken. Ett protein är en kedja av aminosyror, och en gen är en instruktion eller ett recept för hur ett visst protein ska se ut: vilka av tjugo möjliga aminosyror som ska ingå, i vilken ordning de ska sitta och hur lång kedjan ska vara.

Proteinerna gör jobbet i kroppen. De styr kemiska reaktioner, bygger kroppens strukturer och är signalsubstanser, bland annat. Hemoglobin, som binder syre i de röda blodkropparna och färgar blodet rött, keratin, som bygger upp naglar, hår och hudens yttersta lager, och insulin, som påverkar ämnesomsättningen och reglerar blodsockernivån, är några av människokroppens runt 20 000 proteiner.

Det är ganska enkelt att få fram vilken följd av aminosyror ett protein består av. Det har forskarna kunnat göra i decennier. Men det är bara en liten del av sanningen om proteinet. Mycket viktigare är formen, eller den unika tredimensionella struktur som proteinkedjan viks ihop till när aminosyrorna i den påverkar varandra.

– Det finns ett i princip oändligt antal möjliga sätt att vrida och vika ihop ett protein. Så att förutsäga den tredimensionella formen bara utifrån sekvensen av aminosyror är ett i det närmaste omöjligt problem att lösa, säger Matthew Thompson.

Att det ändå borde gå att förutsäga strukturen på proteiner slog kemipristagaren Christian Anfinsen fast i sin Nobelföreläsning 1972. Sedan dess har forskare försökt, utan att lyckas. Istället har de varit helt beroende av röntgenkristallografi och liknande tekniker för att mäta proteinernas form. Det kan vara dyrt och ta flera år, eftersom forskarna behöver prova sig fram, och är inte ens alltid möjligt. Av de fler än 200 miljoner proteiner vi känner till vet vi bara formen på en bråkdel.

Sedan 1994 ordnas CASP, Critical Assessment of Protein Structure Prediction, vartannat år – en tävling mellan datorprogram om att vecka okända proteiner rätt.

– Grupperna får sekvenserna för proteiner vars stukturer ännu inte har publicerats, och ska räkna ut hur de ser ut. Sedan får de en poäng mellan noll och hundra som visar hur bra deras framräknade form stämmer med den verkliga strukturen, säger Matthew Thompson.

Deepmind ställde upp i tävlingen första gången för två år sedan med programmet Alphafold, föregångaren till Alphafold 2. De slog alla de övriga deltagarna, men nådde inte upp till poängen 90, som krävs för att programmet ska vara användbart i praktiken. Det blev också snart uppenbart för utvecklarna på Deepmind att programmet aldrig skulle kunna nå så långt.

De började om från början, och skapade Alphafold 2, som har tränats upp på runt 170.000 kända proteinstrukturer. I årets tävling fick Alphafold 2 ett genomsnittligt resultat på 92,4 i alla deltävlingar, och 87,0 i den allra svåraste kategorin.

– De gjorde i princip rent hus med de övriga lagen, och fungerar nu nästan lika bra som alla direkta mätmetoder, säger Matthew Thompson.

Deepmind hör sedan 2015 till Google. Matthew Thompson tror att det är en av anledningarna till att Alphafold 2 lyckas så mycket bättre än de andra programmen i tävlingen.

– Det beror förmodligen på Googles extremt stora erfarenhet av maskininlärning från reklam. Det är ju i princip så Google tjänar pengar. Kombinationen av den erfarenheten och en massa anställda forskare ger dem både förmåga och intellektuell styrka som är svårt att nå i en vanlig forskargrupp på ett universitet. Så det är en lite orättvis kamp, säger han.

Genombrottet kommer att betyda mycket för många olika forskningsgrenar.

– På kort sikt kommer vi att kunna modellera proteinstrukturer mycket bättre än tidigare. Det är viktigt när vi utvecklar nya mediciner eller för att förstå hur cellerna kommer att reagera på dem. Det kommer också att gå enormt mycket snabbare att lösa problem.

Själv arbetar Matthew Thompson med att bygga om kända proteiner så att de kan användas i kemiindustrin.

– Att ha bra modeller som visar hur proteiner verkligen ser ut kommer att göra det möjligt för oss att förbättra deras egenskaper mycket mer exakt, säger han.

Men det kanske viktigaste med Deepminds bedrift är att det visar att artificiell intelligens och maskininlärning är användbart för att lösa riktigt komplexa problem, menar Matthew Thompson.

– Att kunna omvandla en kedja av bokstäver till hur ett protein ser ut och vad det gör är en så hög nivå av komplexitet. Det indikerar att det verkligen går att lösa sådana problem. Och inte bara att det går att lösa dem, utan att det är den bästa tillgängliga metoden för att lösa dem, säger han.

Deepmind har sagt att de kommer att göra koden till Alphafold 2 tillgänglig för alla.

– Om de håller löftet och släpper koden kommer vi definitivt att titta på den. Folk kommer att kunna använda den till att lösa många andra problem, och bygga vidare på den. Jag gissar att vi får se väldigt många coola saker framöver, säger Matthew Thompson.

Läs mer:
Nobelpristagaren: ”Pandemin visar hur mycket vi behöver grundforskning”

Kemipristagare föreläste: Gentekniska saxen sofistikerad och enkel teknologi

Amina Manzoor: Nya data ger lugnande besked om vaccin mot covid-19