Hrvatski znanstvenici razvili su novu računalnu metodu za ispravljanje pogrešaka u određivanju nepoznatih genoma
Tim znanstvenika iz Centra za informatiku i računarstvo Instituta Ruđer Bošković (IRB), Laboratorija za bioinformatiku i računalnu biologiju Fakulteta elektrotehnike i računarstva (FER) i A*STAR Genome Institute of Singapore (GIS) razvio je novu, brzu i točnu metodu 'Racon' za ispravljanje pogrešaka u sekvenciranim podatcima treće generacije, namijenjenu za primjenu u određivanju nepoznatih genoma.
''Racon je zamišljen kao samostalna komponenta za podizanje točnosti rezultata sastavljanja postojećih brzih i nepreciznih metoda. Rezultati su pokazali kako primjena Racona u ovoj kombinaciji omogućava ubrzanje čak i do nekoliko stotina puta u odnosu na postojeće precizne metode, pri čemu zadržava razinu točnosti istih preciznih metoda.'' – objašnjava dr. sc. Ivan Sović iz Centra za informatiku i računarstvo IRB-a.
Naime, zahvaljujući novoj generaciji uređaja za sekvenciranje genoma, koje su razvile tvrtke Pacific Biosciences i Oxford Nanopore Technologies, a koji čitaju puno dulje fragmente od postojećih tehnologija (do nekoliko stotina tisuća nukleotida) znanstvenici su danas na korak do kvalitetnog i jeftinog određivanja nepoznatih genoma.
Do sada su se u tim situacijama morali koristiti spori i jako skupi postupci zbog kojih je kod većine vrsta očitani genom fragmentiran, a uključuje i nepoznate dijelove. Problem koji se pojavio kod novih tehnologija sekvenciranja je što imaju veću pogrešku. Zbog toga većina postojećih metoda pokušava prvo smanjiti tu pogrešku međusobnim ispravljanjem očitanih fragmenata, no taj pristup dugo traje.
“Usporedno i neovisno s kolegom s Broad Instituta (zajednički institut MIT-a i Harvarda) razmatrali smo ideju da se taj korak pokuša preskočiti. Kolega s Broad Institut je prvi objavio rad u kojem je uspio sastaviti genome tim pristupom, no uspio je dobiti samo grubu procjenu sekvence (točnost do 90%) pri čemu je ta metoda bila i preko 1000 puta brža od prethodnih, što je za dugačke genome biljaka i kralježnjaka važno.” - pojašnjava izv.prof.dr.sc. Šikić te dodaje kako je od presudne važnosti za široku primjenu brzih metoda sastavljanja i potreba za dobivanjem visoke točnosti sastavljenih sekvenci.
Rezultati su pokazali kako primjena Racona omogućava ubrzanje čak i do nekoliko stotina puta u odnosu na postojeće precizne metode, pri čemu zadržava razinu točnosti istih preciznih metoda.
“Pokazali smo da možemo postići točnost koja je barem jednaka onima ostalih metoda (preko 99.9%) dodatnom korekcijom, a ukupno vrijeme izvođenja obiju metoda je do nekoliko stotina puta kraće od ostalih metoda. Smatramo da će ovo imati velik utjecaj na efikasno sastavljanje nepoznatih genoma srednje veličine. Brzo određivanje nepoznatih genoma može imati veliki utjecaj na razvoj biologije, medicine i agronomije.” – zaključuje prof. Šikić.
Problem koji je ostao u ovome području je kako sastaviti one najduže genome na način da ne budu fragmentirani i da nema nedostajućih dijelova. Ostvarenjem toga cilja omogućio bi se pad cijene sastavljanja nepoznatog, dugačkog i kompleksnoga genoma s više od 50 milijuna dolara, koliko je npr. do sada koštalo sastavljanje genoma pšenice (što još uvijek nije do završeno), na svega nekoliko desetaka tisuća dolara.
Rezultate istraživanja znanstvenici Robert Vaser, mag.ing. (FER), dr.sc. Ivan Sović (IRB), dr.sc. Niranjan Nagarajan (GIS), te izv.prof.dr.sc. Mile Šikić (FER, voditelj projekta) objavili su u prestižnom časopisu Genome Research (IF 11.351) pod naslovom 'Fast and accurate de novo genome assembly from long uncorrected reads'.
Važno je napomenuti da je rad znanstvenika s FER-a financiran projektom Hrvatske zaklade za znanost pod naslovom "Algoritmi za analizu genomskih sljedova", dok je rad znanstvenika IRB-a potpomognut od strane Hrvatske akademije znanosti i umjetnosti u sklopu projekta “Metode poravnanja i sastavljanja DNA sekvenci dobivenih sekvenciranjem nanoporama”.