WGS Extract

12 august 2021 | Instrumente | 0 comentarii

WGS Extract (WGSE) reprezintă o aplicație ce conține o suită de instrumente software create pentru verificarea, analizarea și manipularea rezultatelor testelor Whole Genome Sequencing (WGS). Poate fi folosită cu orice fișier BAM sau CRAM, inclusiv pentru teste Whole Exome Sequencing (WES), dar cu beneficii limitate. Articolul de față a fost scris folosind versiunea Beta ver3 (10 Jul 2021), care este disponibilă pentru Linux, MacOS și Windows 10 și poate fi descărcat de pe WGSExtract.github.io.

 

Principalele instrumente/funcții WGSE

 

  • Comprimarea fișierelor BAM – un fișier BAM ce conțin rezultatele WGS de 30X poate avea o mărime de peste 40 Gb. O idee bună în manipularea rezultatelor WGS poate fi convertirea fișierelor BAM în CRAM, care sunt de aproape 2-3 ori mai mici.
  • Verificarea genomului de referință – rapoartele oferite de companiile care realizează secvențierea întregului genom (WGS) sunt obținute în urma comparării informațiilor din literatura de specialitate asociate unei secvențe genomice de referință cu genomul supus secvențierii/analizei. Mai multe despre versiunile genomice de referință și aici [Link]. De obicei în rapoartele de rezultate se specifică versiunea genomică de referință folosită (ex. GRCh37, GRCh38 etc.), însă poate fi aflată folosind și WGS Extract.
  • Verificarea adâncimii și acoperirii secvențierii – companiile care oferă servicii de secvențiere, despre care am scris și aici [Link], oferă adâncimi predefinite (15X, 30X, 100X, 130X etc), în realitate însă această valoare poate varia per întreg genomul sau per regiune analizată. Cu WGSE utilizatorul poate verifica acest parametru prin analizarea fișierului BAM sau CRAM, mai ales în cazul companiilor care nu oferă informații statistice sau informații tehnice despre procesul de secvențiere în sine.
  • Determinarea haplogrupului cromozomului Y și cel mitocondrial.
  • Exportul de fișiere FASTA/BAM/VCF compatibile cu diverse platforme online – de obicei site-uri care analizează genealogia markerilor genetici de pe cromozomul Y sau cel mitocondrial.
  • Realinierea secvenței genomice la un nou genom de referință – din hs37d5 în hs38d5 sau invers.
  • … și altele.

 

Experiența personală

 

Viteza de executare a WGSE este dependentă de puterea de procesare și spațiul disponibil pe calculatorul folosit. Executarea diverselor instrumente poate dura de la câteva minute, până la câteva zile, în funcție de instrument.

Am testat aproape toate funcțiile aplicației (instrumentele) într-un timp rezonabil de la instalare, însă cea mai mare bătaie de cap mi-a dat-o realinierea secvenței genomului uman personal de la versiunea de referință dată de producător (hs37d5) la una mai nouă (hs38d5). Am reușit să fac asta după trei încercări, în decursul a trei săptămâni.

Pentru aceasta am folosit un laptop cu Windows 10, 16 Gb RAM, 500 Gb SSD gol, Core I5 10TH GEN, pe o secvență genomică cu o adâncime de 31X și o acoperire de 99,77%, compusă din toți cromozomii autozomali, cromozomii heterozomali, ADNmt, secvențe nealiniate și „altele”. Toata realinierea a durat în jur de 90 ore (aproximativ 3-4 zile), cu funcționare aproape continuă (întreruperi de 1-4 ore în timpul transportului pe ruta acasă – birou și invers).

Ideal ar fi ca acest tip de realiniere a genomului uman să fie realizată pe servere care rulează non-stop și cu capacitate și putere mare de procesare. Cum nu aveam niciunul disponibil la vremea respectivă a trebuit să fac unele mici ajustări ca să pot duce la bun sfârșit procesul de realiniere:

  •  folosirea unui laptop cu sistem de economie a bateriei în locul unei stații PC mi s-a părut o idee bună în condițiile date (perioadă de caniculă, în care aveau loc căderi dese ale rețelei de energie electrică. O idee și mai bună ar fi fost să folosesc un desktop PC care să aibă acumulatori UPS (dar, atenție majoritatea nu țin mai mult de 30 min) sau unul conectat la o rețea de curent cu generator de rezervă.
  • evitarea opririi (Shut-down) sau repornirii (Restart) a sistemului de operare, din varia motive. În cazul unei pene de curent prelungite sau, cum a fost cazul meu, a deplasării dintr-un loc în altul, sistemul de operare trebuie să intre în sleep mode, ca procesul de realiniere să fie reluat ori de câte ori este posibil. Procesul durează mult, presupune câteva etape în care se folosesc fișiere temporare de mari dimensiuni, iar dacă este întrerupt trebuie luat de la zero.
  • spațiul pe HDD poate fi o problemă dacă nu iei în calcul faptul că lucrezi cu fișiere mari. Ca regula generală ai nevoie de un spațiu de 4 ori mai mare decât fișierul BAM supus realinierii secvenței genomice. De ex. fișierul BAM al genomului meu aliniat după hs37d5 are 46 Gb. Una din încercări a eșuat datorită spațiului indisponibil pe hard.

Spor la realiniat genomuri!…

0 Comentarii

Lasă un răspuns