Stacks
Stacks
Jedná se o program, který slouží ke zpracování sekvenačních dat. Cílem je assembly lokusů velkého množství jedinců populace a extrakce jejich haplotypů. Primárně se jedná o program pro procesování dat, u kterých se musí provést assembly. Tzn. je to tedy program vhodný pro sekvenační metody, které používají restrikční enzymy. Takovými metodami mohou být [[1]] ddRAD-seq nebo některé GBS protokoly. Optimalizovaný je hlavně pro sekvenátory typu [[2]] nebo Ion Torrent. Program je optimalizován na paired-end ready. Délka readů může být různě veliká, avšak s horním limitem 1024 bp, který je vytvořen pouze pro efektivitu zpracování. Základními nároky na data je, aby byla stejné délky a aby coverrage bylo dostatečně veliké na odvození SNP.
Procesování raw readů
- process_radtags
Demultipexuje a čistí dataset. Odstraňuje ready o nedostatečné kvalitě podle phred score. Pro demultiplex je potřeba dodat seznam indexů a barcodů užitých v poolovém sekvenování. Více o indexování zde
Sestavení referenčního genomu denovo
- ustacks
Provede aligning krátkých readů do celkového stacku. Následně detekuje SNP na lokusech metodou maximum likelihood.
- cstacks
Udělá katalog jednotlivých lokusů z ustacks nebo pstacks. Může zde být specifikováno jaké vzorky do katalogu zahrnout.
- sstacks
Porovná jednotlivé ready se sestaveným katalogem z procesu cstacks a ustacks na základě definované populační mapy jednotlivých vzorků celkového datasetu.
Alignment jednotlivých readů a jejich genotypizace
Provádí se pomocí programu gstacks, který je společný jak pro de novo, tak pro reference alignment. V případě reference alignmentu se jedná o první program tohoto balíčku.
- gstacks
V případě de novo dělá assembly readů do contigu, který zarovná ke konečnému lokusu. Následně provede alignment readů jednotlivých vzorků k tomuto lokusu.
V případě reference jsou jednotlivé ready alignované proti referenčnímu genomu.
V obou případech jsou identifikovány SNP v jednotlivých lokusech a následně jsou tyto lokusy genotypizovány.
Program má dva hlavní výstupní soubory catalog.fa.gz a catalog.calls. První obsahuje konsenzuální sekvenci a druhý genotypová data.
- populations
Poslední program v řadě spočítá základní statistické ůdaje. Mezi tyto ůdaje patří:
- očekávaná/pozorovaná heterozygozita
- π
- FIS
- FST
- ΦST
Další funkce programu je filtrování podle předdefinovaných parametrů. Program podporuje také white-list a black-list pro specifikaci lokosů, které mají být zahrnuté v analýzách.
Aktuální verze
Kontrola aktuální verze:
source /cvmfs/software.metacentrum.cz/modulefiles/5.1.0/loadmodules
Vypíše dostupné verze:
module avail stacks
Výstupní soubory:
- structure - populační struktura
- adegenet - vícerozměrné analýzy
- phylip - fylogeneze