Stacks

Z MetaCentrum
Skočit na navigaci Skočit na vyhledávání

Stacks

Jedná se o program, který slouží ke zpracování sekvenačních dat. Cílem je assembly lokusů velkého množství jedinců populace a extrakce jejich haplotypů. Primárně se jedná o program pro procesování dat, u kterých se musí provést assembly. Tzn. je to tedy program vhodný pro sekvenační metody, které používají restrikční enzymy. Takovými metodami mohou být [[1]] ddRAD-seq nebo některé GBS protokoly. Optimalizovaný je hlavně pro sekvenátory typu [[2]] nebo Ion Torrent. Program je optimalizován na paired-end ready. Délka readů může být různě veliká, avšak s horním limitem 1024 bp, který je vytvořen pouze pro efektivitu zpracování. Základními nároky na data je, aby byla stejné délky a aby coverrage bylo dostatečně veliké na odvození SNP.

Procesování raw readů

- process_radtags

Demultipexuje a čistí dataset. Odstraňuje ready o nedostatečné kvalitě podle phred score. Pro demultiplex je potřeba dodat seznam indexů a barcodů užitých v poolovém sekvenování. Více o indexování zde

Sestavení referenčního genomu denovo

- ustacks

Provede aligning krátkých readů do celkového stacku. Následně detekuje SNP na lokusech metodou maximum likelihood.

- cstacks

Udělá katalog jednotlivých lokusů z ustacks nebo pstacks. Může zde být specifikováno jaké vzorky do katalogu zahrnout.

- sstacks

Porovná jednotlivé ready se sestaveným katalogem z procesu cstacks a ustacks na základě definované populační mapy jednotlivých vzorků celkového datasetu.

Alignment jednotlivých readů a jejich genotypizace

Provádí se pomocí programu gstacks, který je společný jak pro de novo, tak pro reference alignment. V případě reference alignmentu se jedná o první program tohoto balíčku.

- gstacks

V případě de novo dělá assembly readů do contigu, který zarovná ke konečnému lokusu. Následně provede alignment readů jednotlivých vzorků k tomuto lokusu.

V případě reference jsou jednotlivé ready alignované proti referenčnímu genomu.

V obou případech jsou identifikovány SNP v jednotlivých lokusech a následně jsou tyto lokusy genotypizovány.

Program má dva hlavní výstupní soubory catalog.fa.gz a catalog.calls. První obsahuje konsenzuální sekvenci a druhý genotypová data.

- populations

Poslední program v řadě spočítá základní statistické ůdaje. Mezi tyto ůdaje patří:

  • očekávaná/pozorovaná heterozygozita
  • π
  • FIS
  • FST
  • ΦST

Další funkce programu je filtrování podle předdefinovaných parametrů. Program podporuje také white-list a black-list pro specifikaci lokosů, které mají být zahrnuté v analýzách.

Aktuální verze

Kontrola aktuální verze:

source /cvmfs/software.metacentrum.cz/modulefiles/5.1.0/loadmodules

Vypíše dostupné verze:

module avail stacks

Výstupní soubory:

  • structure - populační struktura
  • adegenet - vícerozměrné analýzy
  • phylip - fylogeneze


Dokumentace

https://catchenlab.life.illinois.edu/stacks/manual/