Ето урок за това как да анализирате данните за метабаркодиране на ДНК, получени на секвенсори Illumina, като използвате:

базирана

  • OBITools
  • някои основни команди на Unix

Данните, използвани в този урок, съответстват на анализа на четири вълчи пъпки, използвайки протокола, публикуван в Shehzad et al. (2012) за оценка на диетата на месоядни животни. След извличане на ДНК от фекалиите, ДНК амплификациите бяха извършени с помощта на праймерите TTAGATACCCCACTATGC и TAGAACAGGCTCCTCTAG, усилващи региона 12S-V5 (Riaz et al. 2011), заедно с вълк, блокиращ олигонуклеотид.

Пълният набор от данни можете да изтеглите от тук: набор от уроци

Винаги е добра идея да разгледате междинните резултати или да оцените най-добрия параметър за всяка стъпка. Някои команди са предназначени за тази цел, например можете да използвате:

Данни

Данните, необходими за стартиране на урока, са следните:

fastq файлове, получени от GA IIx (Illumina) сдвоен край (2 x 108 bp) анализ на секвениране на ДНК, извлечена и усилена от четири вълчи фекалии:

файлът, описващ праймерите и маркерите, използвани за всички пробни последователности:

  • wolf_diet_ngsfilter.txt Таговете съответстват на кратки и специфични последователности, добавени в 5 ’края на всеки буквар, за да се разграничат различните проби

файлът, съдържащ референтната база данни във формат fasta:

  • db_v05_r117.fasta Тази референтна база данни е извлечена от версия 117 на EMBL с помощта на ecoPCR

таксономията на NCBI, форматирана във формат ecoPCR (за подробности вижте помощната програма obiconvert):

  • embl_r117.ndx
  • embl_r117.rdx
  • embl_r117.tdx

Анализ стъпка по стъпка

Възстановяване на пълни последователни четения от напред и назад частични четения

Когато се използва резултатът от анализ на секвениране на сдвоени краища с предполагаемо припокриващо се четене напред и назад, първата стъпка е да се възстанови сглобената последователност.

Четенето напред и назад на един и същ фрагмент са на една и съща позиция в двата файла fastq, получени след секвениране. Въз основа на тези два файла, сглобяването на четене напред и назад се извършва с помощната програма illuminapairedend, която подравнява двете четения и връща реконструираната последователност.

В нашия случай командата е:

Опцията --score-min позволява изхвърляне на последователности с ниско качество на подравняване. Ако резултатът от подравняването е под 40, четенето напред и назад не се подравняват, а се обединяват и стойността на атрибута mode в заглавката на последователността е настроена да се присъединява вместо подравняване

Премахване на неподравнени записи на последователността

Несравнени последователности (режим = присъединени) не могат да се използват. Следната команда позволява да ги премахнете от набора от данни:

-P изисква питонов израз. mode! = "присъединен" означава, че ако стойността на атрибута mode е различна от присъединената, съответният запис на последователност ще бъде запазен.

Първият запис на последователност на wolf.ali.fastq може да бъде получен чрез следния команден ред:

И резултатът е:

Задайте всеки запис на последователност на съответната комбинация проба/маркер В¶

Всеки запис на последователност се присвоява на съответната проба и маркер, като се използват данните, предоставени в текстов файл (тук wolf_diet_ngsfilter.txt). Този текстов файл съдържа по един ред на проба, с името на експеримента (няколко експеримента могат да бъдат включени в един и същ файл), името на маркерите (например: aattaac, ако е използван един и същ маркер на всеки край на PCR продукти или aattaac: gaagtag, ако маркерите са различни), последователността на праймера, последователността на обратния праймер, буквата T или F за идентификация на пробата, използвайки само праймера и етикета, или използвайки и двата праймера и двата маркера, съответно (вижте ngsfilter за подробности).

Тази команда създава два файла:

  • unidentified.fastq, съдържащ всички записи на последователности, които не са присвоени на комбинация проба/маркер
  • wolf.ali.assigned.fastq, съдържащ всички записи на последователности, които са били правилно присвоени на комбинация проба/маркер

Имайте предвид, че всеки запис на последователност на файла wolf.ali.assigned.fastq съдържа само последователността на баркод, тъй като последователностите на праймерите и таговете се премахват от програмата ngsfilter. Информация за експеримента, проба, праймери и тагове се добавя като атрибути в заглавката на последователността.

Например първият запис на последователност на wolf.ali.assigned.fastq е:

Дерепликация на четения в последователности на uniq¶

Една и съща молекула на ДНК може да бъде секвенирана няколко пъти. За да се намали размерът на файла и времето за изчисления и да се получат по-лесни интерпретируеми резултати, е удобно да се работи с уникални последователности, вместо с четения. За да делиблираме такива четения в уникални последователности, използваме командата obiuniq.

Определение, адаптирано от Seguritan and Rohwer (2001)

За дерепликация използваме командата obiuniq с пробата -m. Опцията -m sample се използва за запазване на информацията за пробите за произход за всяка уникална последователност.

Имайте предвид, че obiuniq връща fasta файл.

Първият запис на последователност на wolf.ali.assigned.uniq.fasta е:

Изпълнението на obiuniq е добавило два записа ключ = стойности в заглавката на последователността fasta:

  • merged_sample =: тази последователност е намерена веднъж в една проба, наречена 29a_F260619
  • count = 1: общият брой за тази последователност е 1

За да запазим само тези два атрибута ключ = стойност, можем да използваме командата obiannotate:

Първите пет записа на последователност на wolf.ali.assigned.uniq.fasta стават:

Отменете набора от данни за последователността В¶

Да има набор от последователности, присвоени на съответните им проби, не означава, че всички последователности имат биологично значение, т.е. някои от тези последователности могат да съдържат PCR и/или грешки в секвенирането или химери. За да премахнем възможно най-много такива последователности, първо изхвърляме редки последователности и след това варианти на последователности, които вероятно съответстват на артефакти.

Вземете статистиката за броя

В този случай използваме obistat, за да получим статистиката за преброяване на атрибута ‘count’ (атрибутът count е добавен от командата obiuniq). Чрез прокарване на резултата в командите Unix за сортиране и хед, ние поддържаме само статистиката на броя за 20-те най-ниски стойности на атрибута ‘count’.

Това отпечатва изхода:

Наборът от данни съдържа 3504 последователности, възникващи само веднъж.

Запазете само последователностите с брой, по-голям или равен на 10 и дължина по-малка от 80 bp В¶

Въз основа на предишното наблюдение, ние зададохме границата за запазване на последователностите за по-нататъшен анализ на брой 10. За да направим това, използваме командата obigrep. Опцията -p 'count> = 10' означава, че броят на изразите на python> = 10 трябва да бъде оценен на True, за да се запази всяка последователност. Въз основа на предишни знания премахваме и последователности с дължина по-малка от 80 bp (опция -l), тъй като знаем, че усиленият баркод 12S-V5 за гръбначни животни трябва да има дължина около 100 bp.

Първият запис на последователност на wolf.ali.assigned.uniq.c10.l80.fasta е:

Почистете последователностите за PCR/грешки в секвенирането (варианти на последователността) ¶

Като последна стъпка за обезшумяване, използвайки програмата obiclean, ние запазваме последователностите на главите (опция -H), които са последователности без варианти с брой, по-голям от 5% от техния собствен брой (опция -r 0,05).

Първият запис на последователност на wolf.ali.assigned.uniq.c10.l80.clean.fasta е:

Таксономично присвояване на последователности

След като е направено обезшумяването, следващата стъпка в анализа на диетата е да се присвоят баркодовете на съответните видове, за да се получи пълният списък на видовете, свързани с всяка проба.

Таксономичното присвояване на последователности изисква референтна база данни, съставяща всички възможни видове, да бъдат идентифицирани в пробата. След това присвояването се извършва въз основа на сравнение на последователността между пробните последователности и референтните последователности.

Изграждане на референтна база данни¶

Един от начините за изграждане на референтната база данни е да се използва програмата ecoPCR за симулиране на PCR и за извличане на всички последователности от EMBL, които могат да бъдат амплифицирани в силиций от двата праймера (TTAGATACCCCACTATGC и TAGAACAGGCTCCTCTAG), използвани за PCR амплификация.

Тогава пълният списък със стъпки за изграждане на тази референтна база данни ще бъде:

  1. Изтеглете целия набор от EMBL последователности (достъпно от: ftp://ftp.ebi.ac.uk/pub/databases/embl/release/)
  2. Изтеглете таксономията на NCBI (достъпна от: ftp://ftp.ncbi.nih.gov/pub/taxonomy/taxdump.tar.gz)
  3. Форматирайте ги във формат ecoPCR (вижте obiconvert за това как можете да създадете съвместими с ecoPCR файлове)
  4. Използвайте ecoPCR, за да симулирате усилване и да изградите референтна база данни, базирана на предполагаемо усилени баркодове, заедно с тяхната записана таксономична информация

Тъй като стъпки 1 и 3 могат да отнемат много време (около един ден), ние вече предоставяме референтната база данни, създадена от следните команди, за да можете да пропуснете нейното изграждане. Имайте предвид, че тъй като базата данни EMBL и таксономичните данни могат да се развиват ежедневно, ако изпълнявате следните команди, може да получите съвсем различни резултати.

Може да се използва всяка помощна програма, позволяваща изтегляне на файлове от ftp сайт. В следващите команди използваме често използваната команда wget Unix.