Катедра по екология и еволюция, Университет в Лозана, Лозана, Швейцария, Швейцарски институт по биоинформатика, Лозана, Швейцария

тъканната

Катедра по екология и еволюция, Университет в Лозана, Лозана, Швейцария, Швейцарски институт по биоинформатика, Лозана, Швейцария

  • Надежда Крючкова-Мостачи,
  • Марк Робинсън-Рехави
  • Публикувано: 28 декември 2016 г.
  • https://doi.org/10.1371/journal.pcbi.1005274
  • >> Вижте препринта

Фигури

Резюме

Резюме на автора

От конкретни примери се приема от сравнителни биолози, че един и същ ген при различните видове има една и съща функция, докато дублирането на ген в един вид, за да се създадат няколко копия, им позволява да придобият различни функции. И все пак този модел доскоро беше малко тестван и след това се оказа по-труден от очакваното за потвърждение. Един от проблемите е определянето на „функция“ по начин, който лесно може да бъде проучен. Въвеждаме нов начин за разглеждане на функцията: доколко специфична е активността („експресията“) на ген? Гените, които са специфични за определени тъкани, имат функции, свързани с тези тъкани, докато гените, които са широко активни в много или всички тъкани, имат по-общи функции за организма. Установяваме, че тази „тъканна специфичност“ се развива много бавно при липса на дублиране, докато веднага след дублирането новото генно копие се различава. Това показва, че наистина дублирането води до силно увеличаване на развитието на нови функции.

Цитат: Kryuchkova-Mostacci N, Robinson-Rechavi M (2016) Тъканната специфичност на генната експресия Бавно се различава между ортолозите и бързо между паралозите. PLoS Comput Biol 12 (12): e1005274. https://doi.org/10.1371/journal.pcbi.1005274

Редактор: Христос А. Узунис, Център за изследвания и технологии-Елада, ГЪРЦИЯ

Получено: 5 август 2016 г .; Прието: 26 ноември 2016 г .; Публикувано: 28 декември 2016 г.

Наличност на данни: Данните са достъпни от Figshare на DOI: 10.6084/m9.figshare.3493010.v2.

Финансиране: Тази работа е финансирана от Швейцарската национална научна фондация (SNF 31003A_153341) и Etat de Vaud. Финансистите не са играли роля в дизайна на проучването, събирането и анализа на данни, решението за публикуване или подготовката на ръкописа.

Конкуриращи се интереси: Авторите са декларирали, че не съществуват конкуриращи се интереси.

Въведение

Предположението на ортолога се използва широко за прехвърляне на анотиране между гени, например в ново секвенирани геноми. Но е трудно да се установи дали и колко ортолози имат повече подобни функции от паралозите [1,2]. Най-широко приетият модел е, че ортолозите се разминават по-бавно и че генерирането на паралози чрез дублиране води до силно разминаване и дори промяна на функцията. Очаква се също така, че като цяло хомолозите се различават функционално с времето. Тестът на тези хипотези поставя основни въпроси на молекулярната еволюция, относно скоростта на функционална еволюция и ролята на дублиранията и е от съществено значение за използването на хомолози в анотациите на генома.

Изненадващо, има няколко проучвания, които не съобщават за разлика между ортолози и паралози, или дори обратното, че паралозите биха били по-функционално сходни от ортолозите. Тестовете на предположението на ортолога, използвайки еволюция на последователността, не откриха разлика след видообразуване или дублиране в положителна селекция [3], нито в аминокиселинни отмествания [4]. Дебатът наистина беше стартиран от Nehrt et al. [5], който съобщава в широкомащабно проучване, базирано на сходство на нивата на експресия и анализ на генната онтология (GO) при хора и мишки, че паралозите са по-добри предсказатели на функцията от ортолозите. Трябва да се отбележи, че методологическите аспекти на GO анализа на това изследване бяха критикувани от няколко други автори [6,7]. Използвайки много подобен GO анализ, но коригиращ пристрастия в данните, от 13 бактериални и еукариотни вида, Altenhoff et al. [8] установи повече функционално сходство между ортолозите, отколкото между паралозите въз основа на GO анотационен анализ, но разликите бяха много малки.

Ранното сравнение на експресионните профили на ортолози при хора и мишки съобщава, че те са много различни, близки до паралози и дори до случайни двойки [9]. Допълнителни проучвания, следващи Nehrt et al. [5], намери малко или никакви доказателства за предположението на ортолога в данните за изразяване. Рогозин и др. [10] съобщава, че ортолозите са по-сходни, отколкото между видовите паралози, но по-малко сходни, отколкото в рамките на видовите паралози въз основа на корелациите между RNA-seq профилите на експресия при човек и мишка. Wu et al. [11] установи само малка разлика между ортолозите и паралозите. Паралозите са значително по-функционално сходни от ортолозите, но чрез класифициране в подтипове те съобщават, че ортолозите един към един са най-функционално сходни. Анализът беше направен на нивото на функцията, като се разгледа сходството на експресионната мрежа при човек, мишка, муха и червей.

По този начин, докато балансът на доказателствата изглежда тежи към потвърждаване на предположението на ортолога, функционалните данни досега не са успели силно да ги подкрепят или обезсилят. Дори резултатите, които подкрепят предположението за ортолог, често го правят с доста малки разлики между ортолозите и паралозите [8,10]. И все пак данните за експресията особено трябва да имат потенциала да разрешат този проблем, тъй като осигуряват функционални доказателства за много гени по един и същи начин за видовете, без установените пристрастия на GO анотациите или други колекции от данни в малък мащаб. Част от проблема е, че връзката между нивата на експресия и генната функция не е пряка, което прави неясно какъв биологичен сигнал се сравнява в корелациите на тези нива. Друг проблем е, че сравнението на различни набори от транскриптоми между видове страда от отклонения, въведени от повсеместни гени [19] или периодични ефекти [20].

В нашия анализ сме се концентрирали върху тъканната специфичност на експресията. Тъканната специфичност показва в колко тъкани се експресира ген и дали има големи разлики в нивото на експресия между тях. Той отразява функционалността на гена: ако генът се експресира в много тъкани, тогава той е „домакинство“ и има функция, необходима в много органи и клетъчни типове; специфичните за тъканите гени имат по-специфични роли и тъканно коригирани функции. Последните резултати показват, че тъканната специфичност е запазена между човешки и миши ортолози и че е функционално информативна [21]. Освен това тъканната специфичност може да бъде изчислена по сравним начин в различни набори от данни за животни без забележими пристрастия, стига да са представени поне 6 тъкани, включително за предпочитане тестиси, нервна система и пропорционално не твърде много части от един и същи орган (напр. Не много части на мозъка).

Има ли големи разлики между развитието на тъканната специфичност след дублиране (паралози) или без дублиране (ортолози)? Ние анализираме съхраняването на ортолози един към един и вътрешни видове паралози с еволюционно време, като използваме RNA-seq набори от данни от 12 вида.

Резултати

Сравнихме ортолози между 12 вида: човек, шимпанзе, горила, макак, мишка, плъх, крава, опосум, птицечовка, пиле, жаба и плодова муха. Като цяло бяха използвани 7 различни RNA-seq набора от данни, включително 6 до 27 тъкани (вж. Материали и методи). Бяха извършени три сравнения с най-големите набори като фокусни данни: 27 човешки тъкани от Fagerberg et al., 16 човешки тъкани от Bodymap и 22 тъкани от миши ENCODE [22–24]. За всички анализи използвахме тъканната специфичност на експресията, както е описано в Материали и методи.

Първият забележителен резултат е, че тъканната специфичност е силно корелирана между ортолозите "един към един". Корелациите между човек и четири други вида са представени на фигура 1А за илюстрация. Това потвърждава и разширява нашето предишно наблюдение [21], което се основава на един набор от данни за човек и един мишка. Корелацията на тъканната специфичност варира между 0,74 и 0,89 при тетраподите и все още е 0,43 между човека и мухата, 0,38 между мишката и мухата. Последното е въпреки много големите разлики в анатомията и вземането на проби от тъкани между видовете в сравнение, показващо колко запазена тъканна специфичност може да бъде в еволюцията.

Pearson корелация на тъканната специфичност между а) ортолози и б) паралози. а) Човешки ортолог срещу един към един ортолог при друг вид; б) най-силно изразеният паралог спрямо най-слабо изразения паралог при човека, за различни дати на дублиране.

Корелацията между ортолозите намалява с времето на дивергенция (Фиг. 2). Спадът е линеен. Експоненциалният модел не е значително по-добър: ANOVA не е значително по-добър за модела с log10 на времето, отколкото за нетрансформираното време за всеки набор от данни (p> 0,0137, q> 1%). Тенденцията не е причинена от точката с по-далечни полети: при премахването й все още има значително намаляване на корелацията за ортолозите (вж. Фиг. S1). Резултатите също са стабилни при използването на Spearman вместо Pearson корелация между стойностите на тъканната специфичност.

Корелация на Пиърсън на тъканната специфичност, фокусираща се върху а) човек и б) мишка. Оста X, време на разминаване в милиони години между гените в сравнение; Оста Y, корелация на Пиърсън между стойностите на τ върху гените. В червено, корелацията на ортолозите между фокусните видове и други видове; представителни видове са отбелязани над фигурата; има няколко точки, когато има няколко набора от данни за един и същи вид, напр. четири за мишка (Таблица 1); размерът на червените кръгове е пропорционален на броя на тъканите, използвани за изчисляване на тъканната специфичност. В синьо, корелацията на паралозите във фокусните видове, според датата на дублиране; представителни таксономични групи за тази датировка са отбелязани под фигурата; размерът на сините кръгове е пропорционален на броя на гените в паралогичната група.

Корелацията между паралоги в рамките на видовете е значително по-ниска, отколкото между ортолозите (ANOVA p Фиг. 3. Разпределение на тъканната специфичност в паралозите в сравнение с извънгрупния ортолог.

За всяка графика паралозите от дадена филогенетична възраст се сравняват с най-близкия недублиран ортолог извън групата; по този начин тези паралози са "in-paralogs" спрямо възела на видовете и и двете са "съвместни ортолози" към външната група. Оста X, τ на дублиран ортолог. Оста Y, τ на паралоги. Сините точки са стойности за паралога с най-висок максимален израз на двойката паралози, оранжевите точки са стойности за другия.

Когато и двата ортолога на двойка са тъканно специфични (τ> 0,8), те най-често се експресират в една и съща тъкан (Фигура 4). Същото се наблюдава, когато и двата паралога са тъканно специфични и са по-млади от дивергенцията на тетраподите. Но за паралозите Euteleostomi и Vertebrata, ако и двата са специфични за тъканите, тогава е толкова вероятно те да бъдат изразени в различните, както в същите тъкани; повечето от тях се очаква да бъдат онологи, т.е. поради дублиране на целия геном. Този анализ е извършен на Brawand et al. (2011) набор от данни, тъй като има най-много организми със същите 6 тъкани. Този резултат не се променя след отстраняване на тестиса (фиг. Q на фиг. S1), нито промяна на τ прага от 0,8 до 0,3 (фиг. R-S на фиг. S1). Също така след отстраняване на всички специфични за тъканите гени (τ> 0,8), разликата между ортолозите и паралозите е по-малка, но остава значителна (ANOVA p = 0,001) (Фиг. Т на S1 Фиг.).

Всяка лента представлява броя на генните двойки от даден тип за дадена филогенетична възраст, за които и двата гена на двойката са тъканно специфични (τ> 0,8). В тъмен цвят, броят на генните двойки, специфични за една и съща тъкан; в светъл цвят, броят на генните двойки, специфични за различни тъкани. Ортолозите са в червено, в левия панел, паралозите са в синьо, в десния панел; забележете, че скалите са различни за ортолозите и за паралозите. Ортолозите са едно към едно ортолози на човека и паралозите са вътревидови паралози при човека. Общите пропорции на двойки в една и съща или различни тъкани са посочени за ортолози и паралози; освен това за паралозите е посочен и делът за двойки, по-млади от разминаването на тетраподите (дублиране на целия геном).

Дискусия

Нашите резултати показват, че повечето гени имат запазена тъканна специфичност между видовете. Това дава силни нови доказателства за еволюционното запазване на моделите на изразяване. Използването на тъканна специфичност вместо стойности на експресия позволява лесно сравнение между видовете, тъй като пристрастията при нормализиране или използването на различни набори от данни имат малък ефект върху резултатите [21]. Всички наши резултати бяха потвърдени с помощта на три различни набора от данни за фокус, от човек или мишка, и по този начин изглеждат доста стабилни.

Запазването на експресионната тъканна специфичност на протеинови кодиращи гени, което намираме, е високо дори за доста отдалечени едно към едно ортолози: корелацията на Пиърсън между τ при човек или мишка и τ при жаба е R = 0,74 (съответно R = 0,66) над 361 Моята дивергенция. Дори между муха и бозайници е повече от 0,38. Освен това тази тъканна специфичност може лесно да се сравни в големи масиви от данни, без да се избира ограничен набор от хомоложни тъкани (напр. В [7,13]). Корелацията между ортолозите е най-силна за последните спецификации и намалява линейно с времето на дивергенция. Това намаление показва, че сме в състояние да открием силен еволюционен сигнал в тъканната специфичност, което не винаги е било очевидно при функционални сравнения на ортолози (напр. [5,8]).

Цялостното запазване на тъканната специфичност може да се дължи на подмножество гени и най-вече свързаните с пола гени. Всъщност най-големият набор от тъкан-специфични гени са специфични за тестисите [21]. За да проверим влиянието на свързаните с пола гени, извършихме всички анализи без данни за експресия на тестисите или без гени, картографирани в половите хромозоми. След премахване на експресията на тестисите от всички набори от данни корелацията между паралозите не се променя значително, докато между ортолозите става значително по-слаба. По-ниската корелация на ортолозите предполага, че специфичните за тестиса гени са запазени между видовете и тъй като те представляват висок дял от тъканно специфични гени, те допринасят силно за корелацията. Премахването на гени, разположени в половата хромозома, не променя значително резултатите. След отстраняване на експресията на тестисите разликите в запазването на тъканната специфичност между ортолозите и паралозите остават значителни. Като цяло изглежда, че тъканната специфичност, изчислена с тестисите, представлява истински биологичен сигнал и като се има предвид нейния голям ефект е важно тази тъкан да се включи в анализите.

Като цяло паралозите са по-специфични за тъканите и имат по-ниски нива на експресия. Това може да се обясни, ако вездесъщите гени са по-малко склонни към дублиране или задържане на дубликати. И все пак не наблюдаваме никакво пристрастие в ортолозите на дубликати към по-специфични за тъканите гени (Фиг. 3; виж също S1 Фиг.). С времето и двата паралога стават по-широко изразени (фиг. 1 и фиг. P на фиг. S1). В редкия случай, когато и двата паралога са специфични за тъканите, малките млади паралози се експресират в една и съща тъкан, докато старите паралози (онологи) в целия геном се експресират в различни тъкани (Фигура 4). С наличните данни не можем да разграничим ефектите от паралогичната възраст и механизма на дублиране, тъй като много стари паралози се дължат на дублиране на цели геноми при гръбначни животни, докато това не важи за младите паралози. В много случаи по-високо изразеният паралог има сходна тъканна специфичност с родовото състояние, докато по-ниско изразеният паралог е по-специфичен за тъканите (Фигура 3).

Проучихме генната специфичност, без да вземем предвид алтернативното сплайсинг или възможността различни транскрипти да се експресират в различни тъкани, тъй като все още е трудно да се нарече експресия на ниво транскрипт надеждно [29]. Това вероятно няма да промени основните ни наблюдения, че тъканната специфичност се запазва сред ортолозите, разминава се с еволюционното време и следва предположенията на ортолога. Трябва да се отбележи, че последните резултати не подкрепят важна роля на алтернативното снаждане за разлики в транскрипцията между тъканите [30,31].

Използвахме тъканна специфичност, за да оценим запазването на функцията, а не анотации на генната онтология или нива на експресия. Ние вярваме, че този показател е по-малко склонен към систематични грешки, независимо дали пристрастия към анотирането за генната онтология, или правилно нормализиране между наборите от данни и избор на няколко тъкани за нива на експресия. Нашите резултати потвърждават ортологичната гипотеза за данни, които са общогеномни и функционално значими: ортолозите са по-сходни, отколкото вътрешните паралоги. Нещо повече, ортолозите се различават монотонно с времето, както се очаква. Напротив, дори младите паралози показват големи разлики.

Материали и методи

За анализа са използвани данни от RNA-seq от 12 вида (човек, горила, шимпанзе, макак, мишка, утконос, опосум, пиле, горила, крава, жаба, плъх и плодова муха). Възстановихме всички набори от данни за RNA-seq на животни, които обхващат поне 6 възрастни тъкани и бяха или предварително обработени в Bgee [32], или предоставихме предварително обработени данни от публикацията, към юни 2015 г. За хора, мишки и пилета използвахме няколко набора от данни. Всички набори от данни със съответния брой тъкани са обобщени в таблица 1. Броят на гените, използвани за анализа, е в таблица А и В в таблица S1.