1 Катедра по приложни устни науки, Институт Форсайт, Кеймбридж, Масачузетс 02142, САЩ

извличане

Резюме

1. Въведение

Кувейтското детско проучване е мащабно проучване, насочено към оценка на етиологията на затлъстяването и развитието на метаболитен синдром при над 8 000 кувейтски деца [1, 2]. Той има масивно събиране на данни, включително антропометрични и клинични характеристики, диетично изследване и молекулярно профилиране на биомаркери на слюнчените протеини, метаболити, както и микроби. Подобно на друго събиране на сложни набори от данни със стотици променливи в мащабни кохортни проучвания, става предизвикателство да се намерят асоциации между ковариати и фенотипове [3]. Подходът за параметрично моделиране, основан на предварително формулирана хипотеза, е ограничаващ, тъй като не е в състояние да обработва едновременно голям брой ковариати и да търси ефективно непредвидени асоциации.

Алтернативен подход към конвенционалния анализ, управляван от хипотези, е извличането на данни, което е процес, управляван от данни за откриване на нови взаимоотношения в големи количества данни, без никакви априори хипотеза [4]. Алгоритмите за извличане на данни са непараметрични, което прави приложимостта им към различни видове данни, чиито различни характеристики могат да бъдат настроени от различни алгоритми. Те са в състояние да се справят с голям брой променливи и понякога откриват не само ковариати със силен основен ефект, но и такива със значителни ефекти на взаимодействие, но минимални основни ефекти, което може да не е възможно при конвенционален модел. Обикновено те могат да се справят със сложни взаимоотношения между ковариатите и резултата, като отчитат нелинейната асоциация по различни начини. Освен това, забележителна черта в този тип подход е процедурата за кръстосано валидиране, която се занимава с въпроса за обобщаването на моделите по пробите и избягва пренастройването, често срещан проблем при параметричното моделиране.

Настоящото проучване се фокусира върху набора от данни за биомаркер на слюнчените протеини, който е произволно избрана кохорта, получена от целия набор от данни [1]. Развитието на затлъстяване при деца увеличава риска от развитие на сърдечно-съдови заболявания (ССЗ), диабет тип 2 и други хронични заболявания в по-късна възраст, които до голяма степен се медиират от адипокини и цитокини, освободени от мастната тъкан [5, 6]. Следователно проучванията на биомаркери ни дават възможност да добием представа за етиологията на свързаните със затлъстяването заболявания, особено пътищата, водещи до различни патологии. Някои предишни проучвания изследваха връзката между тези фактори и свързаните със затлъстяването състояния при юноши, главно чрез проучвания за асоциация с моделиране, основано на хипотези, използвайки предварително уточнени променливи [7]. Нашето проучване използва подход, основан на данни, за да идентифицира ключови биомаркери на слюнката, свързани със затлъстяването. Приложихме четири алгоритми към нашия набор от данни: логистична регресия чрез ласо регулиране (Lasso) [8], многовариантна адаптивна регресивна сплайн (MARS) [9], случайни гори (RF) [10] и усилване на класификационни дървета (BT) [11].

2. Материали и методи

2.1. Източник на данни

Наборът от данни беше случайна кохорта от 744 субекта, избрани от цялата популация (н = 8137) от проучване за деца в Кувейт, което е взело всички антропометрични и клинични мерки, както и проби от слюнка, събрани между 2 октомври 2011 г. и 15 май 2012 г. [1, 2]. Тестовете за биомаркер бяха проведени върху проби от слюнка от произволна кохорта, използвайки платформа за мултиплексни топчета (Luminex® 200, Austin, TX). Измерените биомаркери на слюнката включват инсулин, С-реактивен протеин (CRP), адипонектин, лептин, IL-1β, IL-4, IL-6, IL-8, IL-10, IL-12P70, IL-13, IL-17A, резистин, MMP_9, MPO, MCP-1, TNF-α, VEGF-A, IFN-γ, и грелин, от които IL-17A, IFN-γ, и грелин не бяха включени в анализа поради значителна част от липсващи стойности. Освен това 18 проби с екстремни стойности при измервания бяха изключени от последващ анализ въз основа на неправомерното им влияние в първоначалния модел на регресия. Стойностите на биомаркерите бяха стандартизирани преди анализа. Фитнесът се измерва чрез повишаване на сърдечната честота след стандартно упражнение [1] и след това се бинаризира, използвайки средната стойност от първоначалната популация на изследването.

И двете изходни мерки за затлъстяване бяха трансформирани в бинарни мерки. Затлъстяването се определя като наличие на ИТМ (OBWHO) или обиколка на талията (OBW) в 95-ия персентил или по-висок в рамките на възрастовата и полова група [12].

2.2. Алгоритми за извличане на данни за избор на променлива
2.3. Агрегиране на променлив ранг списък

За да се получи консенсус от тези четири алгоритма, беше създадено агрегирано подреждане на ранговете чрез среднопретеглената средна стойност на индивидуалното класиране на всяка променлива, с класификационна ефективност на модела, генерирал класирането му като коефициент на тежест. По този начин, за променлива j, нейният агрегиран ранг

се изразява като

, където i обозначава модела, ω теглото на модела i както е дефинирано от AUC, и неговия ранг в модела i. Междувременно, ако една променлива е избрана от поне три алгоритма, тя се счита за победител в мнозинството гласове.

2.4. Оценка на ефективността на класификацията и анализ на клъстерирането

За да се оцени ефективността на класификацията на подмножествата на променливи от най-висок ранг в агрегираното подреждане на ранговете, ROC анализът е проведен с помощта на функцията за анализ на биомаркери на онлайн изчерпателен набор от инструменти MetaboAnalyst [14]. Получен е 95% доверителен интервал за ROC кривата от повторно вземане на проби от персенти на bootstrap [15].

Извършен е клъстеризиращ анализ въз основа на вътрешните разстояния в случайни гори, достъпни от Salford Predictive Modeler v7.0 [13]. Тази мярка за близост е частта от наличните дървета, при които двойка субекти са се приземили на същия терминален възел от общия брой дървета. Обработката на многомерно мащабиране (MDS) на матрицата за пълна близост генерира MDS дисплей на разстоянието между всички точки от данни, което предоставя доказателства за групиране.

3. Резултати

3.1. Идентифициране на фактори, свързани със затлъстяването, дефинирани от обиколката на талията или ИТМ

Стойността на границата от 0,20 беше използвана за избор на важни фактори от списъка с променлива важност. За OBW бяха идентифицирани 5 фактора с ласо (инсулин, CRP, фитнес, адипонектин и лептин), 6 с MARS (CRP, инсулин, адипонектин, фитнес, VEGF и лептин), 3 с RF (CRP, инсулин и лептин ) и 5 ​​с BT (CRP, инсулин, адипонектин, лептин и фитнес), от които инсулин, CRP и лептин са избрани от всичките четири алгоритма, докато адипонектин и фитнес от три алгоритма (Таблица 1). Що се отнася до OBWHO, 4 фактора бяха идентифицирани с ласо (инсулин, CRP, адипонектин и фитнес), 6 с MARS (CRP, инсулин, адипонектин, пол, VEGF и фитнес), 3 с RF (CRP, инсулин и адипонектин) и 3 с BT (CRP, инсулин и адипонектин), от които CRP, инсулин и адипонектин са избрани от всички за алгоритми (Таблица 1). За отбелязване е, че лептинът, маркер, идентифициран от всички методи за OBW, не е избран по никакъв метод за OBWHO. По отношение на класификационното представяне на моделите, генерирали индивидуалното класиране на променливите, MARS (AUC = 0,837 и 0,853, съответно) е с най-добър резултат, докато lasso е най-малко стабилен (AUC = 0,787 и 0,816, съответно).

Променливи с относителна значимост ≥ 20%.

Фигура 1 илюстрира разпределението на агрегираното класиране на всички променливи, изчислено чрез осредняване на подреждането на ранговете от всички рангови списъци, претеглено от класификационната ефективност на моделите, от които е получено индивидуалното класиране на променливите. Както беше показано, най-високо класираните фактори за OBW бяха CRP, инсулин, адипонектин, последвани от лептин и фитнес, всички от които бяха избрани от повечето алгоритми, както е посочено в червено. За OBWHO, от друга страна, най-добрите бяха CRP, инсулин и адипонектин, избрани от всички алгоритми. Лептинът, най-добрата функция за OBW, се класира на 10-то място за OBWHO.

3.2. Подмножество на най-високо класираните променливи, оценени по класификация

От агрегирания ранг списък, подмножество от променливи с най-висок рейтинг, които са получили мнозинство гласове (т.е. идентифицирани от поне три алгоритма), са използвани за оценка на тяхното класифициране, с машина за поддръжка на вектори (SVM) [8] като класификатор, като се използва AUC от ROC анализ като метричен тест. За OBW бяха тествани топ 5 фактори с мнозинство гласове (CRP, инсулин, адипонектин, лептин и фитнес), постигайки AUC от 0,808 (95% CI: 0,751–0,856) (Фигура 2 (а)). За OBWHO бяха тествани топ 3 фактора с мнозинство (CRP, инсулин и адипонектин), постигайки AUC от 0,82 (95% CI: 0,782–0,862) (Фигура 2 (b)).


3.3. Групиране на субекти със затлъстяване въз основа на биомаркерите на слюнката и клиничните мерки

Графиката на MDS, генерирана от измерванията за близост, базирани на дървета, базирани на биомаркери и други ковариати, показва групиране на затлъстелите субекти както за OBW, така и за OBWHO (Фигура 3). На фигура 3 (а) обектите със затлъстяване, дефинирани от обиколката на талията (сини точки), бяха групирани предимно в горния десен ъгъл, докато немобилните обекти бяха разпръснати навсякъде, с изключение на малка подгрупа от лявата страна. За OBWHO обаче моделът беше съвсем различен (Фигура 3 (b)). Затлъстелите бяха групирани в подобен на ивица регион отдясно, докато тези с подобен модел вляво, като някои части от двете се припокриват в средата.

4. Дискусия

Четири метода за извличане на данни, логистична регресия чрез ласо регулиране (Lasso), многовариантна адаптивна регресивна сплайн (MARS), произволна гора (RF) и усилване на класификационни дървета (BT), идентифицираха различни набори от слюнчени маркери и други характеристики, свързани със затлъстяването, всеки генериране на подреждане на ранговете на избрани променливи според тяхната относителна важност. Използвахме идеята на ансамбъла за избор на характеристики [16, 17], за да изградим обобщена класация, насочена към получаване на по-стабилна подмножина, чрез усредняване на класирането от отделни алгоритми, претеглено от класификационната ефективност на съответните модели, които произвеждат класирането. В резултат на това CRP, инсулин, адипонектин, лептин и фитнес се появиха като най-високите фактори, идентифицирани с поне три алгоритма за OBW, докато CRP, инсулин и адипонектин бяха тези за OBWHO. И накрая, горното подмножество на променливите беше оценено чрез тяхната класификация по фенотипове.

Изборът на променливи е процес, търсещ подмножество от най-добри характеристики. В зависимост от стратегиите, използвани за запазване на съответните функции, различните учебни алгоритми могат да се окажат с подмножества функции, които са различни локални оптимуми на цялото пространство за търсене. По този начин, чрез комбиниране на подмножества от множество методи, бихме могли да успеем да разширим пространството за търсене и да дадем по-стабилна подгрупа от функции, за да постигнем по-добра обобщаемост [16]. Ние възприехме тази идея за ансамбъл за избор на характеристики, създавайки комбинирано подреждане на ранговете чрез линейно агрегиране, при което изпълнението на моделите, генериращи индивидуално класиране, е имало влияние върху крайното класиране. Наскоро беше разработен друг инструмент за избор на елементи, вдъхновен от идеята за ансамбъл, интегриращ осем метода за избор на елементи [18]. За отбелязване е, че този подход включва три едномерни метода и пет многомерни метода, от които четири са вариации от две различни реализации на произволен горски алгоритъм. Вярваме, че може да се спечели определено предимство, ако ансамблов подход включва отчетливо различни многовариантни методи, използвани в нашето проучване.