(Забележка: CCA е специален вид множествена регресия)
По-долу е представена проста, двумерна линейна регресия върху хипотетичен набор от данни. Зелените кръстове са действителните данни, а червените квадрати са „прогнозираните стойности“ или „y-шапки“, както се изчислява от регресионната линия. При регресия с най-малки квадрати сумите на квадратните (вертикални) разстояния между точките от данни и съответните прогнозирани стойности са сведени до минимум.
Въпреки това, ние често се интересуваме да тестваме дали зависимата променлива (y) е свързана Повече ▼ от една независима променлива (напр. x1, x2, x3 ).
Можем да извършим регресии въз основа на следните модели:
у = Я0 + Я1x1 + e
у = Я0 + Я2x2 + e
у = Я0 + Я3x3 + д
И наистина, това обикновено се прави. Възможно е обаче независимите променливи да замъглят ефектите си. Например, масата на животното може да бъде функция както на възрастта, така и на диетата. Възрастният ефект може да замени диетичния ефект, което води до регресия за диетата, която не изглежда много интересна.
Едно от възможните решения е да се извърши регресия с една независима променлива и след това да се провери дали втора независима променлива е свързана с остатъците от тази регресия. Продължавате с трета променлива и т.н. Проблем с това е, че поставяте някои променливи в привилегировани позиции .
Множествената регресия позволява едновременно тестване и моделиране на множество независими променливи. (Забележка: множествената регресия все още не се счита за „мултивариантна“ проверка, защото има само една зависима променлива).
Моделът за множествена регресия приема формата:
у = Я0 + Я1х1 + Я2х2 + Я3х3 + . + д
The б се наричат "коефициенти на регресия". Вместо да монтираме линия към данните, сега ние монтираме равнина (за 2 независими променливи), интервал (за 3 независими променливи) и т.н.
Оценката все още може да се направи съгласно принципите на линейните най-малки квадрати.
Формулите за решение (т.е. намиране на всички бса грозни. Матричното решение обаче е елегантно:
Моделът е: Y. = XЯ + д
Решението е: б = ( х'х) -1 х'Y.
(Вж. Например Draper and Smith 1981)
Както при обикновената регресия, у-прихващането изчезва, ако всички променливи са стандартизирани (вж. статистика) .
ЛИНЕЙНИ КОМБИНАЦИИ
Помислете за модела:
у = Я0 + Я1х1 + Я2х2 + Я3х3 + . + д
От у е комбинация от линейни функции, тя се нарича a линейна комбинация от х'с . Следните модели са не линейни комбинации от х'с:
у = Я0 + Я1 /х1 + Я2х2 2 + д
у = опит (Я0 + Я1х1 + Я2х2 + Я3х3 + д)
Но все пак можете да използвате множествена регресия, ако трансформирате променливи. За първия пример създайте две нови променливи:
x1'= 1 /х1 и х2 '= х2 2
За втория пример вземете логаритъма от двете страни:
дневник (y) = Я0 + Я1х1+ Я2х2 + Я3х3 + д
Има някои модели, които не могат да бъдат "линеаризируеми" и следователно не може да се използва линейна регресия, например:
у = (Я0 - Я1х1)/3х2 + д
Те трябва да бъдат решени с нелинейни техники на регресия. За съжаление е трудно да се намери решение на такива нелинейни уравнения, ако има много параметри.
Ами полиномите?
Забележи, че:
у = брадва 3 + bx 2 + cx + д + д
може да се изрази като:
у = Я0 + Я1х1+ Я2х2 + Я3х3 + д
ако х1 = х 1, х2 = х 2, х3 = х 3
Така че полиномиалната регресия се счита за частен случай на линейна регресия. Това е удобно, защото дори полиномите да не представляват вярно модел, те приемат различни форми и може да са достатъчно близки за различни цели.
Ако имате две променливи, е възможно да използвате полиномиални термини и термини за взаимодействие, за да се поберат в повърхността на отговора:
у = Я0 + Я1х1+ Я2х12 + Я3х2 + Я4х2 2 + Я4х1х2 + д
Тази функция може да се побере на прости хребети, върхове, долини, ями, склонове и седла. Можем да добавим кубични или по-високи членове, ако искаме да поберем по-сложна повърхност.
Я4х1х2 се счита за термин за взаимодействие, тъй като променливи 1 и променлива 2 си взаимодействат помежду си. Ако б4 в крайна сметка се различава значително от нулата, тогава можем да отхвърлим нулевата хипотеза, че няма „ефект на взаимодействие“.
Статистическо заключение
Заедно с множествената регресия идва цялостен тест за значимост и „множествен R 2 "- което всъщност е стойността на r 2 за измереното у срещу предсказаното у'с . Повечето пакети предоставят „Коригирано множество R 2 ", което ще бъде обсъдено по-късно.
За всяка променлива обикновено се предоставя следното:
- коефициент на регресия (б)
- стандартизиран регресионен коефициент (б ако всички променливи са стандартизирани)
- а т стойност
- а стр стойност, свързана с това т стойност.
Стандартизираният коефициент е удобен: той е равен на стойността на r между интересуващата променлива и остатъците от регресията, ако променливата е пропусната.
Тестовете за значимост са условни: Това означава като се имат предвид, че всички останали променливи са в модела. Нулевата хипотеза е: „Тази независима променлива не обяснява нито една от вариациите в у, отвъд вариацията, обяснена от другите променливи ". Следователно, независима променлива, която е доста излишна с други независими променливи, вероятно няма да бъде значима.
Понякога е включена ANOVA таблица.
По-долу е даден пример на SYSTAT изход за множествена регресия:
Възможно е някои променливи да бъдат значими при проста регресия, но не и при многократна регресия. Например:
Богатството на растителните видове често корелира с рН на почвата и често е силно корелирано с почвения калций. Но тъй като рН на почвата и калций в почвата са силно свързани помежду си, нито едното, нито другото не обяснява значително повече вариации от останалите.
Това се нарича проблем на мултиколинеарност (макар че това е „проблем“ или нещо, което дава нова представа, е въпрос на перспектива).
Възможно е също така незначителни модели при проста регресия да станат значими при множествена регресия, напр. ефектът от възрастта и диетата върху размера на животните.
Проблеми с множествена регресия
Пренастройване:
Колкото повече променливи имате, толкова по-голямо количество отклонения можете да обясните. Дори ако всяка променлива не обяснява много, добавянето на голям брой променливи може да доведе до много високи стойности на R 2. Ето защо някои пакети предоставят „Коригирано R 2, "което ви позволява да сравнявате регресиите с различен брой променливи.
Същото важи и за полиномиалната регресия. Ако имате н точки от данни, тогава можете да съберете точките точно с полином на степен н-1.
Степените на свобода при многократна регресия са равни N-k-1, където к е броят на променливите. Колкото повече променливи добавяте, толкова повече подкопавате способността си да тествате модела (напр. Вашата статистическа информация мощност слиза).
Множество сравнения:
Друг проблем е този на многобройните сравнения. Колкото повече тестове правите, толкова по-голяма е вероятността фалшиво да отхвърлите нулевата хипотеза.
Да предположим, че сте определили границата на стр= 0,05. Ако Н0 винаги е вярно, тогава бихте го отхвърлили 5% от времето. Но ако сте имали два независими теста, бихте отхвърлили фалшиво поне един Н0
1- (1-.05) 2 = 0.0975, или почти 10% от времето.
Ако сте имали 20 независими теста, бихте отхвърлили фалшиво поне един Н0
1- (1-.05) 20 = 0.6415, или почти 2/3 от времето.
Има начини да се приспособите към проблема с множественото сравнение, като най-известният е тестът Bonferroni и тестът Scheffe. Но тестът на Bonferroni е много консервативен и тестът на Scheffe често е труден за изпълнение.
За теста Bonferroni просто умножавате всяко наблюдавано стр-стойност по броя на тестовете, които провеждате.
Методът на Holm за коригиране за множество сравнения е по-малко известен и освен това е по-малко консервативен (вж. Legendre и Legendre, стр. 18).
Частична корелация
Понякога имате една или повече независими променливи, които не представляват интерес, но трябва да ги вземете предвид, когато правите допълнителни анализи. Такива променливи се наричат "променливи", а анализ, който факторизира техните ефекти, се нарича "частичен анализ". Примерите включват:
- Анализ на ковариацията
- Частична корелация
- Частична регресия
- Частично DCA
- Частично CCA
(За най-простия случай частичната корелация между две променливи, A и B, с една ковариативна C, е корелация между остатъците от регресията на A на C и B на C. Единствената разлика е в отчитането на степени на свобода ).
Примери: Да предположим, че провеждате експеримент, при който поповите лъжички се отглеждат при различни температури и искате да проучите размера на жабата за възрастни. Може да искате да „разчитате“ ефектите от масата на поповите лъжички.
В примера за богатство на безгръбначни видове, богатството на видове е свързано с площта, но всички знаят това. Ако се интересуваме от ефектите на оплождането, може да е оправдано да „премахнем“ ефектите от езерната зона.
Постепенна регресия
Често не ви интересува статистическото заключение, но наистина бихте искали регресионен модел, който да пасва добре на данните. Модел обаче като:
Прекалено неприлично е да се използва! Може да е много по-полезно да изберете подмножество от независимите променливи, което "най-добре" обяснява зависимата променлива.
Има три основни подхода:
1) Избор напред
Започнете, като изберете независимата променлива, която обяснява най-много вариации в зависимата променлива.
Изберете втора променлива, която обяснява най-остатъчната вариация, и след това преизчислете коефициентите на регресия.
Продължете, докато никакви променливи "значително" не обясняват остатъчните вариации.
2) Избор назад
Започнете с всички променливи в модела и пуснете най-малко "значимите", една по една, докато останете само с "значими" променливи.
3) Смес от двете
Извършете селекция напред, но пуснете променливи, които вече не са "значими" след въвеждането на нови променливи.
Във всичко това по-горе, защо е „значително“ в кавички? Тъй като изпълнявате толкова много различни сравнения, че стр-стойностите са компрометирани. Всъщност на всяка стъпка от процедурата сравнявате много различни променливи. Но ситуацията всъщност е дори по-лоша от тази: вие избирате един модел от всички възможни последователности на променливи.
Въпреки че поетапните методи могат да намерят смислени модели в данните, това също е прословуто за намирането на фалшиви модели. Ако се съмнявате в това, опитайте да изпълните поетапна процедура, като използвате само произволни числа. Ако включите достатъчно променливи, почти неизменно ще намерите „значими“ резултати.
- Не само целиакия живот с множество автоимунни състояния
- Множество хранителни алергии 7 Хранителни рискове, които трябва да знаете Джил Касъл
- Множество черепни невропатии Медицина на Джон Хопкинс
- Множествена склероза и окултна чувствителност към глутен Неврология
- Множествена склероза и автоимунитет Viva! Здраве