(Забележка: CCA е специален вид множествена регресия)

множествена регресия


По-долу е представена проста, двумерна линейна регресия върху хипотетичен набор от данни. Зелените кръстове са действителните данни, а червените квадрати са „прогнозираните стойности“ или „y-шапки“, както се изчислява от регресионната линия. При регресия с най-малки квадрати сумите на квадратните (вертикални) разстояния между точките от данни и съответните прогнозирани стойности са сведени до минимум.

Въпреки това, ние често се интересуваме да тестваме дали зависимата променлива (y) е свързана Повече ▼ от една независима променлива (напр. x1, x2, x3 ).
Можем да извършим регресии въз основа на следните модели:
у = Я0 + Я1x1 + e
у = Я0 + Я2x2 + e
у = Я0 + Я3x3 + д
И наистина, това обикновено се прави. Възможно е обаче независимите променливи да замъглят ефектите си. Например, масата на животното може да бъде функция както на възрастта, така и на диетата. Възрастният ефект може да замени диетичния ефект, което води до регресия за диетата, която не изглежда много интересна.

Едно от възможните решения е да се извърши регресия с една независима променлива и след това да се провери дали втора независима променлива е свързана с остатъците от тази регресия. Продължавате с трета променлива и т.н. Проблем с това е, че поставяте някои променливи в привилегировани позиции .

Множествената регресия позволява едновременно тестване и моделиране на множество независими променливи. (Забележка: множествената регресия все още не се счита за „мултивариантна“ проверка, защото има само една зависима променлива).

Моделът за множествена регресия приема формата:
у = Я0 + Я1х1 + Я2х2 + Я3х3 + . + д

The б се наричат ​​"коефициенти на регресия". Вместо да монтираме линия към данните, сега ние монтираме равнина (за 2 независими променливи), интервал (за 3 независими променливи) и т.н.

Оценката все още може да се направи съгласно принципите на линейните най-малки квадрати.
Формулите за решение (т.е. намиране на всички бса грозни. Матричното решение обаче е елегантно:

Моделът е: Y. = + д
Решението е: б = ( х'х) -1 х'Y.

(Вж. Например Draper and Smith 1981)

Както при обикновената регресия, у-прихващането изчезва, ако всички променливи са стандартизирани (вж. статистика) .


ЛИНЕЙНИ КОМБИНАЦИИ

Помислете за модела:
у = Я0 + Я1х1 + Я2х2 + Я3х3 + . + д
От у е комбинация от линейни функции, тя се нарича a линейна комбинация от х'с . Следните модели са не линейни комбинации от х'с:
у = Я0 + Я1 /х1 + Я2х2 2 + д
у = опит (Я0 + Я1х1 + Я2х2 + Я3х3 + д)

Но все пак можете да използвате множествена регресия, ако трансформирате променливи. За първия пример създайте две нови променливи:
x1'= 1 /х1 и х2 '= х2 2

За втория пример вземете логаритъма от двете страни:
дневник (y) = Я0 + Я1х1+ Я2х2 + Я3х3 + д

Има някои модели, които не могат да бъдат "линеаризируеми" и следователно не може да се използва линейна регресия, например:
у = 0 - Я1х1)/3х2 + д

Те трябва да бъдат решени с нелинейни техники на регресия. За съжаление е трудно да се намери решение на такива нелинейни уравнения, ако има много параметри.


Ами полиномите?

Забележи, че:
у = брадва 3 + bx 2 + cx + д + д

може да се изрази като:
у = Я0 + Я1х1+ Я2х2 + Я3х3 + д

ако х1 = х 1, х2 = х 2, х3 = х 3

Така че полиномиалната регресия се счита за частен случай на линейна регресия. Това е удобно, защото дори полиномите да не представляват вярно модел, те приемат различни форми и може да са достатъчно близки за различни цели.

Ако имате две променливи, е възможно да използвате полиномиални термини и термини за взаимодействие, за да се поберат в повърхността на отговора:
у = Я0 + Я1х1+ Я2х12 + Я3х2 + Я4х2 2 + Я4х1х2 + д

Тази функция може да се побере на прости хребети, върхове, долини, ями, склонове и седла. Можем да добавим кубични или по-високи членове, ако искаме да поберем по-сложна повърхност.

Я4х1х2 се счита за термин за взаимодействие, тъй като променливи 1 и променлива 2 си взаимодействат помежду си. Ако б4 в крайна сметка се различава значително от нулата, тогава можем да отхвърлим нулевата хипотеза, че няма „ефект на взаимодействие“.


Статистическо заключение
Заедно с множествената регресия идва цялостен тест за значимост и „множествен R 2 "- което всъщност е стойността на r 2 за измереното у срещу предсказаното у'с . Повечето пакети предоставят „Коригирано множество R 2 ", което ще бъде обсъдено по-късно.
За всяка променлива обикновено се предоставя следното:

  • коефициент на регресия (б)
  • стандартизиран регресионен коефициент (б ако всички променливи са стандартизирани)
  • а т стойност
  • а стр стойност, свързана с това т стойност.

Стандартизираният коефициент е удобен: той е равен на стойността на r между интересуващата променлива и остатъците от регресията, ако променливата е пропусната.

Тестовете за значимост са условни: Това означава като се имат предвид, че всички останали променливи са в модела. Нулевата хипотеза е: „Тази независима променлива не обяснява нито една от вариациите в у, отвъд вариацията, обяснена от другите променливи ". Следователно, независима променлива, която е доста излишна с други независими променливи, вероятно няма да бъде значима.

Понякога е включена ANOVA таблица.

По-долу е даден пример на SYSTAT изход за множествена регресия:


Възможно е някои променливи да бъдат значими при проста регресия, но не и при многократна регресия. Например:

Богатството на растителните видове често корелира с рН на почвата и често е силно корелирано с почвения калций. Но тъй като рН на почвата и калций в почвата са силно свързани помежду си, нито едното, нито другото не обяснява значително повече вариации от останалите.

Това се нарича проблем на мултиколинеарност (макар че това е „проблем“ или нещо, което дава нова представа, е въпрос на перспектива).

Възможно е също така незначителни модели при проста регресия да станат значими при множествена регресия, напр. ефектът от възрастта и диетата върху размера на животните.


Проблеми с множествена регресия

Пренастройване:

Колкото повече променливи имате, толкова по-голямо количество отклонения можете да обясните. Дори ако всяка променлива не обяснява много, добавянето на голям брой променливи може да доведе до много високи стойности на R 2. Ето защо някои пакети предоставят „Коригирано R 2, "което ви позволява да сравнявате регресиите с различен брой променливи.
Същото важи и за полиномиалната регресия. Ако имате н точки от данни, тогава можете да съберете точките точно с полином на степен н-1.
Степените на свобода при многократна регресия са равни N-k-1, където к е броят на променливите. Колкото повече променливи добавяте, толкова повече подкопавате способността си да тествате модела (напр. Вашата статистическа информация мощност слиза).

Множество сравнения:

Друг проблем е този на многобройните сравнения. Колкото повече тестове правите, толкова по-голяма е вероятността фалшиво да отхвърлите нулевата хипотеза.

Да предположим, че сте определили границата на стр= 0,05. Ако Н0 винаги е вярно, тогава бихте го отхвърлили 5% от времето. Но ако сте имали два независими теста, бихте отхвърлили фалшиво поне един Н0
1- (1-.05) 2 = 0.0975, или почти 10% от времето.

Ако сте имали 20 независими теста, бихте отхвърлили фалшиво поне един Н0
1- (1-.05) 20 = 0.6415, или почти 2/3 от времето.

Има начини да се приспособите към проблема с множественото сравнение, като най-известният е тестът Bonferroni и тестът Scheffe. Но тестът на Bonferroni е много консервативен и тестът на Scheffe често е труден за изпълнение.
За теста Bonferroni просто умножавате всяко наблюдавано стр-стойност по броя на тестовете, които провеждате.

Методът на Holm за коригиране за множество сравнения е по-малко известен и освен това е по-малко консервативен (вж. Legendre и Legendre, стр. 18).


Частична корелация
Понякога имате една или повече независими променливи, които не представляват интерес, но трябва да ги вземете предвид, когато правите допълнителни анализи. Такива променливи се наричат ​​"променливи", а анализ, който факторизира техните ефекти, се нарича "частичен анализ". Примерите включват:

  • Анализ на ковариацията
  • Частична корелация
  • Частична регресия
  • Частично DCA
  • Частично CCA

(За най-простия случай частичната корелация между две променливи, A и B, с една ковариативна C, е корелация между остатъците от регресията на A на C и B на C. Единствената разлика е в отчитането на степени на свобода ).

Примери: Да предположим, че провеждате експеримент, при който поповите лъжички се отглеждат при различни температури и искате да проучите размера на жабата за възрастни. Може да искате да „разчитате“ ефектите от масата на поповите лъжички.

В примера за богатство на безгръбначни видове, богатството на видове е свързано с площта, но всички знаят това. Ако се интересуваме от ефектите на оплождането, може да е оправдано да „премахнем“ ефектите от езерната зона.


Постепенна регресия

Често не ви интересува статистическото заключение, но наистина бихте искали регресионен модел, който да пасва добре на данните. Модел обаче като:

Прекалено неприлично е да се използва! Може да е много по-полезно да изберете подмножество от независимите променливи, което "най-добре" обяснява зависимата променлива.

Има три основни подхода:

1) Избор напред

Започнете, като изберете независимата променлива, която обяснява най-много вариации в зависимата променлива.
Изберете втора променлива, която обяснява най-остатъчната вариация, и след това преизчислете коефициентите на регресия.
Продължете, докато никакви променливи "значително" не обясняват остатъчните вариации.

2) Избор назад

Започнете с всички променливи в модела и пуснете най-малко "значимите", една по една, докато останете само с "значими" променливи.

3) Смес от двете

Извършете селекция напред, но пуснете променливи, които вече не са "значими" след въвеждането на нови променливи.

Във всичко това по-горе, защо е „значително“ в кавички? Тъй като изпълнявате толкова много различни сравнения, че стр-стойностите са компрометирани. Всъщност на всяка стъпка от процедурата сравнявате много различни променливи. Но ситуацията всъщност е дори по-лоша от тази: вие избирате един модел от всички възможни последователности на променливи.

Въпреки че поетапните методи могат да намерят смислени модели в данните, това също е прословуто за намирането на фалшиви модели. Ако се съмнявате в това, опитайте да изпълните поетапна процедура, като използвате само произволни числа. Ако включите достатъчно променливи, почти неизменно ще намерите „значими“ резултати.