Да приемем, че имахме експеримент, който разглеждаше ефекта от диетата върху теглото. Може би някои от функциите, които бихме включили, са

  • височина на обекта (непрекъснато)
  • пол (категоричен)
  • раса (категорично)
  • първоначално тегло (непрекъснато)
  • диетичен план (категоричен)

Нашата цел би била крайно тегло от нашия обект, след като диетата приключи.

Един много прост модел, който бихме могли да приложим, е линеен модел, в който случай бихме се заинтересували най-много от коефициента на различните променливи на diet_plan. Избирайки плана с най-малък коефициент (т.е. най-отрицателен или ако няма отрицателни коефициенти, най-малко положителен коефициент), имаме кандидат за най-ефективния диетичен план. (Ще трябва да проверим стабилността на линейното предположение и процеса, по който хората са били избрани в различни групи, преди да сме много сигурни). В един по-сложен модел може да се наложи да включим ефектите на взаимодействие между първоначалното тегло и височина и избрания хранителен план.

Да приемем, че намираме следния модел с мащабирани характеристики:

Колко по-важно е височината от първоначалното тегло в този модел? Не искаме да твърдим, че височината е по-важна само защото има по-голям коефициент. Някой, който е с един крак по-висок, е много по-забележим от този сомоен, който е с допълнителен килограм по-тежък. Можем да твърдим, че увеличаването на височината на някого с 1 крак има същия ефект като увеличаването на първоначалното тегло с 1,23 паунда, за да добием известна представа за компромиса, но по-често стандартизираме характеристиките си, като използваме резултати (.

Нормализиране на характеристиките с \ (z \) резултати

За непрекъснатите характеристики идеята е да центрираме стойностите около средната стойност и да ги измерим в единици стандартни отклонения. Това ни позволява да сравним изместванията в \ (z \) -резултати с това колко голяма промяна (т.е. колко стандартни отклонения) се движим от типичната стойност на популацията. Формулата е

Например средната височина в САЩ е 5,4 фута със стандартно отклонение от 0,4 фута (ако не се разделяме по пол). Така че промяната на височина с 1 крак би била същата като промяната с 2,5 стандартни отклонения (т.е. доста малко!). Средното тегло на хората в САЩ, обединени между половете, е 180 lbs със стандартно отклонение 30 lbs. Увеличението с 1 паунд се променя само с 0,033 стандартни отклонения.

Ако поберем нашия модел, използвайки \ (z \) -резултати, ще получим

Сега нашите коефициенти улавят важността на характеристиките, когато сравняваме с естествения мащаб на вариация на основния признак.

Нормализиране на ефекта

Независимо дали нормализираме характеристиките или не, можем също така да попитаме колко голям ефект е това:

  • diet_A няма ефект върху основното тегло,
  • diet_B причинява загуба от 2,3 lbs.

Разбира се, това просто означава, че за изходно ниво е избрана diet_A. Истинското измеримо нещо е, че средната разлика в теглото между диета А и диета Б е 2,3 килограма. Ако се интересуваме от абсолютни числа (т.е. 2,3 паунда), това е достатъчно добре. Можем също така да попитаме колко е 2,3 килограма по отношение на стандартното отклонение на крайните тегла. Този еквивалент на z-резултати за резултатите е известен като D на Коен.

В този случай, да предположим, че имаме 500 души на диета A и 400 на диета B. Стандартното отклонение в крайните тегла в диета A е 25 lbs, докато стандартното отклонение на крайните тегла в диета B е 28 lbs. Сборното стандартно отклонение от комбинирането на двете разпределения е

или сборното стандартно отклонение е 26,4 lbs след вземане на квадратния корен.

D на Коен е дадено от

Начинът, по който можем да тълкуваме това, е, че преминаването от диета А към диета Б е, че "преместваме иглата" (т.е. крайното тегло) с 0,087 стандартни отклонения.

Размер на ефекта

D на Коен ни дава стандартен размер на ефекта, така че можем да сравняваме различни ефекти един срещу друг. Има таблица „търсене“, за да видите колко голям ефект има вашият експеримент в сравнение с „типичните“ експериментални резултати. Следната таблица с размери е взета от статията на wikipedia за Коен \ (D \):

D размер на ефекта на Коен
1.20 Изключително голям

Когато се съобщава за ефектите от промяна в диетата, вероятно е по-смислено да се опише диетата В, свързана с 2,3 килограма загуба на тегло вместо \ (D = 0,087 \) или "малък ефект". Въпреки това, когато планираме експеримент, ако преценим \ (D = 0,087 \), може да решим, че тъй като това е малка типична стойност на \ (D \), може би е по-добре да търсим диета, която има по-голям ефект.

Обобщение

В крайна сметка D на Коен е евристика относно размера на ефекта. По-големият Коен \ (D \) означава по-голям ефект и ако се опитвате да приоритизирате различни усилия по различни показатели, D на Коен може да бъде един от начините за оценка на "промяната" и ресурсите, които сте положили зад определен експеримент или усилие. В крайна сметка всъщност няма пряк път за разглеждане на крайния резултат: „голям“ ефект върху регистрациите може да е по-малко важен за фирмените показатели, отколкото „малък“ ефект за броя на изоставените каси. За пропорциите има тясно свързаното H на Коен, за да се разгледа ефектът от промените в размера на ефекта.

В следваща статия за тестове за хипотези и размер на извадката ще разгледаме как можем да използваме H на Коен вместо \ (p \) -стойност, за да интерпретираме по-лесно резултата от експеримент.

Основните продукти за взимане:

  • Когато стандартизираме характеристиките, използвайки \ (z \) -резултати, можем по-директно да сравним коефициентите, за да видим "важността" на характеристиките.
  • Когато разглеждаме \ (z \) -резултатите на характеристиките, по-високите \ (z \) резултати означават "по-нетипични", тъй като измерваме отклонението от средната стойност на тази характеристика в единици на тази характеристика, стандартна девиатаин.
  • Формулата за \ (z \) -резултати е \ (z = (x - \ mu)/\ sigma \), където \ (\ mu \) е средната стойност на характеристиката, а \ (\ sigma \) е стандартният отклонение.
  • Когато сравняваме две лечения, можем да оценим размера на разликата в резултата по нормализиран начин, който е D. на Коен. Формулата е \ (D = (\ text/\ text) \)
  • D на Коен е полезен за сравняване между експерименти, но обикновено хората ще искат да сравнят действителните резултати в "естествени единици" (напр. Колко лири тази диета е отговорна за загубата на хора, колко реализации е довел този имейл и т.н.).
  • Най-общо казано, по-големите ефекти (т.е. по-високи \ (D \)) се откриват по-лесно и ще изискват по-малко проби. Ще разгледаме това повече в статията за тестовете за хипотези и размера на извадката

Препратки

  • Статията на Wikipedia за размера на ефекта
  • Статията на Уикипедия за h на Коен
  • Статията в този блог за тестове за хипотези и размер на извадката

характеристики

Деймиън Мартин

Аз съм учен по данни, интересувайки се от това, което движи света. Предистория по физика, математика и компютърни науки. Интересува се от алгоритми, игри, книги, музика и бойни изкуства. Тоест, когато не съм снимал някъде!

Настройване на Jupyter в облака

Тази статия показва как можете да стартирате Jupyter на отдалечен сървър, да се свържете с него и да го направите.

Как да спасим средата на Jupyter (и ядрата)

По-ранна статия „Спасете околната среда с conda“ показа как да направите нова.