Резюме

Въведение

В мозъка нормализирането отдавна се разглежда като канонично изчисление [9, 10] и се случва в много сетивни области, включително в слуховата кора до различна интензивност на звука [11]; в системата ol-factory до различни концентрации на миризми [12]; и в ретината до различни нива на осветеност и контраст [13–15]. Смята се, че нормализацията помага да се генерират инвариантно представени интензивности на входните стимули, които подобряват дискриминацията и декодирането, което се случва надолу по веригата [9].

стратегии

Но отвъд сензорното (входно) ниво има допълнителен тип нормализация, който се среща повсеместно в мозъка, който се нарича хомеостатична пластичност [16]. Хомеостазата се отнася до общата способност на системата да се възстанови до някаква зададена точка след промяна или разстройство [17]. Каноничен пример е термостат, използван за поддържане на средна температура в една къща. В мозъка зададената точка може да приеме различни форми в различни пространствени мащаби, като например целева скорост на стрелба за отделен неврон или разпределение на скоростите на стрелба върху популация от неврони. Тази зададена точка обикновено се приближава за относително дълъг период от време (часове до дни). Промените или смущения възникват поради други пластични механизми, като LTP или LTD, които променят синаптичните тегла и темповете на стрелба в много по-бързи времеви скали (секунди до минути). По този начин предизвикателството на хомеостазата е да гарантира, че зададените точки се поддържат средно, без да се „заличават“ ефектите от ученето. Това поражда основна дилема за стабилност срещу пластичност. Нарушаването на механизмите на хомеостазата е свързано с множество неврологични разстройства [18–23], което показва тяхното значение за нормалната мозъчна функция.

В тази перспектива ние подчертаваме паралелите между алгоритмите за нормализиране, използвани в дълбокото обучение, и механизмите на хомеостатичната пластичност в мозъка. Идентифицирането на тези паралели може да има две цели. Първо, машинните обучаеми имат богат опит в анализирането на методите за нормализиране и са развили усещане за това как работят, защо работят и когато използват определени методи, могат да бъдат предпочитани пред други. Този опит може да доведе до количествени прозрения за изключителни предизвикателства в неврологията, включително компромис между стабилността и пластичността, ролята на различните механизми на хомеостаза, използвани в пространството и времето, и дали има параметри, критични за поддържане на хомеостатичната функция, които са пропуснати експериментално. Второ, има много техники за нормализиране, използвани в мозъка, които, доколкото ни е известно, не са били дълбоко изследвани в машинното обучение. Това представлява възможност за невролозите да предложат нови алгоритми за нормализиране от наблюдавани явления или установени принципи [24] или да предоставят нови перспективи за това защо съществуващите схеми за нормализиране, използвани в дълбоките мрежи, работят толкова добре на практика.

Ползите от балансирането на натоварването (хомеостаза)

В компютърните науки терминът „балансиране на натоварването“ означава разпределяне на товара за обработка на данни върху набор от изчислителни единици [25]. Обикновено целта е да се разпредели това натоварване равномерно, за да се увеличи максимално ефективността и да се намали времето, през което устройствата са в неактивност (напр. За сървъри, обработващи трафика в Интернет). За невронните мрежи дефинираме балансиране на натоварването въз основа на това колко често се активира набор от неврони и колко сходни са средните им нива на активиране. Защо балансирането на натоварването в невронните мрежи може да бъде привлекателно изчислително? Идват ми на ум три причини:

Първо, балансирането на натоварването увеличава кодиращия капацитет на мрежата; т.е. броя на уникалните стимули, които могат да бъдат представени с помощта на фиксиран брой ресурси (неврони). Да предположим, че при стандартно обучение определена част (да речем 50%) от скритите единици просто не се използва; тоест, те никога или рядко някога не се активират. Този загубен капацитет би намалил броя на възможните модели, които мрежата може да представи, и би въвел ненужни параметри, които могат да удължат обучението. Балансирането на натоварването на невроните може да избегне тези проблеми чрез натискане на повече скрити единици в експлоатация. В мозъка еднаквото използване на невроните също насърчава разпределени представителства, в които всеки дразнител е представен от много неврони, а всеки неврон участва в представянето на много стимули (често наричан комбинаторен код [26, 27]). Това свойство е особено привлекателно, когато такива представяния се формират независимо от входните статистики или структура.

Второ, балансирането на натоварването може да подобри фината дискриминация. Да предположим, че има две скрити единици, които се активират по подобен начин за едни и същи стимули (напр. Изображения на кучета). Процесът на обучение може просто да избере един от тях и да изключи другия. Но ако се използват и двата модула, тогава вратата остава отворена за бъдеща фина дискриминация; например, разграничаване между подкласове кучета, като чихуахуа и лабрадудли. По принцип, ако се използват повече възли за представяне на стимул, тогава възлите могат по-добре да запазят по-фини детайли на шаблона, които могат да служат по-късно като основа за дискриминация, ако е необходимо. По същия начин, ако невронът има сигмоидална функция за активиране, нормализирането поддържа неврона в неговия ненаситен режим. Смята се, че това помага на неврона да бъде максимално информативен и дискриминативен [28–32].

Трето, балансирането на натоварването може да служи като регулатор, който обикновено се използва в дълбоки мрежи, за да ограничи големината на тежестите или нивата на активност на единиците. Регулаторите обикновено подобряват обобщаването и намаляват прекаленото приспособяване [33] и могат да бъдат посочени изрично или неявно [34]. Има много форми на регуларизация, използвани в дълбокото обучение; например Dropout [35], при който произволна част от невроните е неактивна по време на обучение; или регулиране на тежестта, при което function1 или ℓ2 наказания се прилагат към функцията за загуба, за да се ограничи колко големи вектори на тегло стават [36, 37]. Въпреки че регуларизацията е мощен инструмент за изграждане на стабилни модели, само регуларизацията не гарантира, че генерира хомеостатични представяния.

Методи за нормализиране в четири пространствени скали

Започваме с описване на изкуствени и невронни стратегии за нормализиране, които се случват в четири пространствени скали (Фигура 1, Таблица 1): нормализиране на активността на отделен неврон чрез вътрешни невронни свойства; нормализиране на синаптичните тегла на неврон; нормализиране на слой неврони; и нормализиране на цяла мрежа от неврони.