Субекти

Резюме

Играта Go отдавна се разглежда като най-предизвикателната от класическите игри за изкуствен интелект поради огромното си пространство за търсене и трудността при оценяване на позициите и движенията на дъската. Тук въвеждаме нов подход към компютър Go, който използва „мрежи с ценности“ за оценка на позициите на борда и „мрежи с политики“ за избор на ходове. Тези дълбоки невронни мрежи се обучават чрез нова комбинация от контролирано учене от човешки експертни игри и подсилващо обучение от игри на самоигра. Без никакво Lookahead търсене, невронните мрежи играят Go на нивото на най-съвременните програми за търсене на дървета в Монте Карло, които симулират хиляди произволни игри на самоигра. Представяме и нов алгоритъм за търсене, който съчетава симулацията на Монте Карло с мрежи за стойност и политики. Използвайки този алгоритъм за търсене, нашата програма AlphaGo постигна 99,8% процент на печалба спрямо други Go програми и победи европейския шампион Go с 5 игри на 0. Това е първият път, когато компютърна програма победи напълно професионален играч Голяма игра на Go, подвиг, за който преди се смяташе, че е на поне десетилетие.

дълбоки

Опции за достъп

Абонирайте се за Journal

Получете пълен достъп до дневник за 1 година

само 3,58 € на брой

Всички цени са нетни цени.
ДДС ще бъде добавен по-късно при плащане.

Наем или покупка на статия

Получете ограничен или пълен достъп до статии в ReadCube.

Всички цени са нетни цени.

Препратки

Allis, L. V. Търсене на решения в игрите и изкуствения интелект. Докторска дисертация, Унив. Лимбург, Маастрихт, Холандия (1994)

van den Herik, H., Uiterwijk, J. W. & van Rijswijck, J. Игри решени: сега и в бъдеще. Изкуство. Intell. 134, 277–311 (2002)

Schaeffer, J. Игрите на компютрите (и хората) играят. Напредък в компютрите 52, 189–266 (2000)

Campbell, M., Hoane, A. & Hsu, F. Deep Blue. Изкуство Intell. 134, 57–83 (2002)

Schaeffer, J. et al. Програма за пулове от калибър на световно първенство. Изкуство Intell. 53, 273–289 (1992)

Буро, М. От прости функции до сложни функции за оценка. В 1-ва международна конференция по компютри и игри, 126–145 (1999)

Мюлер, М. Computer Go. Изкуство Intell. 134, 145–179 (2002)

Tesauro, G. & Galperin, G. Подобряване на политиката онлайн чрез използване на търсене в Монте-Карло. В Напредък в обработката на невронна информация, 1068–1074 (1996)

Шепард, Б. Скрабъл от калибър от световен шампионат. Изкуство. Intell. 134, 241–275 (2002)

Bouzy, B. & Helmstetter, B. Monte-Carlo Go разработки. В 10-та международна конференция за напредъка в компютърните игри, 159–174 (2003)

Coulom, R. Ефективна селективност и оператори за архивиране при търсене на дърво в Монте-Карло. В 5-та международна конференция по компютри и игри, 72–83 (2006)

Kocsis, L. & Szepesvári, C. Бандитско планиране на Монте-Карло. В 15-та Европейска конференция по машинно обучение, 282–293 (2006)

Coulom, R. Computing Elo рейтинги на модели на движение в играта Go. ICGA J. 30, 198–208 (2007)

Baudiš, P. & Gailly, J.-L. Пачи: Съвременна програма с отворен код Go. В Напредък в компютърните игри, 24–38 (Springer, 2012)

Müller, M., Enzenberger, M., Arneson, B. & Segal, R. Fuego - рамка с отворен код за настолни игри и двигател Go, базиран на търсене на дърво в Монте-Карло. IEEE Trans. Изчисляване. Intell. AI в Игрите 2, 259–270 (2010)

Gelly, S. & Silver, D. Комбиниране на онлайн и офлайн обучение в UCT. В 17-та международна конференция по машинно обучение, 273–280 (2007)

Krizhevsky, A., Sutskever, I. & Hinton, G. Класификация на ImageNet с дълбоки конволюционни невронни мрежи. В Напредък в системите за обработка на невронна информация, 1097–1105 (2012)

Lawrence, S., Giles, C. L., Tsoi, A. C. & Back, A. D. Разпознаване на лица: конволюционен подход на невронна мрежа. IEEE Trans. Невронна мрежа. 8, 98–113 (1997)

Mnih, V. et al. Контрол на човешко ниво чрез задълбочено учебно засилване. Природата 518, 529–533 (2015)

LeCun, Y., Bengio, Y. & Hinton, G. Дълбоко обучение. Природата 521, 436–444 (2015)

Stern, D., Herbrich, R. & Graepel, T. Класиране на байесов модел за прогнозиране на хода в играта Go. В Международна конференция по машинно обучение, 873–880 (2006)

Sutskever, I. & Nair, V. Mimicking Go експерти с конволюционни невронни мрежи. В Международна конференция за изкуствените невронни мрежи, 101–110 (2008)

Maddison, C. J., Huang, A., Sutskever, I. & Silver, D. Преместване на оценката в Go, използвайки дълбоки конволюционни невронни мрежи. 3-та международна конференция за ученически представителства (2015)

Clark, C. & Storkey, A. J. Обучение на дълбоки конволюционни невронни мрежи за игра. В 32-ра международна конференция по машинно обучение, 1766–1774 (2015)

Уилямс, Р. Дж. Прости статистически алгоритми, следващи градиент за обучение на коннектистично укрепване. Мах. Уча. 8, 229–256 (1992)

Sutton, R., McAllester, D., Singh, S. & Mansour, Y. Политически градиентни методи за засилване на обучението с приближение на функциите. В Напредък в системите за обработка на невронна информация, 1057–1063 (2000)

Сътън, Р. и Барто, А. Подсилващо обучение: Въведение (MIT Press, 1998)

Schraudolph, N. N., Dayan, P. & Sejnowski, T. J. Временно учене на разликата в оценката на позицията в играта Go. Adv. Невронна инф. Процес. Сист. 6, 817–824 (1994)

Enzenberger, M. Оценка в Go от невронна мрежа, използваща мека сегментация. В Десета конференция за напредък в компютърните игри, 97–108 (2003). 267

Силвър, Д., Сътън, Р. и Мюлер, М. Временно-различно търсене в компютър Go. Мах. Уча. 87, 183–219 (2012)

Левиновиц, А. Мистерията на Go, древната игра, която компютрите все още не могат да спечелят. Списание с кабели (2014)

Мехнер, Д. Всички системи отиват. Науките 38, 32–37 (1998)

Mandziuk, J. Изчислителна интелигентност в игрите на ума. В Предизвикателства пред компютърната интелигентност, 407–442 (2007)

Berliner, H. Хронология на компютърния шах и неговата литература. Изкуство Intell. 10, 201–214 (1978)

Browne, C. et al. Изследване на методите за търсене на дървета в Монте-Карло. IEEE Trans. Изчисляване. Intell. AI в игрите 4, 1–43 (2012)

Gelly, S. et al. Голямото предизвикателство на компютърния Go: търсене и разширения на дървета в Монте Карло. Общ. ACM 55, 106–113 (2012)

Coulom, R. Оценка на цялата история: Байесова система за рейтинг за играчи с различна сила във времето. В Международна конференция за компютри и игри, 113–124 (2008)

Littman, M. L. Markov games as a framework for multi-agent подкрепящо обучение. В 11-та международна конференция по машинно обучение, 157–163 (1994)

Knuth, D. E. & Moore, R. W. Анализ на подрязването на алфа-бета. Изкуство Intell. 6, 293–326 (1975)

Сътън, Р. Учим се да предсказваме чрез метода на временните различия. Мах. Уча. 3, 9–44 (1988)

Baxter, J., Tridgell, A. & Weaver, L. Учим се да играем шах, използвайки времеви разлики. Мах. Уча. 40, 243–263 (2000)

Veness, J., Silver, D., Blair, A. & Uther, W. Bootstrapping от търсене на дърво на играта. В Напредък в системите за обработка на невронна информация (2009)

Самуел, А. Л. Някои изследвания в машинното обучение с помощта на играта на пулове II - скорошен напредък. IBM J. Res. Развийте. 11., 601–617 (1967)

Schaeffer, J., Hlynka, M. & Jussila, V. Обучението по времева разлика е приложено към високоефективна игрална програма. В 17-та международна съвместна конференция по изкуствен интелект, 529–534 (2001)

Tesauro, G. TD-gammon, самоучаваща се програма за табла, постига игра на ниво майстор. Невронни изчисления. 6, 215–219 (1994)

Dahl, F. Honte, Go-play програма, използваща невронни мрежи. В Машини, които се учат да играят игри, 205–223 (Nova Science, 1999)

Rosin, C. D. Многоръки бандити с епизоден контекст. Ан. Математика. Изкуство. Intell. 61, 203–230 (2011)

Lanctot, M., Winands, M. H. M., Pepels, T. & Sturtevant, N. R. Монте Карло търсене на дърво с евристични оценки, използвайки имплицитни архиви на минимакс. В IEEE конференция за изчислителна интелигентност и игри, 1–8 (2014)

Gelly, S., Wang, Y., Munos, R. & Teytaud, O. Модификация на UCT с модели в Monte-Carlo Go. Техн. Представител. 6062, INRIA (2006)

Силвър, Д. и Тесауро, Г. балансиране на симулацията на Монте-Карло. В 26-та международна конференция по машинно обучение, 119 (2009)

Huang, S.-C., Coulom, R. & Lin, S.-S. Монтиране на симулация на Монте-Карло на практика. В 7-ма международна конференция по компютри и игри, 81–92 (Springer-Verlag, 2011)

Baier, H. & Drake, P. D. Силата на забравянето: подобряване на политиката за последен добър отговор в Monte Carlo Go. IEEE Trans. Изчисляване. Intell. AI в игрите 2, 303–309 (2010)

Huang, S. & Müller, M. Изследване на границите на методите за търсене на дървета Монте-Карло в компютърната Go. В 8-ма международна конференция по компютри и игри, 39–48 (2013)

Segal, R. B. За мащабируемостта на паралелния UCT. Компютри и игри 6515, 36–47 (2011)

Enzenberger, M. & Müller, M. Безключен многонишков алгоритъм за търсене на дърво в Монте-Карло. В 12-та конференция за напредък в компютърните игри, 14–20 (2009)

Huang, S.-C., Coulom, R. & Lin, S.-S. Управление на времето за търсене на дърво в Монте-Карло, приложено към играта Go. В Международна конференция по технологии и приложения на изкуствения интелект, 462–466 (2010)

Gelly, S. & Silver, D. Търсене на дърво в Монте-Карло и оценка на стойността на бързо действие в компютър Go. Изкуство. Intell. 175, 1856–1875 (2011)

Baudiš, P. Балансиране на MCTS чрез динамично регулиране на стойността на коми. ICGA J. 34, 131 (2011)

Baier, H. & Winands, M. H. Активно приложение за отваряне на книги за търсене на дърво в Монте-Карло в 19 × 19 Go. В Конференция на Бенелюкс за изкуствения интелект, 3–10 (2011)

Dean, J. et al. Широко разпространени дълбоки мрежи В Напредък в системите за обработка на невронна информация, 1223–1231 (2012)

Благодарности

Благодарим на Фан Хуей, че се съгласи да играе срещу AlphaGo; Т. Манинг за съдийство на мача; R. Munos и T. Schaul за полезни дискусии и съвети; А. Каин и М. Кант за работа по визуалните изображения; P. Dayan, G. Wayne, D. Kumaran, D. Purves, H. van Hasselt, A. Barreto и G. Ostrovski за преглед на статията; и останалата част от екипа на DeepMind за тяхната подкрепа, идеи и насърчение.

Информация за автора

Дейвид Силвър и Аджа Хуанг: Тези автори допринесоха еднакво за тази работа.

Принадлежности

Google DeepMind, 5 New Street Square, Лондон, EC4A 3TW, Великобритания

Дейвид Силвър, Аджа Хуанг, Крис Дж. Мадисън, Артър Гуез, Лоран Сифре, Джордж ван ден Дрише, Джулиан Шритвизер, Йоанис Антоноглу, Веда Панеершелвам, Марк Ланкто, Сандер Дилеман, Доминик Греу, Нал Калхбренер, Тимоти Лиликрап, Мадлен Лиликрак, Kavukcuoglu, Thore Graepel & Demis Hassabis

Google, 1600 Amphitheatre Parkway, Mountain View, Калифорния, 94043, САЩ

Джон Нхам и Иля Суцкевер

Можете също да търсите този автор в PubMed Google Scholar