Текст книги "Код креативности. Как искусственный интеллект учится писать, рисовать и думать"
Автор книги: Маркус Сотой
сообщить о нарушении
Текущая страница: 2 (всего у книги 3 страниц)
Однако тот факт, что художник может быть не способен внятно изложить, откуда взялись его идеи, не означает, что он не следует никаким правилам. Искусство есть сознательное выражение мириады логических элементов, которые формируют процесс нашего бессознательного мышления. Разумеется, мысли Гаусса были соединены некой логической цепочкой: ему просто было трудно сформулировать, что именно он делает, – или же, возможно, он хотел сохранить тайну, пытаясь раздуть свою славу гениального творца. Утверждение Кольриджа о том, что навеянное «приемом болеутоляющего»[12]12
См. вступление к поэме «Кубла Хан, или Видение во сне»: «Вследствие легкого недомогания ему [автору] прописали болеутоляющее средство, от воздействия которого он уснул в кресле…» // Кольридж Сэмюель Тэйлор. Стихи. М.: Наука, 1974. С. 77. – Примеч. ред.
[Закрыть] видение о Кубла Хане явилось ему сразу целиком, опровергают все те подготовительные материалы, которые свидетельствуют о работе, проделанной поэтом до того судьбоносного дня, в который его разбудил неожиданный посетитель из Порлока. Разумеется, так получается более интересная история. Даже в рассказе о моем собственном творчестве вспышкам вдохновения неизбежно было бы уделено больше внимания, чем многолетней подготовительной работе.
У нас есть ужасная привычка романтизировать гениальных творцов. Честно говоря, образ одинокого художника, творящего в изоляции, – миф. Брайан Ино говорит о концепции не гения, а «сцения»[13]13
Scenius – неологизм, образованный от английских слов scene (сцена) и genius (гений).
[Закрыть], чтобы подчеркнуть роль общества, в котором часто появляется творческое мышление. С этим согласна и американская писательница Джойс Кэрол Оутс: «Искусство, как науку, следует считать совместным усилием – попыткой одного человека озвучить мысли многих, попыткой синтезировать, изучать и анализировать»[14]14
Цит. по: Иглмен Д., Брандт Э. Креативный вид: как стремление к творчеству меняет мир / Пер. с англ. Ю. Константиновой. М.: Манн, Иванов и Фербер, 2018.
[Закрыть].
Что же требуется для стимулирования творчества? Может ли существовать возможность запрограммировать его в машину? И существуют ли правила, следуя которым можно приобрести творческие способности? Другими словами, может ли творчество быть приобретенным навыком? Кое-кто скажет, что такое обучение, или программирование, сводится к обучению подражанию достигнутому ранее и что имитация и следование правилам несовместимы с творчеством. Тем не менее у нас есть множество примеров творческих личностей, повышающих свое мастерство за счет исследования и обучения. Можно ли, исследовав их деятельность, научиться повторять их достижения и в конце концов развить собственные творческие способности?
Эти вопросы я задаю себе в начале каждого семестра. Чтобы получить докторскую степень, аспирант-математик должен создать новое математическое построение. Это значит, что он должен придумать нечто такое, что никогда не было сделано до него. Я должен научить аспирантов, как это сделать. Разумеется, до некоторой степени они обучались этой работе и раньше. Решение задач, даже если их ответ уже известен, тоже требует индивидуального творчества.
Подобное обучение совершенно необходимо для последующего прыжка в неизвестное. Повторяя за другими путь, пройденный к величайшим достижениям, мы надеемся создать среду, которая будет способствовать развитию наших собственных творческих способностей. Однако то, что такой прыжок произойдет, далеко не гарантировано. Я не могу взять с улицы первого попавшегося человека и вырастить из него творческого математика. Возможно, лет за десять обучения мы сможем добиться этого, но, по-видимому, к математическому творчеству способен не каждый мозг. Видимо, некоторые люди могут заниматься творчеством в одной области, но не в другой, хотя понять, что именно делает обладателя одного мозга чемпионом по шахматам, а другого – лауреатом Нобелевской премии по литературе, трудно.
Маргарет Боден признает, что обладать творческим началом не всегда значит быть Шекспиром или Эйнштейном. Она различает, следуя ее терминологии, «творчество психологическое» и «творчество историческое». Многие из нас творят свои личные произведения, делая нечто новое для самих себя, но далеко не новое в историческом контексте. Эти действия Боден и называет моментами психологического творчества. И только путем многократного создания произведений личного творчества можно надеяться в конце концов создать нечто, что другие признают новым и ценным. Историческое творчество – явление редкое, но оно появляется в результате стимулирования творчества психологического.
Моя методика пробуждения в студентах творческого начала основана на тех трех типах творчества, которые выделила Боден. Вероятно, наиболее очевидный путь – исследование. Сначала понять, как мы пришли к нынешнему состоянию вещей, а затем попытаться раздвинуть границы чуть дальше. Это требует глубокого погружения в то, что мы создали до сих пор. Из этого глубинного понимания может возникнуть нечто такое, чего никогда раньше не было. Часто бывает важно внушить студентам, что акт творения очень часто вовсе не похож на Большой взрыв. Он происходит постепенно. Как писал Ван Гог, «великое не создается порывом, а представляет собой цепь постоянно слагающихся малых дел»[15]15
В письме к брату Тео 22 октября 1882 г. Цит. по: Ван Гог В. Письма к брату Тео / Пер. П.В. Мелковой. М.: Азбука-классика, 2017.
[Закрыть].
Вторую стратегию Боден, стратегию комбинаторного творчества, я считаю мощным средством стимулирования новых идей. Я часто советую своим студентам ходить на семинары и читать статьи по темам, которые кажутся не связанными с теми задачами, над которыми они работают. Рассуждения, относящиеся к совершенно другой части математической вселенной, могут войти в резонанс с решаемой задачей и привести к возникновению свежих идей. Некоторые из наиболее интересных творческих проектов в современной науке реализуются именно на стыке разных дисциплин. Чем больше мы выходим за пределы своих изолированных участков и делимся с другими своими мыслями и затруднениями, тем более творческой может стать наша работа. Именно здесь получают множество быстрых результатов.
На первый взгляд кажется, что творчество преобразующее трудно использовать в качестве стратегии. Но, повторюсь, задача заключается в проверке существующего положения вещей путем отказа от некоторых ранее установленных ограничений. Нужно попытаться понять, что случится, если изменить одно из основополагающих правил, которые мы привыкли считать частью самой сути рассматриваемого предмета. Такие моменты опасны, потому что этим можно обрушить всю систему, но именно это обстоятельство подводит меня к одной из самых важных составляющих, стимулирующих творчество, – готовности к неудачам.
Если вы не готовы к неудачам, вы не пойдете на риск, который позволил бы вам открыть и создать нечто радикально новое. Именно поэтому система образования и экономическая среда – области, в которых терпеть не могут неудач, – бывают столь неблагоприятны для развития творческих способностей. Неудачи учеников важно приветствовать не меньше, чем их успехи. Разумеется, на неудачах диссертацию не защитишь, но они могут научить чрезвычайно многому. В разговорах со своими студентами я снова и снова повторяю призыв Беккета: «Проигрывай. Проигрывай снова. Проигрывай лучше».
Можно ли воплотить эти стратегии в программном коде? В использовавшемся в прошлом нисходящем подходе к программированию было очень мало надежды на проявление творческого начала в результатах работы программы. То, что выдавали созданные программистами алгоритмы, никогда не бывало слишком удивительным для их авторов. Не оставалось возможностей ни для экспериментов, ни для неудач. Но недавно все это изменилось: алгоритм, построенный на коде, который учится на собственных ошибках, сделал нечто новое, ошарашившее его создателей и оказавшееся невероятно ценным. Этот алгоритм победил в игре, которую, по мнению многих, машина в принципе не могла освоить. Игра эта требует творческого подхода.
Именно известие об этом революционном событии и стало причиной моего недавнего экзистенциального кризиса как математика.
3
На старт, внимание… го!
Мы все конструируем и конструируем,
но интуиция все равно полезна.
Пауль Клее
Математику часто сравнивают с игрой в шахматы. Между этими двумя занятиями, несомненно, есть связи, но, когда компьютер Deep Blue обыграл лучшего гроссмейстера, какого человечество смогло выставить против него в 1997 году, это не привело к закрытию математических факультетов. Хотя шахматы – хорошая аналогия формального аспекта построения доказательства, есть еще одна игра, по мнению математиков, гораздо более близкая к творческой и интуитивной стороне занятий математикой. Речь идет о китайской игре го[16]16
Принятое в русском языке название «го» (как и названия go/Go, используемые во многих европейских языках) происходит от японского названия игры – и-го. По-китайски она называется вэйци, буквально «облавные шашки». Последнее название часто встречается в русских переводах китайской литературы.
[Закрыть].
Я впервые познакомился с го, когда был старшекурсником и приехал на математический факультет Кембриджского университета, чтобы выяснить, смогу ли поступить в аспирантуру в поразительную группу, которая участвовала в завершении классификации конечных простых групп, своего рода «периодической таблицы симметрий». Пока я беседовал о будущем математики с Джоном Конвеем и Саймоном Нортоном, входившими в число архитекторов этого великого проекта, меня все время отвлекали сидевшие за соседним столом студенты, которые яростно припечатывали к большой сетке размером 19 ×19 линий, вырезанной на деревянной доске, черные и белые камни.
В конце концов я спросил Конвея, чем это они занимаются. «Это го – самая древняя игра из тех, в которые играют до сих пор». В отличие от шахмат с их воинственным характером, объяснил он, го – игра территориальная. Игроки поочередно ставят на сетку размером 19 ×19 линий белые и черные шашки – «камни». Если вам удается окружить своими камнями группировку камней противника, его камни становятся вашими. Побеждает игрок, которому к концу партии удалось захватить большее число камней. Казалось, все довольно просто. Тонкость этой игры, объяснил Конвей, заключается в том, что, пытаясь окружить противника, нужно в то же время не дать ему окружить ваши собственные камни.
«Эта игра чем-то похожа на математику: простые правила порождают сложность и красоту». Именно наблюдая за развитием игры между двумя мастерами этого дела, пившими кофе в столовой, Конвей обнаружил в последней части игры – ее эндшпиле – поведение, свойственное новому типу чисел, которые он назвал «сюрреальными».
Я всегда интересовался играми. В любых дальних странствиях я люблю учиться играм, в которые играют местные жители, и привозить их с собой. Поэтому, когда я вернулся из диких кембриджских краев к себе домой в Оксфорд, я решил купить в местном магазине игрушек набор для игры в го и выяснить, чем эта игра так увлекала тамошних студентов. Начав исследовать ее вместе с одним из моих однокашников по Оксфорду, я понял, насколько тонка эта игра. Было очень трудно найти ясную стратегию, которая позволила бы мне выиграть. По мере того как на доску выкладывались все новые камни, казалось, что игра становится все сложнее – в отличие от шахмат, в которых постепенное удаление фигур с доски приводит к упрощению партии.
По оценке Американской ассоциации го, количество возможных партий, не противоречащих правилам игры в го, исчисляется 300-значным числом. Что касается шахмат, информатик Клод Шеннон рассчитал, что для исчисления возможных партий в них должно хватить 120-значного числа (которое называют теперь числом Шеннона). В обоих случаях речь идет о немалых числах, но они дают представление о диапазоне возможных вариантов.
В детстве я много играл в шахматы. Мне нравилось продумывать логические следствия предложенных ходов. Это занятие было по душе росшему во мне математику. Дерево возможных ходов в шахматах ветвится упорядоченным образом, что позволяет компьютеру и даже человеку анализировать вероятные последствия каждого хода, последовательно продвигаясь по разным ветвям. В случае же го, напротив, кажется, что игра не позволяет логически предсказывать последствия будущего хода. Перемещение по дереву возможностей быстро становится невозможным. Это не значит, что игрок в го не обдумывает логические последствия каждого своего хода, но эти рассуждения, по-видимому, сочетаются с более интуитивным ощущением характера партии.
Человеческий мозг активно стремится выискивать в визуальных изображениях структуры и закономерности, если только они там есть. Игрок в го может, глядя на расположение камней и пользуясь способностью мозга находить такие структуры, выбрать свой следующий ход, исходя именно из них. Компьютерам всегда было трудно работать с визуальной информацией. Это одна из тех крупных проблем, над которыми инженеры бьются десятилетиями. Высокоразвитая способность человеческого мозга воспринимать визуальные структуры оттачивалась на протяжении миллионов лет, так как она была совершенно необходима для нашего выживания. Выживание любого животного отчасти зависит от его способности различать в визуальном беспорядке, которым окружает нас природа, закономерности и образы. Упорядоченная структура в хаосе джунглей, вероятно, указывает нам на присутствие другого животного – и ее важно заметить, потому что это животное может нас съесть (а может быть, мы его). Человеческий код чрезвычайно хорошо умеет считывать образы, интерпретировать их возможное развитие и вырабатывать соответствующую реакцию. Эта способность – одно из самых ценных наших преимуществ, и именно она помогает нам понимать и оценивать по достоинству образы в музыке и изобразительном искусстве.
Оказывается, именно распознаванием образов я занимаюсь в своей математической работе, когда отправляюсь в неисследованные уголки математических джунглей. Я не могу просто полагаться на пошаговый логический анализ местной среды. С ним я далеко не уйду. Он должен сочетаться с интуитивным ощущением того, что может находиться где-то рядом. Эта интуиция развивается за время, посвященное исследованию уже известного пространства. Но часто бывает трудно логически аргументировать, почему мне кажется, что в таком-то направлении лежит территория, интересная для исследования. Математическая гипотеза – это, по определению, утверждение еще не доказанное, но у математика, высказывающего гипотезу, уже есть ощущение, что его математическое утверждение может быть хотя бы до некоторой степени истинным. Пробираясь сквозь заросли и пытаясь прокладывать новые пути, мы используем как наблюдения, так и интуицию.
Математик, умеющий предложить хорошую гипотезу, часто пользуется большим уважением, чем тот, который соединяет логические точки, чтобы продемонстрировать истинность гипотезы. В игре го выигрышная позиция в некоторых отношениях подобна гипотезе, а партия – последовательности логических ходов, которыми игрок эту гипотезу доказывает. Но различить закономерности в процессе игры чертовски трудно.
Поэтому, хотя шахматы действительно помогают понять некоторые аспекты математики, всегда считалось, что го гораздо ближе по духу к тому, как математики на самом деле занимаются своей наукой. Именно поэтому математики не слишком беспокоились, когда компьютер Deep Blue обыгрывал в шахматы лучших представителей рода человеческого. По-настоящему трудной задачей оставалось освоение игры в го. В течение многих десятилетий утверждалось, что компьютер никогда не сможет научиться играть в го. Как и любой порядочный беспрекословный постулат, это утверждение побуждало изобретательных программистов попытаться его опровергнуть. Но каждый раз оказывалось, что даже не слишком опытным игрокам удается победить самые замысловатые алгоритмы. Так что математики чувствовали себя в безопасности под прикрытием, которое давала им игра го. Раз компьютеры не могут играть в го, нечего и говорить о том, чтобы они смогли играть в гораздо более тонкую и древнюю игру, которую мы называем математикой.
Однако проломы в конце концов удалось проделать даже в Великой Китайской стене – и моя защитная стена тоже рассыпалась в прах, причем обрушение ее было зрелищем весьма эффектным.
Необыкновенный игрок
В начале 2016 года было объявлено о появлении программы для игры в го, создатели которой были уверены, что она сможет состязаться на равных с лучшими игроками-людьми. Учитывая фиаско всех предыдущих попыток, игроки в го всего мира отнеслись к этому известию чрезвычайно скептически. Тогда компания, разработавшая программу, бросила им вызов. Она организовала открытое соревнование с огромным денежным призом и предложила, чтобы в нем принял участие один из лучших игроков в го всего мира. На это согласился победитель многочисленных международных турниров кореец Ли Седоль. Матч должен был состоять из пяти партий, и победитель получал приз миллион долларов. Имя противника Ли Седоля – AlphaGo.
Программу AlphaGo создал Демис Хассабис. Он родился в Лондоне в 1976 году; его отец был греком с Кипра, а мать происходила из Сингапура. Оба его родителя были преподавателями и, по словам самого Хассабиса, богемными технофобами. Его сестра и брат связали свою жизнь с художественным творчеством: одна стала композитором, другой выбрал своим занятием литературу. Поэтому Хассабис не вполне понимает, как из него получился ученый зануда. Но одаренность и талантливость Хассабиса были отмечены еще в раннем детстве, особенно там, где дело касалось игр. В шахматах он проявил такие способности, что в одиннадцать лет занимал второе место в мировом рейтинге детей своего возраста.
Однако именно в этом возрасте на международном турнире в Лихтенштейне Хассабиса озарило: чем это все они занимаются? Зал был заполнен множеством первоклассных умов, которые исследовали логические хитросплетения великой игры. Но Хассабис внезапно осознал полную бессмысленность этого занятия. В интервью радиостанции Би-би-си он рассказал, что в тот момент подумал: «Мы растрачиваем свой разум впустую. Почему бы нам не направить всю эту интеллектуальную мощь на что-нибудь более полезное, например на борьбу с раком?»
После этого турнира (в котором он чуть было не победил, уступив голландскому чемпиону мира среди взрослых после десятичасовой борьбы) он шокировал своих родителей, заявив, что прекращает участвовать в шахматных соревнованиях. Все думали, что именно это станет делом всей его жизни. Но годы, посвященные шахматам, не были потрачены впустую. За несколько лет до того он потратил 200 фунтов денежного приза, полученного за победу над противником из США Алексом Чангом, на покупку первого в своей жизни компьютера – ZX Spectrum. Этот компьютер породил в нем страстное стремление добиться того, чтобы за него думали машины.
Вскоре Хассабис перешел на следующий уровень: у него появился Commodore Amiga. Этот компьютер уже позволял программировать игры, которые ему нравились. Шахматы были слишком сложны, но Хассабис сумел научить свой Commodore играть в «Отелло»[17]17
Один из вариантов игры реверси.
[Закрыть], игру, довольно похожую на го, – в ней используются черно-белые камни, которые переворачивают, когда они оказываются заперты в окружении камней другого цвета. Эта игра слишком проста для гроссмейстеров, и Хассабис испытывал свою программу на собственном младшем брате. Программа неизменно обыгрывала его.
Это было классическое программирование по принципу «если… то…». Нужно было вручную запрограммировать реакцию на каждый возможный ход противника: «если противник делает такой-то ход, мы делаем такой-то ответный ход». Все творческое содержание было обеспечено Хассабисом и его способностью угадывать правильные ответные ходы, необходимые для победы в игре. И все равно казалось, что в этом есть какое-то волшебство. Стоило запрограммировать правильное заклинание, и Commodore, подобно ученику чародея, делал все, что требовалось, чтобы довести игру до победы.
Хассабис стремительно закончил школу и уже в шестнадцать лет получил предложение изучать информатику в Кембридже. Кембридж завоевал его сердце, когда он посмотрел фильм «История жизни»[18]18
Life Story (в американском прокате – The Race for the Double Helix, т. е. «Гонка за двойной спиралью») – телефильм 1987 г. производства Би-би-си, рассказывающий об истории открытия структуры ДНК. Джефф Голдблюм сыграл в нем Джеймса Уотсона.
[Закрыть] с Джеффом Голдблюмом. «Я подумал: в Кембридже происходит вот такое? Можно туда поехать и открыть ДНК, сидя в пабе? Ух ты!»
В шестнадцать лет он еще не мог начать учиться в Кембридже, так что ему пришлось отложить поступление на год. Чтобы занять это время, он, завоевав второе место в конкурсе, который проводил журнал Amiga Power, устроился на работу в компанию, разрабатывавшую компьютерные игры. Там он создал свою собственную игру «Тематический парк» (Theme Park), в которой игроки должны были создать собственный тематический парк и управлять его работой. Игра имела огромный успех: она разошлась миллионными тиражами и была удостоена премии «Золотой джойстик» (Golden Joystick). Накопленных денег должно было хватить на время обучения в университете, и Хассабис отправился в Кембридж.
Учебный курс познакомил его с великими деятелями революции искусственного интеллекта – Аланом Тьюрингом и его тестом на разумность, Артуром Сэмюэлом и его программой для игры в шашки, Джоном Маккарти, который и придумал термин «искусственный интеллект», Фрэнком Розенблаттом и его первыми опытами с нейронными сетями. Именно они были теми гигантами, на плечах которых стремился стоять Хассабис. Именно на лекциях в Кембридже он слышал, как его преподаватель повторяет как мантру, что компьютеры никогда не смогут играть в го из-за творческих и интуитивных аспектов этой игры. Это утверждение подействовало на молодого Хассабиса, как красная тряпка на быка. Он покинул Кембридж, преисполненный решимости доказать, что преподаватель ошибался.
Его идея состояла вот в чем: нужно попытаться написать не саму программу, способную играть в го, а некую метапрограмму, которая, в свою очередь, будет писать программу, играющую в го. Идея эта казалась безумной, но суть ее сводилась к тому, что метапрограмма должна быть создана таким образом, чтобы она могла учиться на своих собственных ошибках по мере того, как играющая программа проводит все больше партий.
Хассабис узнал о реализации похожей идеи в 1960-х годах исследователем искусственного интеллекта Дональдом Мики. Мики написал алгоритм под названием MENACE[19]19
Совпадает со словом menace – угроза (англ.).
[Закрыть], который, начав с нуля, научился оптимальной стратегии игры в крестики-нолики. Название MENACE было акронимом слов Matchbox Educable Noughts And Crosses Engine – «Обучаемое устройство из спичечных коробков для игры в крестики-нолики». Для демонстрации работы своего алгоритма Мики собрал систему из 304 спичечных коробков, представлявших все возможные расположения крестиков и ноликов, встречающиеся в процессе игры. В каждом коробке были разноцветные бусины, представляющие возможные ходы. По окончании каждой партии бусины, соответствующие сделанным ходам, вынимались из коробков в случае проигрыша или добавлялись в них в случае победы. По мере увеличения числа партий, сыгранных алгоритмом, распределение бусин по коробкам все больше соответствовало почти совершенной стратегии игры. Именно эту идею обучения на собственных ошибках Хассабис и хотел использовать для тренировки алгоритма в игре в го.
У Хассабиса была хорошая модель, которую можно было положить в основу такой стратегии. Мозг новорожденного младенца не запрограммирован на преодоление всех препятствий, которые встретятся ему в жизни. Вместо этого он запрограммирован на обучение при взаимодействии с окружающей средой.
Если Хассабис собирался использовать в осуществлении своей мечты о создании программы, играющей в го, тот метод, которым мозг обучается решать задачи, ему явно могло помочь знание о том, как работает мозг. Поэтому он решил поступить в аспирантуру по нейробиологии при Университетском колледже Лондона. Именно там, во время перерывов на кофе в процессе лабораторной работы, Хассабис начал обсуждать свои планы создания компании для испытания своих идей с нейробиологом Шейном Леггом. То обстоятельство, что они никогда не рассказывали своим преподавателям о мечте посвятить свою жизнь разработкам искусственного интеллекта, показывает, насколько незавидной была репутация искусственного интеллекта еще лет десять назад. Но они чувствовали, что идут по верному следу, и в сентябре 2010 года двое ученых решили создать вместе с Мустафой Сулейманом, другом детства Хассабиса, свою фирму. Так явилась на свет компания DeepMind.
Компании нужны были деньги, но поначалу Хассабису никак не удавалось привлечь хоть какие-нибудь капиталы. Большинству инвесторов идея компании, посвященной играм и исследованиям интеллекта, казалась недостаточно серьезной. Однако нашлись и такие, кто поверил в эту идею. Среди инвесторов, с самого начала вложивших средства в этот проект, были Илон Маск и Питер Тиль. Тиль никогда не инвестировал за пределами Кремниевой долины и пытался уговорить Хассабиса перебраться на Западное побережье США. Но Хассабис, родившийся и выросший в Лондоне, упорно стоял на своем, утверждая, что в Лондоне гораздо больше невостребованных талантов, которых можно привлечь к делу. Хассабис вспоминает абсурдный разговор, случившийся у него с юристом Тиля. «“А в Лондоне есть законы об интеллектуальной собственности?” – невинным тоном спросила она. По-моему, им казалось, что мы из какого-нибудь Тимбукту!» Основателям компании пришлось отдать инвесторам огромную часть ее акций, но зато они получили деньги, позволявшие приступить к решению задачи ИИ.
Создание машины, способной научиться играть в го, все еще казалось отдаленной мечтой. Сперва они взялись за решение задачи, которая представлялась менее заумной: освоение игр Atari 1980-х годов. Вероятно, компания Atari виновата во множестве прогулов уроков учениками конца 1970-х и начала 1980-х. Я лично хорошо помню, как много времени я потратил, играя на приставке Atari 2600 одного своего друга в Pong, Space Invaders и Asteroids. Эта приставка была одним из первых устройств, конструкция которых позволяла играть не в одну, а в несколько разных игр, которые загружались на кассетах. Такая система открыла возможность создать с течением времени целый спектр разнообразных игр. Более ранние приставки позволяли играть только в одну игру, которая была физически встроена в них.
Одна из моих любимых игр на Atari называлась Breakout. Параллельно верхней кромке экрана шла стена из разноцветных кирпичиков, а игрок управлял расположенной внизу ракеткой, которую можно было двигать влево или вправо при помощи джойстика. Шарик отскакивал от ракетки и летел в сторону кирпичиков. Каждый раз, когда он попадал в какой-нибудь кирпичик, кирпичик исчезал. Целью игры было убрать с экрана все кирпичики. За попадание в один из желтых кирпичиков, из которых состояла нижняя часть стены, начислялось одно очко. Красные кирпичики в верхней части приносили по семь очков. По мере исчезновения кирпичиков ракетка становилась все меньше, а шарик летал все быстрее, что делало игру труднее.
Особенное удовольствие мы испытали однажды, когда придумали хитрый способ взломать эту игру. Нужно было пробить сквозь кирпичики на краю экрана туннель; тогда, если шарик пролетал сквозь него и оказывался сверху от стены, он начинал скакать, отражаясь от верхней кромки экрана и верхних, «дорогих», кирпичиков и постепенно уничтожая стену. Игрок мог расслабиться и просто смотреть за этим процессом, пока шарик в конце концов не прилетал сквозь стену обратно вниз. Нужно было только держать ракетку наготове, чтобы снова отбить шарик вверх. Очень приятная была стратегия!
Хассабис и другие члены группы, которую он собирал в это время, также много играли в молодости в компьютерные игры. Возможно, их родителям было приятно узнать, что время и силы, потраченные на эти игры, не были растрачены впустую. Игра Breakout оказалась идеальным полигоном для проверки способности коллектива DeepMind запрограммировать компьютер на обучение играм. Написать программу для каждой отдельной игры было бы работой сравнительно несложной. Но Хассабис и его коллеги ставили перед собой гораздо более трудную задачу.
Они хотели написать программу, которая получала бы на входе состояние пикселей экрана и текущий счет и играла так, чтобы максимизировать счет. Правила игры программе не сообщаются: она должна случайным образом экспериментировать, двигая в разные стороны ракетку в Breakout или по-всякому стреляя из лазерной пушки по снижающимся кораблям пришельцев в Space Invaders. Каждый раз, когда программа делает ход, она может оценить, привел ли он к увеличению счета или не произвел никакого эффекта.
Эта программа реализует возникшую еще в 1990-е годы концепцию обучения с подкреплением, которая предполагает корректировку вероятности определенных действий в зависимости от воздействия на функцию вознаграждения или счет. Например, в игре Breakout можно принять только одно-единственное решение – сдвинуть ракетку, расположенную внизу экрана, влево или вправо. Изначально выбор делается с вероятностью 50: 50. Но если случайное перемещение ракетки приводит к попаданию по шарику, то через короткое время после этого счет увеличивается. Тогда программа производит пере-калибровку вероятности смещения влево или вправо с учетом этой новой информации. Это увеличивает вероятность смещения в том же направлении, в котором движется шарик. Новшеством было совмещение такого обучения с нейронными сетями, которые должны были оценивать состояние пикселей и решать, какие именно элементы коррелируют с ростом счета.
Вначале, поскольку компьютер просто пробовал случайные ходы, его игра была ужасна; он почти не набирал очков. Но каждый раз, когда очередной случайный ход приводил к увеличению счета, программа запоминала этот ход и более активно использовала его в дальнейшем. Постепенно случайные ходы прекратились, и стал проявляться более обоснованный рисунок игры – ходы, которые, как программа выяснила на опыте, по-видимому, способствовали росту счета.
Видеоролик, который сотрудники DeepMind приложили в качестве иллюстрации к написанной впоследствии статье об этой работе, стоит посмотреть. В нем показано, как программа учится играть в Breakout. Сначала видно, как она случайным образом двигает ракетку взад и вперед, чтобы посмотреть, что из этого выйдет. Затем, когда шарик наконец попадает в ракетку, отскакивает от нее и разбивает кирпичик, отчего увеличивается счет, программа начинает переписывать самое себя. По-видимому, соприкосновение пикселей ракетки с пикселями шарика приносит положительный результат. После 400 партий программа играет уже по-настоящему сильно: ракетка постоянно отправляет шарик то туда, то сюда.
Но настоящий шок я испытал, когда увидел, что она открыла, сыграв 600 партий. Она нашла нашу лазейку! Не знаю точно, сколько партий потребовалось сыграть нам в детстве, чтобы освоить этот фокус, но, судя по количеству времени, которое потратили мы с другом, их вполне могло быть и больше. И вот тебе на. Манипулируя ракеткой, программа стала пробивать по бокам туннели, чтобы шарик застревал в пространстве между верхом стены и верхним краем экрана. После этого счет начинает расти очень быстро, а компьютеру почти ничего не приходится делать. Насколько я помню, когда мы с моим другом открыли этот трюк, мы запрыгали от восторга. Машина же не ощутила ничего.