Текст книги "Фреймы для представления знаний"
Автор книги: Марвин Минский
сообщить о нарушении
Текущая страница: 10 (всего у книги 12 страниц)
Приложение.
Критика логистического подхода
«Когда кто-либо пытается описать реальные мыслительные процессы с помощью традиционно-формальной логики, результат часто оказывается неудовлетворительным; в этом случае, несмотря на существование целого набора правильных операций, теряется смысл процессов, а то, что было жизненно важным, значительным, творческим как-то исчезает из формулировок».
М.Вертхаймер (1959)
В приложении я хотел бы разъяснить, почему считаю большинство логических подходов малоэффективными. Еще со времен Аристотеля предпринимались серьезные усилия, чтобы представить рассуждения с помощью логистической системы, т.е. такой системы, в которой полностью отделены друг от друга предложения, которые содержат конкретную информацию, и силлогизмы или общие законы построения правильных высказываний. На протяжении веков никому не удалось продемонстрировать успешное функционирование такой системы на реальном и значительном множестве высказываний. Я полагаю, что подобные попытки будут и впредь заканчиваться неудачно, но не вследствие дефектов логических формализмов, а из-за самого характера логистического метода. (Последние опыты базировались на логике предикатов первого порядка, но не в ней корень зла).
Типичная попытка имитации рассуждении на уровне здравого смысла начинается с выбора "микромира" ограниченной сложности. С одной стороны, задаются цели высокого уровня, например: "Я хочу попасть из дома в аэропорт"; с другой – множество небольших высказываний – аксиом, например: "Автомобиль находится в гараже", "Никто не выходит из дома раздетым", "Чтобы попасть в какое-то место, человек должен двигаться в том направлении" и т. д. Для работы системы используются процедуры эвристического поиска, с помощью которых должна быть доказана достижимость поставленной цели и найден соответствующий перечень необходимых действий.
Я не буду останавливаться и анализировать историю всех имевших место попыток получить из набора аксиом целевые высказывания, а приведу по этому вопросу свое мнение: в простых случаях можно добиться, чтобы подобные системы могли "действовать", но по мере приближения выбранного микромира к реальному трудности становятся непреодолимыми. Проблема поиска подходящих аксиом или, иначе, проблема "задания фактов" на основе всегда логически правильных допущений оказалась значительно более трудной, чем это ранее предполагалось.
ФОРМАЛИЗАЦИЯ ЗНАНИЙ. Главной проблемой в изучении интеллекта является проблема создания основы знаний. Мы слишком мало знаем о содержании и структуре обычных знаний независимо от того, какую цель преследуют наши исследования: создание логистических систем или что-либо иное. Самая простая система здравого смысла должна быть информирована о таких категориях, как причина и следствие, время, цель, местоположение, процесс, вид знаний; ей также необходимы сведения о том, как приобретаются, представляются и используются знания. В этой области необходимы серьезные эпистемологические исследования. Работы Дж.Маккарти (смотрите, например, Дж.Маккарти, 1968а,б; Дж.Маккарти и П.Хэйес,1969) и Е.Сандуолла(1970) ценны именно в этом плане. У меня еще не сложилось определенного представления о том, как следует проводить подобные исследования; замечу лишь, что выбранный аппарат представления будет сильно влиять на ценность решаемых задач и здесь уже логистика приносит вред.
РЕЛЕВАНТНОСТЬ. Ключевой является проблема выбора из избыточного множества релевантной информации. Современная эпистемология во многом отличается от прежних теорий познания. Необходимы новые и общие представления о вычислениях. Наиболее ценная по своему характеру часть знаний не может передаваться нам извне, скорее, она внутренне должна быть доказана. Для каждого факта человеку требуются метафакты, сообщающие о том, каким образом и когда их можно использовать. В пределах ограниченного микромира можно установить способы взаимодействия между ситуациями, действиями и случайными явлениями. И хотя данная система сможет на базе заданных аксиом выполнять дедуктивные построения, она не сможет определить, когда ей следует это делать, а когда нет.
Например, человек может пожелать сообщить системе следующее: "Не переходи дорогу, если приближается автомобиль". Но он не может потребовать того, чтобы система доказала, будто автомобиль не приближается, поскольку подобное доказательство обычно будет совсем не тем, что нам нужно. Системе PLANNER (С.Хьюитт,1971) можно дать указание попытаться доказать, что автомобиль приближается, и сообщить, что только в том случае, если эта (ограниченная) попытка дедуктивного вывода окажется безуспешной, можно переходить улицу. Чисто логистическая система ничего подобного сделать не позволяет. Первой реакцией должно быть:
"Посмотреть налево, посмотреть направо". Но если сообщить системе данные о скоростях, тупиковых переулках, вероятностях обгона на повороте и др., доказательство становится необозримым и потому невозможным. Нам следует представить и сделать понятным системе слово "обычно". В конечном счете, потребуется понять компромисс между гибелью и деятельностью, ибо нельзя ничего сделать, будучи парализованным страхом.
ЕДИНООБРАЗИЕ. Даже сформулировав ограничения на использование релевантной информации, в логистических системах нам все равно придется столкнуться с проблемой её правильного использования. В таких системах все аксиомы обязательно должны быть "разрешенными", ибо с их помощью вырабатываются новые заключения. Любая дополнительная аксиома ведет к появлению новых теорем, и поэтому ни одну из аксиом потерять нельзя. Вся сложность в том, что нет явного способа указать системе, какие выводы следует делать, а какие – не следует. Если мы зададим достаточно аксиом, чтобы на их основе вывести все требуемые нам следствия, то, кроме того, мы докажем значительно большее число других вещей. Если, однако, попытаться изменить это положение, задав ряд аксиом о релевантности данных, то это приведет лишь к росту числа нежелательных теорем: к старым добавятся такие теоремы, которые будут содержать утверждения относительно их нерелевантности.
Логиков обычно интересуют сами процедуры доказательств, они не обращают внимания на возможный рост дедуктивных систем и поэтому могут получать те утверждения, которые их интересуют. При развитии интеллекта ситуация будет иной. Субъект должен научиться определять, во-первых, какие из признаков в каждой ситуации основные, а какие нет, и, во-вторых, какие виды дедукции не должны восприниматься слишком серьезно. Обычная реакция на рассказы лгунишки смех, из чего следует сделать вывод, что отклонять следует не его исходную посылку-аксиому, а его дедуктивные построения. В этой связи возникает следующая проблема.
ЗНАНИЯ ДЛЯ УПРАВЛЕНИЯ ПРОЦЕДУРАМИ. Отделение аксиом от процесса вывода делает невозможным использование классифицированных знаний об имеющихся в системе утверждениях или фактах. Мы также не можем включить в нее знания об управлении процессом дедукции. Проблема состоит в том, чтобы аксиоматизировать наши представления об аппроксимации и близости объектов друг к другу. Человеку привычно свойство транзитивности, скажем:
(А около B) / (B около С) => (А около С),
но неограниченное применение такого правила приведет к тому, что все предметы окажутся расположенными по соседству друг с другом. Можно применить нечто вроде технической шутки:
(А (около)1 В) / (В (около)1 С) => (А (около)2 С),
допустив при этом, скажем, только пять степеней для понятия "около": около, (около)2, .... (около)5. Можно изобрести какие-то аналоговые величины или параметры. Но в логистической системе нельзя ограничиться применением, например, трех правил транзитивности подряд, если на то нет серьезных оснований. Я не знаю пока, как же следует разрешить эту проблему, и, по имеющимся сведениям, никто еще не предложил в этом плане чего-либо делающего ему честь. Хочу лишь отметить тот факт, что, поскольку логистический подход достаточно распространен, никто непредвзято не исследовал подобный тип процедурных ограничений.
КОМБИНАТОРНЫЕ ПРОБЛЕМЫ. Логическим системам, на мой взгляд, не удастся избежать комбинаторного взрыва в том случае, если будет найдена возможность представления более обширных знаний. Хотя время от времени мы получаем сведения об успешной работе подобных систем в ограниченных микромирах, следует иметь в виду, что для исследований по искусственному интеллекту это обычная ситуация: система высокого качества, решающая трудные головоломки, часто оказывается непригодной для работы в более крупных проблемных областях.
СОВМЕСТИМОСТЬ И ПОЛНОТА, В процессе своей умственной деятельности человек критически оценивает имеющиеся у него планы и перечни целей, пересматривая свои знания и правила их использования. Некоторые из этих действий можно непосредственно внести в саму программу доказательства теорем и использовать их для последующего самоанализа, но человек в действительности хочет представлять их себе более естественным образом, в виде свода декларативных правил. Почему же тогда ученые стремятся, чтобы именно логистические системы выполняли эту работу? Действительная причина заключается в том, что такие системы весьма просты и элегантны; если бы они еще были и эффективны, было бы просто замечательно. Чаще указывают на другую причину, неверную по своей сути, именно, что подобные системы математически строги, поскольку они обладают свойствами:
(1) полноты, т.е., "можно доказать все истинные утверждения", и
(2) совместимы, т.е. "нельзя доказать ни одно ложное утверждение".
По всей видимости, люди часто не понимают, что полнота – это достоинство не такое уж редкое. Оно является тривиальным следствием любой процедуры исчерпывающего поиска, поэтому всякая система может быть переведена в категорию "полных", если к ней подсоединить любую другую полную систему и после этого чередовать этапы вычислений. Совместимость – понятие более тонкое, оно предполагает отсутствие противоречивости в наборах аксиом, Мне кажется, что в системах искусственного интеллекта подобного требования не следует придерживаться, ибо ни одна система естественного интеллекта не является полностью совместимой. Важно то, каким образом человек разрешает парадокс или находит выход из конфликтной ситуации, каким образом человек учится на своих и чужих ошибках, как распознает и отбрасывает всевозможные несоответствия.
Подобные неправильные представления привели к тому, что теорема неполноты Гёделя стимулировала появление совершенно беспочвенных утверждений о различиях между человеком и машиной. Никто, видимо, не заметил ее более "логичной" интерпретации, именно, что стремление к совместимости налагает определенные ограничения.
Конечно, есть и будут различия между людьми (которые доказуемо несовместимы) и машинами, конструкторы которых создавали их на основе этого принципа. Но для машин вовсе не является необходимым программирование на основе только совместимых логических систем. Те же философские рассуждения, которые выше не были нами приведены, но, тем не менее, подразумевались, использовали это ненужное допущение. (Полученные не так давно результаты, показывающие совместимость современной теории множеств, рассматриваются мною не как доказательство потенциальной возможности ее использования в системах искусственного интеллекта, а, наоборот, как подтверждение ее вероятной неприменимости для наших целей.)
Когда одного известного математика предупредили, что, сделав еще один логический шаг в своем доказательстве, он придет к парадоксу, тот совершенно серьезно ответил: "А я не буду делать этот шаг". Значительная часть наших обычных (и даже математических) знаний напоминает знания людей – представителей опасных профессий, которые должны очень хорошо знать, когда и какие действия следует считать неразумными. В наших условиях нужно дать ответы на следующие вопросы: в каких случаях возможно применение тех или иных видов аппроксимаций; когда различные критерии могут предопределить получение различимых оценок; какие утверждения и какие типы ссылок допустимы и другое. Концепции, основанные на свойстве транзитивности, представляют значительный интерес и от них вовсе не следует отказываться лишь потому, что еще не найдена удовлетворительная система аксиоматизации. Подводя итоги, отметим следующее.
1. Логические рассуждения недостаточно гибки и не могут служить основой для мышления; они представляются мне в виде набора эвристических методов, эффективных только тогда, когда применяются к упрощенным схематическим планам. Совместимость, требуемая логикой, в иных аспектах обычно не обеспечивается и. вероятно, даже нежелательна, поскольку совместимые системы по своим возможностям будут, видимо, недостаточно мощными.
2. Я сомневаюсь в возможности эффективного представления обычных знаний в виде совокупности простых, независимых, "истинных" утверждений.
3. Стратегия полного отделения конкретных знаний от общих правил вывода слишком радикальна. Мы нуждаемся в разработке более непосредственных способов соединения фрагментов знаний, позволяющих дать совет, каким образом их следует использовать.
4. Декларативная форма представления информации, которую долгое время считали наиболее подходящей для проведения дедуктивных выводов, оказалась не столь уже необходимой, ибо мы нашли способы манипуляции структурными и процедуральными описаниями.
Я не собираюсь утверждать, что мышление во многом может самостоятельно развиваться без чего-либо подобного рассуждениям. Мы, без сомнения, нуждаемся и используем элементы силлогистической дедукции, однако их применение должно подчиняться процессам «согласования» и «конкретизации», вызванным к жизни другими функциональными потребностями. К традиционной формальной логике следует подходить как к техническому инструменту для уточнения всего, что может быть выведено из некоторого множества данных или для подтверждения того, что данное следствие можно получить совершенно определенным образом; формальная логика совершенно непригодна для обсуждения того, какая информация требуется и что должно выводиться при обычных обстоятельствах. Подобно абстрактной теории синтаксиса формальная логика нуждается в мощной процедуральной семантике, без которой она попросту бессильна в сложных проблемных ситуациях.
Не следует категорически утверждать, что принцип совместимости, столь важный для математической логики, оказал губительное влияние на исследования в области моделирования мышления. Однако в общем плане он привел к роковой концепции о потенциальных возможностях машин вообще. На "логическом" уровне были заблокированы попытки представления обычных знаний, ибо все работы предполагали поиск набора таких истин, которые бы не зависели от контекста и были почти всегда сами по себе справедливы. На уровне моделирования интеллекта был задержан процесс осознания того факта, что мышление всегда начинается с наводящих на мысль, но несовершенных планов и образов, которые (если это вообще имеет место) постепенно совершенствуются и заменяются лучшими вариантами.
Ф. М. Кулаков
Приложение к русскому изданию
Предлагаемая советскому читателю книга известного американского ученого Марвина Минского посвящена одной из наиболее важных и сложных проблем, обсуждаемых ныне в рамках исследований по «искусственному интеллекту», – проблеме представления знаний в памяти ЭВМ. Суть ее заключается в том, что любое «осмысленное» поведение искусственной системы в условиях реального внешнего мира требует наличия у этой системы специально организованной модели этого мира. Данные ряда фундаментальных наук и в первую очередь психологии, генетики, цитологии позволяют утверждать, что способность к информационному моделированию, к внутреннему воссозданию окружающей обстановки является основополагающей и необходимой в жизни и деятельности не только человека, но и животных. Создание искусственного интеллекта является целью бурно развивающегося нового научного направления, вся история которого свидетельствует в пользу правильности модельного подхода к решению данной проблемы. Особую значимость приобретают вопросы представления знаний о свойствах, характеристиках и закономерностях реальных внешних сред для построения робототехнических систем, обладающих широкими функциональными возможностями и высокой степенью автономии. Подобные кибернетические устройства, именуемые, интегральными роботами, разрабатываются как комплексные системы, способные воспринимать и анализировать информацию о внешнем мире, принимать самостоятельные решения и формировать управляющие воздействия для исполнительных органов с целью реализации принятых решений. Очевидно, что модель мира робота должна отражать совокупность объектов и отношений реального мира, существенных для решения некоторого множества задач, на которые нацелен робот.
Сложность решения проблемы представления чрезвычайно велика, и это объясняется в первую очередь недостатком наших знаний о механизмах человеческого мышления. Результаты, полученные при изучении человеческого интеллекта, оказывают все большее влияние на решение проблемы искусственного интеллекта. Последние в свою очередь помогают ученым глубже понять принципы работы человеческого мозга.
Существует несколько направлений исследований в области искусственного интеллекта, отличающихся, в частности, своими подходами к проблеме представления знаний.
Наиболее известные методы машинного представления знания: логистический, теоретико-графовый, а также метод, использующий для описания мира вектор-функции, определенные на нормированных пространствах.
Логистический метод, используемый, например, при построения такой известной системы для решения задач, как STRIPS (P.Файкс, Н.Нильсон, 1973), основан на привлечении языка исчисления предикатов первого порядка для формирования модели внешнего мира, на использовании понятий пространства состояний, а также методов доказательства теорем и эвристических методов как основных механизмов поиска решений. Модель в данном случае представляет собой систему аксиом – предложений языка исчисления предикатов первого порядка, определяющую всю совокупность объектов, характеристик и свойств внешнего мира робота, существенных для его функционирования. В случае относительно простых, статических сред системы аксиом выглядят достаточно компактно, а существующие поисковые процедуры (такие, как метод резолюций и его модификации, эвристика "анализа целей и средств" и др.) оказываются мощным средством для выработки планов действий. Но как только возникает задача создания машинной модели реальной, динамичной, недетерминированной внешней среды, то логистический подход оказывается несостоятельным вследствие резкого усложнения, как самих конструкций моделей, так и формализованного представления в них смысловых отношений между элементами внешней среды.
Кроме того, с усложнением внешнего мира число формализующих его аксиом лавинообразно растет, что приводит не просто к громоздкости машинной модели окружающей среды, но к ряду принципиальных трудностей. Они связаны, во-первых, с выбором только того подмножества из всего множества аксиом, которое имеет непосредственное отношение к решаемой в данный момент времени задаче, и, во-вторых, с активизацией и выполнением лишь тех дедуктивных процедур, которые существенны для получения конечного результата. Проблема заключается совсем не в том, чтобы из множества выведенных отобрать нужные теоремы, а в том, чтобы не выводить ненужных.
Аналогичные по характеру трудности возникают при использовании теоретико-графового метода, в рамках которого модель внешнего мира представляется в виде графа, узлы которого соответствуют возможным состояниям внешней среды, а дуги – возможным действиям, переводящим систему из одного состояния в другое.
Ограничены возможности описания реального мира и с помощью вектор-функций, определенных на нормированных пространствах, что имеет место в случае методов, использующих основные положения теории автоматического управления (Ф.М.Кулаков,1976).
Одним из возможных путей решения проблемы явился подход, предполагающий использование семантических связей между понятиями, включенными в модель внешнего мира и учет прагматики внешнего мира. Это нашло свое отражение в исследованиях советских ученых, например, П.М.Амосова в области развития М-сетей, Д. А. Поспелова, В. Н. Пушкина и Ю. И. Клыкова по ситуационному управлению, а также ряда зарубежных специалистов, в том числе Р.Шенка по теории семантической зависимости (conceptual dependency), Дж. Уилкса в области семантики предпочтений (preference semantics), Ч. Ригера по теории семантических наложений (conceptual overlays) и др.
Наиболее значительной среди появившихся за последние годы была теория фреймов (frames) M. Минского, привлекшая к себе пристальное внимание специалистов в области искусственного интеллекта (Р. Шенк, Р. Абельсон, 1975; Дж. Лаубш, 1975; Дж. Майлопулос, П. Коэн, А. Борджида, Л. Шугар, 1975; Д. А. Поспелов, 1976; Д. А. Поспелов, Е. Н. Ефимов,1977; Н. Н. Перцова,1977 и др.). Впервые теория была опубликована в 1974 г.
В своей теории М. Минский отказался от попыток формировать модель внешнего мира на основе разрозненных, отдельных фактов или понятий. Центральным моментом является его утверждение о том, что любая машинная модель, отражающая сложности реального мира, должна строиться в виде достаточно большой совокупности определенным образом сформированных данных – фреймов, представляющих собой модели стереотипных (часто повторяющиеся) ситуации. Ситуация понимается здесь в обобщенном смысле, т. е. это может быть действие, рассуждение, зрительный образ, повествование и т.д. Фрейм представляет собой не одну конкретную ситуацию, а наиболее характерные, основные моменты ряда близких ситуаций, принадлежащих одному классу. В переводе с английского frame означает скелет, остов, рамка, что лишний раз подчеркивает общность представленных в нем сведений о моделируемом явлении. Графически фрейм можно изобразить в виде сети, состоящей из узлов и связей между ними. Каждый узел представляет собой определенное понятие, которое – и в этом заключается основной смысл теории – может быть, а может и не быть задано в явном виде. В последнем случае оно может быть конкретизировано в результате процесса согласования данного фрейма с некоторой конкретной ситуацией, имеющей место во внешнем мире. Незаданные в явном виде узлы называются терминалами. Они образуют нижние уровни графовой структуры, тогда как на верхних уровнях располагаются понятия, которые всегда справедливы в отношении представляемой данным фреймом ситуации. Таким образом, совокупность заданных в явном виде узлов – понятий образует основу для "понимания" любой конкретной ситуации из определенного для данного фрейма класса ситуаций. "Понимание" происходит путем конкретизации терминалов и согласования возможных для каждого из них понятий с вполне определенной, существующей во внешнем мире обстановкой. Центральным моментом является использование одних и тех же терминалов различными фреймами, что позволяет координировать информацию, собираемую из разных источников. Группы связанных между собой фреймов объединяются в системы, которые могут отражать действия, причинно-следственные связи, изменения понятийной точки зрения и т. д.
В своей теории М. Минский не проводит границы между теорией человеческого мышления и теорией построения "думающих" машин (искусственного интеллекта). Он полагает, что процессы человеческого мышления базируются на хранящихся в его памяти материализованных, многочисленных запомненных структурах данных – фреймах, с помощью которых человек осознает зрительные образы (фреймы визуальных образов), понимает слова (семантические фреймы), рассуждения, действия (фреймы-сценарии), повествования и т.д. Процесс понимания при этом сопровождается активизацией в памяти соответствующего фрейма и согласованием его терминальных вершин с текущей ситуацией. В случае неудачи из памяти с помощью сети поиска информации, объединяющей системы фреймов, "выбирается" другой фрейм, терминалы которого, возможно, окажутся между собой в более подходящих отношениях применительно к той же рассматриваемой ситуации.
Процесс последовательной замены одного фрейма другим особенно наглядно проявляется в таких областях человеческого мышления, как понимание естественного языка, рассуждение, вывод по аналогии и др. Это следует из наших интуитивных представлений о процессе мышления, который начинается с наводящих на мысль, но несовершенных образов, прогрессивно заменяемых лучшими, но всё еще несовершенными идеями.
Представление знаний о мире с помощью систем фреймов оказывается весьма плодотворным во многих областях исследований по искусственному интеллекту, начиная от понимания естественного языка и кончая проблемами машинного восприятия слуховых и зрительных образов. Подтверждением тому служат многочисленные работы таких известных специалистов в области искусственного интеллекта, как Р.Шенк, Р.Абельсон, Ч.Ригер, Е.Чарняк, Дж.Уилкс и др., посвященные конкретизации и развитию теории фреймов.
Весьма обнадеживающим является использование концепции фрейма и применительно к задаче построения информационно-управляющего комплекса манипуляционного робота. Исследования в этом управлении проводятся в Ленинградском научно-исследовательском вычислительном центре АН СССР под руководством В.М.Пономарева и Ф.М.Кулакова.
Вместе с тем следует отметить, что подход М.Минского к решению проблемы представления знаний не лишен недостатков. В частности, человек способен понять не только известные, но и новые ситуации, к чему фреймы пока еще не приспособлены. Видимо, разработка механизмов машинного "понимания" новых фактов на 5азе системы фреймов точно так же, как и развивающихся во времени действий, еще впереди.
Существует еще целый ряд вопросов, которые не затрагиваются автором в данной книге. Например, проблема принятия решений на базе системы фреймов, в том числе проблема планировании действий робота. Однако это не следует понимать как недостаток данной работы, поскольку автор ставил перед собой цель изложить в ней общие вопросы теории фреймов и дать толкование ее основных положений.
Своеобразное изложение автором материала довольно трудно для восприятия. Именно поэтому книга дополнена настоящим материалом, в котором сделана попытка краткой интерпретации работы М.Минского. Этот материал не претендует на полное отображение всех идей настоящей книги, а имеет более конкретный характер благодаря включению в него примеров некоторых приложений теории фреймов. Примеры взяты из работ Р. Шенка (1975), Р. Абельсона (1973), И. Ригера (1975), а также составлены автором настоящего приложения.
Чтобы сделать изложение материала этого приложения замкнутым, понятным без обращения к переводу книги, в него включены в сжатой форме некоторые фрагменты перевода. Хотелось бы отметить, что весьма сложная форма изложения материала первоисточника в сочетании с еще не устоявшейся терминологией серьезно затрудняли перевод. В связи с этим считаю своим приятным долгом выразить благодарность В. М. Пономареву, Д. А. Поспелову, и В. Л. Стефанюку за ценные советы в процессе работы над книгой.