Текст книги "Фреймы для представления знаний"
Автор книги: Марвин Минский
сообщить о нарушении
Текущая страница: 2 (всего у книги 12 страниц)
1.4. Отслеживание образа куба
«...при обычном способе осмотра любого непрозрачного предмета видимая часть его поверхности обычно занимает все наше внимание, а о противоположной, даже точно такой же его части человек обычно в это время не думает; однако малейшая попытка определить вид другой стороны предмета для построения общей картины уточняет наше первое представление о нем...»
У. Хогарт (1955)
Я начинал изложение с разработки упрощенной системы фреймов для представления перспективных видов куба. Далее она будет модифицирована для представления внутреннего вида комнат и для приобретения, использования и обновления информации, необходимой человеку при перемещениях внутри дома.
В соответствии с использованным в работе А.Гузмана(1968) символическим представлением тел правильной формы с помощью "областей" и "связей" между ними можно допустить, что результатом восприятия внешнего вида куба является структура, подобная тон, что показана на рис.1.1. Подструктуры А и В представляют детали и обозначения двух граней куба. При перемещении вправо грань А исчезает из поля зрения, тогда как видимой становится новая грань С. Если теперь, находясь по отношению к кубу в ином месте, попытаться заново провести весь анализ сцены, то придется забыть о том, что было известно об А; затем заново найти информацию о В и описать грань С.
Но поскольку мы переместились вправо, то можем сохранить информацию о В, связав ее с терминалом «левой грани» второго фрейма куба. Чтобы сохранить (на всякий случай!) сведения об А, мы связываем его с дополнительным терминалом невидимой грани в новой схеме куба, показанной на рис.1.2.
Если же потом переместиться обратно влево, то можно восстановить первоначальную картину без перцептивных вычислений, для этого потребуется только лишь восстановить связи верхнего уровня с первым фреймом куба. Теперь нам необходима информация о грани С. Для этого понадобится добавить еще одну невидимую грань справа в первом фрейме куба (рис.1.3).
Можно продолжить эту процедуру, чтобы подобным образом представить результаты осмотра предмета с других сторон. Это приведет к более полной системе фреймов, в которой каждый фрейм представляет собой различные «перспективные виды» куба. На рис.1.4. показаны три фрейма, соответствующие перемещению влево и вправо на угол в 45 градусов. Если продолжить этот анализ, то результирующая система может стать очень большой. Для более сложных объектов требуется большее число различных проекций. Не ясно, все ли они необходимы в обычных условиях или же требуется только одна проекция для каждой их разновидности. Это зависит от обстоятельств.
Подобный тип сложной структуры, конечно же, не создается заново каждый раз, когда человек осматривает какой-либо предмет. Видимо, в долговременной памяти ранится большой набор систем фреймов, и одна из них активируется, когда данные и ожидания дают возможность предполагать, что она соответствует видимой картине. Как же это происходит? Если выбранный фрейм подходит не в той мере, как хотелось бы, и не удается быстро найти более подходящий, а вопрос достаточно важен, то происходит приспособление наилучшего из обнаруженных фреймов к реальной картине и он запоминается для последующих применений.
Строятся ли такие системы фреймов для каждого знакомого нам объекта? Это выглядело бы слишком экстравагантно. Представляется более вероятным, что у человека имеются специальные системы для представления наиболее важных объектов, а, кроме того, множество фреймов для обычно используемых «основных форм»; их сочетания образуют фреймы для новых применений.
Различные фреймы системы похожи на многочисленные "модели" объектов, описанные А.Гузманом(1967) и П.Уинстоном(1970). Различные фреймы аналогичны различным видам изображений, а имена межфреймовских указателей соответствуют перемещениям или действиям, изменяющим местоположение наблюдателя. Ниже будет обсуждаться вопрос о том, следует ли рассматривать эти виды в качестве двух– или трехмерных моделей объектов.
В каждый фрейм включены терминалы, служащие для присоединения указателей, идущих к его субструктурам. Одна и та же физическая черта может присутствовать в различных видах изображения объекта, следовательно, соответствующий ей терминал будет совместно использоваться сразу несколькими фреймами. Это позволяет представлять в одном месте информацию, собираемую не только в разное время и в разных местах, но и не зависящую от позиции наблюдателя. Это важно и для невизуальных применений систем фреймов.
Ход процесса согласования, результатом выполнения которого является решение, соответствует ли реальной ситуации выбранный фрейм или нет, зависит как от текущих целей, так и от информации, связанной с этим фреймом. Фреймы содержат в себе маркеры терминалов и другие ограничения, а цели используются для принятия решений о том, какие из этих ограничений существенны в данный момент, а какие нет. Вообще говоря, процесс согласования может содержать следующие компоненты:
1. Проверка на адекватность. Выбранный на основе ожиданий или предварительных данных фрейм должен вначале пройти проверку на правильность сделанного выбора; при этом используются знания о ранее выделенных элементах, их местоположении, об отношениях и наиболее вероятных субфреймах. Перечень текущих целей используется для принятия решения о том, какие терминалы и какие условия следует учитывать при составлении фрейма с действительностью.
2. Конкретизация. Затем фреймом запрашивается информация, необходимая для конкретизации значений тех терминалов, которые более не могут сохранять свои заранее заготовленные значения. Например, может потребоваться описание грани С, если соответствующий терминал в данный момент времени не означен и не отмечен как «невидимый». Задания должны согласовывать с текущими условиями, задаваемыми маркерами соответствующего терминала. Так, грань С может содержать маркеры для таких ограничений или ожиданий как:
правая центральная область изображения;
должно быть означено;
должно быть видимым; если нет. рассмотреть перемещение вправо;
должно быть субфреймом «грань куба»;
использует совместно с гранью В терминал левой вертикальной границы;
при неудаче рассмотреть фрейм «ящик, лежащий на боку»;
тот же цвет фона, что и у грани В.
3. Управление. При получении сведений о трансформации (например, о предстоящем перемещении) выбранный фрейм передает управление соответствующему фрейму той же системы.
При более подробном рассмотрении этой схемы управления видно, что в ней содержатся возможности для использования многих видов знаний. Если попытка задания значений терминалам не удается, то результирующее сообщение об ошибке может быть использовано для выбора альтернативного варианта. Пользуясь этим, ниже рассмотрим вариант организации памяти в виде сети подобия, как это сделано в работе П.Уинстона(1970).
1.5. Носит ли зрительное восприятие символьную форму
Можно ли действительно предполагать, что восприятие человеком трехмерных объектов столь фрагментарно и атомистично, что оно может быть представлено в терминах отношений между элементами двухмерных изображений? Давайте сразу же отделим друг от друга эти два вопроса: являются ли зрительные образы символьными и основаны ли они на двухмерных конструкциях. Первый вопрос имеет особое значение; не вызывает сомнения, что на некотором уровне зрительное восприятие протекает в основном в символьной форме. Разногласия могут быть между теми, кто, с одной стороны, придерживается несколько наивных концепций и считает вое приятие либо картиноподобным, либо протекающим на основе оперирования с воображаемыми геометрическим телами, и теми, кто, с другой стороны, основываясь на экспериментальных данных (см. Ж.Пиаже, Б.Инельдер,1956 и др.), доказывает, что многие возможные ограничения, вытекающие из символьных представлений, и в самом деле существуют.
Так, нам известно, что дети в своем творчестве, особенно в графике (впрочем, это относится и к взрослым) пользуются набором весьма ограниченных символьных ингредиентов (см., например, Е.Гомбрих(1959)). Перспективы и заслонения обычно представляются не такими, какие они есть на самом деле, а с помощью определенных условностей. Метрические соотношения сильно искажены; сложные формы изображаются с помощью специальных знаков, которые не пользуются для представления наиболее существенны! признаков. Представители "наивной" точки зрения обычно не признают подобных ухищрений и придерживаются мнения, что люди действительно "видят и манипулирую! образами, подобными картинам" так, что это нельзя объяснить с помощью дискретных описаний.
Что касается второго вопроса (являются ли образы двух– или трехмерными), то его на уровне символьный описаний не существует, ибо неподходящим становится здесь само понятие измерения. Каждый вид символьного описания объекта одним целям служит хорошо, а другим – плохо. Если заданы отношения "слева-от", "справа-от" и "находится-над" между элементами некоторой структуры и представлены они в виде маркеров, определенных на парах терминалов, то при проведении определенных манипуляций с объектом его описание, выполненное на этой основе, будет достаточным для предсказания местонахождения его отдельных элементов. Задача облегчается тем, что если, например, поворачивать куб, не меняя его ориентации в пространстве (не меняя грани, которой он соприкасается со столом), то определенные свойства этих отношений будут инвариантными к подобным перемещениям. Большинство предметов обычно имеет свои верхние и нижние части. Однако если положить куб на боковую грань, то предсказания, основанные на тех же самых описаниях, сделать будет значительно труднее: люди испытывают большие затруднения при слежении за гранями шестицветного куба (т.е. куба, каждая грань которого окрашена в разный цвет), если заставить их мысленно его поворачивать.
Если для тех же целей использовать более "характерные" отношения, такие как "следующий-за" или "быть-противоположным-к", то аналогичные описания изображений будут менее чувствительными к возможным поворотам объектов. В работах П. Уинстона(1970, 1971, 1972) мы видим, каким образом систематические замены отношений (например, "слева" вместо "сзади" или "справа" вместо "спереди") могут использоваться при имитации вращения предметов.
У. Хогарт осуждал тех художников, которые слишком мало времени уделяли совершенствованию своих представлений об окружавших их предметах. (Уильям Хогарт (1697-1764), выдающийся английский живописец, график и теоретик искусства, в 1753 г. опубликовал, свои известный теоретический трактат "Анализ красоты"). Он советовал тем, кто стремится получить правильные представления о расстояниях, отношениях и различиях между некоторыми существенными точками и линиями, принадлежащими, в худшем случае, даже наиболее асимметричным фигурам, постепенно вырабатывать в себе способность извлекать их из своей памяти, ибо это может во многом помочь тому, кто постоянно что-нибудь изобретает или рисует по памяти и способствует точному натурному воспроизведению предметов.
Таким образом, преднамеренная тренировка памяти в вопросах систематизации отношений между точками, лежащими на противоположных поверхностях тел, является, по мнению У. Хогарта, ключом к пониманию инвариантных отношений между видимыми и невидимыми частями изображений; они могут дать человеку информацию, достаточную для того, чтобы вообразить себя внутри какого-то предмета или мысленно очутиться в другой, практически недоступной точке наблюдения. Отсюда можно сделать вывод о том, что У.Хогарт отвергал "наивные" концепции в теории восприятия образов.
Некоторые люди полагают, что пространственные задачи решаются с помощью каким-то образом хранимого в памяти аналога трехмерной структуры. Если, однако, кто-либо и смог бы воссоздать такую модель, то для "интеллектуального глаза" сохранилась бы большая часть из тех традиционных проблем, которые относятся к реальному глазу, и, кроме того, появилась бы новая весьма трудная задача: создание (на основе двухмерных конструкций) образа какого-то гипотетически воображаемого предмета.
Хотя эти аргументы, как может показаться, свидетельствуют о целесообразности употребления двухмерных изображений для агрегирования и распознавания образов, их нельзя считать удовлетворительными для задач планирования и выполнения манипуляцпонкых операций. Более естественным выглядит другой вариант представления информации в той же символьной форме, но на базе основных геометрических форм. Так, телефонная трубка может быть описана с помощью двух усеченных сферических тел, соединенных изогнутым прямоугольным стержнем. В следующем параграфе будет рассмотрен вопрос о совместном использовании двух и более методов, качественно отличных друг от друга, для представления одного и того же объекта.
1.6. Видение комнаты
Познание окружающего мира с помощью органов зрения кажется нам непрерывным. Одной из причин этого является наше постоянное движение. Более глубокое объяснение заключается в том, что обычно наши ожидания «гладко» взаимодействуют с нашим зрительным восприятием. Предположим, что вам пришлось выйти из комнаты, закрыть за собой дверь, затем вернуться, чтобы ее открыть и обнаружить совершенно другую комнату. Вы были бы поражены. Смысл этой перемены был бы едва ли менее поразительным, чем внезапное, на ваших глазах, изменение всего мира.
Наивная теория феноменологической непрерывности утверждает, что скорость зрительного восприятия настолько велика, что наши образы могут изменяться с такой же скоростью, как и видимые нами сцены. Ниже я отдаю предпочтение альтернативной теории: изменения в основанных на фреймах представлениях человека происходят со своей собственной скоростью; система фреймов предпочитает производить небольшие изменения, как только это становится возможным, а иллюзия непрерывности возникает вследствие постоянства заданий терминалов, общих для фреймов различных видов. Таким образом, непрерывность зависит от подтверждения ожиданий, что, в свою очередь, зависит от быстроты доступа к запомненным знаниям об окружающем нас мире.
Перед тем, как войти в комнату, вы уже заранее знаете, что увидите комнату, а не какой-нибудь пейзаж. Обычно можно указать на это по типу двери, так же как и выбрать заранее фрейм, соответствующий виду новой комнаты. Часто люди просто предполагают наличие какой-то конкретной комнаты. В этом случае значения многих заданий терминалов уже определены.
Самый простой вариант фрейма комнаты – это подобие пустой внутренности коробки. Следуя нашей модели куба, можно считать, что структура верхнего уровня фрейма "комната" должна соответствовать схеме, показанной на рис.1.5.
Человек должен конкретизировать задания терминалов теми предметами, которые он видит. Если комната ему хорошо знакома, то некоторые задания уже заполнены данными (означены). В случае, когда отсутствуют какие-либо ожидания, на первой месте должно быть стремление выявить наиболее характерные геометрические признаки. Чтобы заполнить задания терминала «левая стена», можно вначале попытаться найти линии а и d, а затем углы ag и dg. Линию g найти в обычных условиях легко, поскольку она будет пересекаться при любом горизонтальном (на уровне глаз) осмотре помещения, проводимом слева направо. В конечном итоге углы ag, gb и Ьа должны соответствовать друг другу, так как все они являются частями одной и той же физической вершины.
Поскольку, однако, сам процесс восприятия является направлением, существуют основанные на знании и опыте полезные тактические схемы. Вероятно, границу е найти легче, чем любую другую, ибо, как только мы входим в обычную прямоугольную комнату, можно ожидать, что
граница е является горизонтальной линией;
она расположена ниже уровня глаз;
она разделяет между собой пол и стену.
Если известны предполагаемые размеры комнаты, мы можем определить величину е и наоборот. В сценах открытых пространств линия е является горизонтом и на равнинной местности мы можем ожидать ее появления даже на уровне глаз. Если нам не удастся быстро найти этот горизонт и заполнить им соответствующее задание терминала, то следует рассмотреть отклонения, связанные с этим терминалом: возможно, что комната имеет какую-то необычную форму или, например, в ней находится крупный предмет – препятствие для визуального отыскания линии е.
Попытаемся обнаружить некоторые другие характерные признаки. Найдя линию е, следует заняться поиском ее левого и правого углов, а после этого вертикальных линий, исходящих из них. Как только будут обнаружены эти основные ориентиры, можно представить себе общую форму и размеры комнаты. Это может привести к выбору нового фрейма, который лучше согласуется с найденными формой и размерами объекта наблюдения благодаря маркерам, подтверждающим сделанный выбор и уточняющим структуру объекта с помощью дополнительных деталей.
Конечно, совершенная система зрительного, восприятия должна анализировать сцену не просто как отдельную картину, а в соответствии с некоторыми установками фрейма более общего вида. Чтобы сам процесс восприятия протекал без затруднений, человек должен знать, где во внешнем и постоянно-меняющемся мире находится каждая нужная ему деталь. Это позволяет компенсировать трансформации в системах фреймов от перемещений глаз и головы, от изменений в положении туловища так же, как и от его более значительных перемещений с одного места в другое.
1.7. Анализ сцен и субфреймы
Если новая комната знакома недостаточно хорошо, то ни один заранее сформированный фрейм не может содержать сведения обо всех мелких деталях; в подобных случаях требуется проводить более глубокий анализ сцен. Однако объем работы и здесь может быть во многом уменьшен благодаря наличию таких субфреймов, с помощью которых можно выдвигать гипотезы о структуре и связях реальных объектов. Насколько эти субфреймы-ожидания могут быть полезны, зависит как от их адекватности рассматриваемому предмету, так и от качества процесса согласования, который устанавливает очередность сопоставления субфреймов с действительностью. Они многое могут сказать даже о малознакомой комнате. Большинство комнат подобны коробкам, и их следует классифицировать по типам: кухня, зал, жилая комната, аудитория и т.д. Человек знает десятки разновидностей комнат, и ему известны сотни их конкретных видов; нет сомнения в том, что они организованы во что-то типа сети подобия для того, чтобы обеспечить быстрый доступ к этой информации.
Типичный фрейм комнаты включает в себя терминалы трех или четырех видимых стен, каждая из которых может относиться к различным типам, например к стенам с окнами, с полками, картинами и камином. У каждой разновидности комнат свои типичные стены. Представление обычной стены может содержать массив терминалов размером (3Х3): (левая часть – центр – правая часть) X (верхняя часть – средняя часть – нижняя част), так что для предметов, относимых к стенам, можно качественно задавать их местоположение. Это может использоваться для локализации объектов с помощью внутренних пространственных отношений, например, чтобы представить такой факт, как "Y находится немного выше центра прямой, которая связывает Х с Z".
Если в трехмерном пространстве известно только направление восприятия (иначе, оптическая ось), то положение какого-либо элемента изображения, задаваемое соответствующим субфреймом, будет неопределенным. Линия, находящаяся в центральной части изображения, может принадлежать предмету, расположенному на передней стене комнаты, а может относиться к высокому объекту, находящемуся перед этой стеной; сами же объекты, очевидно, связаны с разными субфреймами. Решение об интерпретации линий может зависеть от обоснованных доказательств в пользу того или иного варианта, от более точной визуальной информации, полученной по данным стереовосприятия или двигательного параллакса, а также от той правдоподобной информации, которая может быть получена от других фреймов.
Положение границ пространственных элементов фрейма не носит совершенно четкого характера, и поэтому терминал каждого такого элемента должен содержать данные о (приблизительном) типичном местоположении его центра и некотором диапазоне относительных размеров. Мы предполагаем наличие лишь правильных топологических ограничений, например, что край левой стены должен всегда быть слева от любого стоящего у этой стены объекта. Процесс согласования видимой стены со всеми подобными ограничениями может приводить ко все большим затруднениям по мере того, как в описание элемента будут включаться (вопреки установленным для него размерам) предметы, предположительно находящиеся внутри него. Степень таких затруднений зависит от цели человека при анализе сцены и накопленного им опыта. Хотя данная концепция и может показаться сложной, я не думаю, что богатство и разнообразие зрительных ощущений могут наводить на мысль о создании каких-либо значительно более простых теорий.