Текст книги "Фреймы для представления знаний"
Автор книги: Марвин Минский
сообщить о нарушении
Текущая страница: 1 (всего у книги 12 страниц)
Марвин Минский.
Фреймы для представления знаний
Предисловие к русскому изданию
Развитие информационно-поисковых систем высокого уровня, диалоговых систем, базирующихся на естественном языке, интерактивных человеко-машинных систем, предназначенных для совместного решения задач управления, проектирования, научных исследований и т.п., то есть развитие так называемых интеллектуальных систем, а также роботов выдвинуло на первый план задачу представления знаний в подобных системах. Необходимо подчеркнуть, что проблема представления знаний является принципиально новой, не встречавшейся ранее при создании различных автоматических и автоматизированных систем переработки информации и управления. В относительно небольшом объеме памяти интеллектуальные системы должны хранить большое число данных о мире задач, решаемых системой в процессе ее функционирования. Решение этой проблемы возможно лишь при специальной организации баз данных, одним из видов которой является фреймовая организация.
М.Минский, книгу которого предваряет это предисловие, является создателем теории фреймов. Он рассматривает два вида фреймов, которые сейчас принято называть статическими (или просто фреймами) и динамическими (сценариями). Фрейм любого вида – это та минимально необходимая структурированная информация, которая однозначно определяет данный класс объектов. Наличие фрейма позволяет откосить объект к тому классу, который им определяется. Простейшими примерами фреймов могут служить характеристические функции множеств в обычной математике. Однако в интеллектуальных системах в подавляющем большинстве случаев приходится иметь дело не с числовой, а с символьной информацией (например, текстами на естественном языке или зрительными изображениями). Для информации подобной природы определение фреймов представляет собой нелегкую проблему. В книге М.Минского описаны некоторые подходы, использование которых многообещающе.
Предлагаемая читателям книга является переводом первой публикации теории фреймов в 1974 г. Книга построена следующим образом.
В главе 1 излагается суть теории фреймов и рассматриваются вопросы, связанные с восприятием человеком зрительных образов. Подробно анализируются вопросы распознавания образов на базе системы фреймов. Обсуждаются трудности, возникающие при изменении места положения субъекта относительно рассматриваемых предметов.
Глава 2 посвящена проблеме понимания смысла в предложениях естественного языка, организации предназначенных для этих целей систем фреймов и сопоставлению ряда точек зрения относительно способов построения программ, понимающих естественный язык.
В главе 3 обсуждаются вопросы обучения и его роль в восприятии новой информации; структура памяти и поиск фреймов, наиболее подходящих для представления некоторой ситуации; методы представления в теории решения задач.
Глава 4 посвящена проблеме организации системы поиска информации и управления подбором значений для терминальных вершин, обсуждению процесса выдвижения гипотез и оценке их правдоподобия, а также вопросам иерархии в системах фреймов.
В главе 5 затрагивается ряд спорных вопросов, связанных с наличием у человека общей картины мира и необходимостью иметь нечто подобное в системах искусственного интеллекта. Автор предлагает использовать в этих целях глобальный пространственный фрейм (GSF), хотя и отмечает ограниченность данной модели.
В приложении дается критика подхода к решению проблемы представления и объяснению механизмов мышления на основе логики предикатов. Указывается, что без привлечения тщательно разработанного семантического (понятийного) аппарата формальная логика не способна стать средством для решения данных задач.
В книгу введено приложение к русскому изданию, написанное Ф.М.Кулаковым, в котором теория М.Минского иллюстрируется примерами практического приложения теории фреймов, взятыми из работ Р.Шенка (1975), Р.Абельсона (1973), Ч.Ригера (1975) и др.
Издавая эту работу в переводе на русский язык, мы надеемся, что специалисты, работающие в области разнообразных человеко-машинных систем в управлении, проектировании и научном эксперименте, получат возможность ознакомиться с идеями фреймовой организации информации, и это знакомство окажется полезным для их практической работы.
Председатель научного Совета
по проблеме «Искусственный интеллект»
Комитета по системному анализу при
Президиуме АН СССР
чл.кор. АН СССР Г.С.Поспелов
Глава первая.
Фреймы
Мне представляется, что теоретические исследования, проводимые в области искусственного интеллекта (ИИ) и психологии в целом были недостаточно общими для того, чтобы объяснить либо с практической точки зрения, либо феноменологически эффективность человеческого мышления. Основные структурные элементы, образующие фундамент для развертывания процессов восприятия, хранения информации, мышления и разработки языковых форм общения, должны быть более крупными и иметь более четкую структуру; их фактическое и процедуральное содержание следует более тесно увязывать друг с другом с тем, чтобы получить возможность объяснить феномен силы и «быстродействия» человеческого мышления.
Аналогичной точки зрения придерживаются специалисты научных центров, работающие над решением проблем искусственного интеллекта. Хорошо известно, например, предложение А.Ньюэлла и Г.Саймона(1972) решать проблему представления в терминах "пространств задач" или предложение С. Пейперта и автора этих строк (М.Минский, С.Пейперт, 1972) разбить всю совокупность сведений, необходимых системе ИИ, на "микромиры". Иную форму те же взгляды принимают в работах известных теоретиков, таких как Р.Шенк(1973), Р.Абельсон(1973) и Д.Норман(1973), которые используют более крупные структуры для изучения механизмов понимания естественного языка. В этом проявляется стремление ученых выйти за рамки исследований чисто бихейвористического и формально-логического направлений и отказаться от попыток решать проблему представления с помощью наборов разрозненных простых структур данных. (Бихейворизм (от англ. behavior – поведение) – одно из направлений в психологии, в основе которого лежит утверждение о том, что предметом психологии является поведение, а не сознание. Основной задачей психологов, по мнению основоположника бихейворизма Дж.Уотсона(1914), является установление объективно наблюдаемых отношений в соответствии с известной схемой "стимул – реакция" и сведение к ним всех понятий о внутренних, психических процессах. (см. М.Г.Ярошевский,1976).)
В настоящей работе делается попытка связать воедино результаты некоторых из вышеупомянутых исследований и создать единую и стройную теорию. Отмечаются ее недостатки, поскольку здесь ставится больше вопросов, чем дается на них ответов.
Отправным моментом для данной теории служит тот факт, что человек, пытаясь познать новую для себя ситуацию или по-новому взглянуть на уже привычные вещи, выбирает из своей памяти некоторую структуру данных (образ), называемую нами фреймом, с таким расчетом, чтобы путем изменения в ней отдельных деталей сделать ее пригодной для понимания более широкого класса явлений или процессов.
Фрейм является структурой данных для представления стереотипной ситуации. С каждым фреймом ассоциирована информация разных видов. Одна ее часть указывает, каким образом следует использовать данный фрейм, другая – что предположительно может повлечь за собой его выполнение, третья – что следует предпринять, если эти ожидания не подтвердятся.
Фрейм можно представлять себе в виде сети, состоящей из узлов и связей между ними. "Верхние уровни" фрейма четко определены, поскольку образованы такими понятиями, которые всегда справедливы по отношению к предполагаемой ситуации. На более низких уровнях имеется много особых вершин-терминалов или "ячеек", которые должны быть заполнены характерными примерами или данными.
Каждым терминалом могут устанавливаться условия, которым должны удовлетворять его задания. Простые условия определяются маркерами, например, в виде требования, чтобы заданием терминала был какой-либо субъект, или предмет подходящих размеров, или указатель на субфрейм определенного типа. (Субфреймы, фреймы и суперфреймы – это иерархически упорядоченные элементы, образующие системы фреймов). Более сложными условиями задаются отношения между понятиями, включенными в различные терминальные вершины.
Группы семантически близких друг к другу фреймов объединены в систему фреймов. Результаты существенных действий представляются в виде трансформаций между фреймами системы. Это дает возможность моделировать такие понятия, как внимание и ценность информации, сделать более экономичными некоторые типы вычислений, а также показать эффективность использования фреймов в системах ИИ.
При зрительном восприятии образов системы фреймов используются следующим образом: различные фреймы соответствуют различным позициям наблюдателя, анализирующего одну и ту же сцену, а трансформации между ними отражают результаты перемещения наблюдателя из одного места в другое. Для систем других типов различия между фреймами могут соответствовать результатам выполнения каких-либо действий, определенным причинно-следственным связям между объектами внешнего мира или разным точкам зрения по одним и тем же вопросам. Одни н те же терминалы могут входить в состав нескольких фреймов системы – это один из центральных моментов теории, позволяющий согласовывать информацию, поступающую из различных источников.
Теория фреймов во многом выигрывает благодаря возможности использования в ней ожиданий и других видов предположений. Терминалы фрейма в обычном своем состоянии заполнены так называемыми "заданиями отсутствия" или заранее заготовленными значениями, т. е. сведениями о деталях (частностях), которые не обязательно должны присутствовать в какой-либо конкретной ситуации. Связь заданий отсутствия со своими терминалами не является жесткой и неизменной, поэтому они легко могут быть заменены другими сведениями, более подходящими к текущей ситуации. Задания отсутствия могут, таким образом, выполнять роль переменных, служить для аргументации с помощью примеров (что часто делает излишним применение логических кванторов), представлять информацию общего вида и описывать наиболее вероятные случаи, указывать на способы проведения полезных обобщений и т. д.
Системы фреймов связаны, в свою очередь, сетью поиска информации. Если предложенный фрейм нельзя приспособить к реальной ситуации, т. е. если не удается найти такие задания терминалов, которые удовлетворяют условиям соответствующих маркеров, сеть поиска информации позволяет выбрать более подходящий для данной ситуации фрейм. Подобные структуры дают возможность использовать в системах фреймов различные методы представления информации, что имеет особое значение для разработки механизмов понимания.
После выбора фрейма в процессе согласования терминалам присваиваются такие значения, которые удовлетворяют всем условиям соответствующих маркеров. Ход процесса согласования частично контролируется информацией, связанной с самим фреймом (включая указания на то, как реагировать на непредвиденные обстоятельства), и в значительной степени опытом решения аналогичных или близких по смыслу задач. Если согласование внешних данных с маркерами терминалов неудовлетворительное, то сведения, полученные на его основе, могут быть с успехом применены при выборе альтернативного фрейма.
Отметим, что схемы, предложенные в настоящей работе, несовершенны во многих отношениях. Во-первых, некоторые варианты представления информации обсуждаются безотносительно к тем процессам, в которых они должны использоваться. Иногда приводятся только лишь описания свойств, которыми следует снабдить те или иные структуры. Маркеры и задания терминалов рассматриваются так, будто известны их соединения и связи с более крупными структурными единицами, чего на самом деле пока нет.
Помимо этих технических недочетов читатель не найдет в настоящей работе углубленного анализа проблемы "понимания" и возможностей ее изучения на основе разрабатываемой теории. Автор не претендует на то, что предлагаемые им идеи достаточны для создания совершенной теории, но считает, что структуры, связывающие в единое целое системы фреймов, могут оказаться полезными при объяснении ряда явлений, характерных для естественного интеллекта.
1.1. Локальная и общая теории зрительного восприятия
«...существует большая разница между теми, кто рассматривает все с точки зрения единого центрального зрительного восприятия, являющегося более или менее связанной или четко выраженной системой, на основе которой люди понимают, мыслят и чувствуют, т. е. теми, кто руководствуется единым, универсальным и организующим принципом, и теми, кто ориентируется на многие аспекты явлений, часто не имеющие отношения друг к другу и даже противоречивые и, если связанные, то лишь некоторыми узлами де-факто психологического или физиологического характера, но не обусловленные какими-либо этическими или эстетическими принципами...».
И. Берлин (1953)
Когда мы входим в комнату, нам кажется, что мы видим всю возникающую перед глазами картину с одного взгляда. В действительности же зрительное восприятие – это длительный процесс. На все требуется время: и на то, чтобы рассмотреть детали и собрать о них нужную информацию, и на то, чтобы, сделав предположения, проверить их и прийти к определенным заключениям, и на то, чтобы оценить полученные данные с учетом преследуемых целей, собственных знаний и ожиданий. Тем не менее, все это происходит настолько быстро и естественно, что невольно вызывает удивление и требует объяснений.
Некоторые специалисты считают неудовлетворительными те теории, в которых делается попытка трактовать феномен зрительного восприятия с позиции дискретных, последовательных, символьных процессов. Им кажется, что хотя машинные программы, написанные на основе этих теорий, действительно могут демонстрировать эффект "видения", для живых существ они неприемлемы ввиду грубости восприятия и малого быстродействия. Однако обычно предлагаемая альтернатива, относящаяся к крайнему случаю холизма или идеалистической "философии целостности" (см. В.Г.Афанасьев, 1964), не может быть технически реализована. Ниже я приведу доводы в пользу того, что следующие один за другим символьные процессы могут объяснить суть явлений, которые нам кажутся мгновенными и завершенными и которые имеют место при анализе сцен.
Часть теоретиков, придерживающихся ранних гештальт-психологических концепций (подробнее см. М.Г.Ярошевскнн, 1976), стремилась объяснить феномен зрительного восприятия с помощью имеющегося в человеческом мозге электрического поля, но уже в 30-х годах нашего столетия стала ясна несостоятельность подобных воззрений. Их современные последователи, включая приверженцев идеи интегральных преобразований, использования голограмм и интерферентных явлений, достигнуть многого также не сумели. И все же, несмотря на эти неудачи, большинство специалистов по-прежнему полагает, будто требуемая скорость восприятия может быть обеспечена только посредством некоторого глобального параллельного процесса, подобного волновому.
Излагаемая в настоящей работе теория фреймов рассматривает все основные вопросы, поднятые гештальт-психологами. Общим для обоих подходов является стремление раскрыть суть процессов, лежащих в основе соотнесения сенсорных данных либо с общими понятиями, либо с их частями, но методы, предложенные для обоснования выдвинутых положений, в корне отличны друг от друга. Гештальт-психологи стремились доказать, что эти процессы основаны главным образом на взаимодействии небольшого числа универсальных и весьма эффективных процедур, но неудачи с их эффективным выделением показали ограниченность этой идеи. В теории фреймов упор делается на многочисленность взаимодействий между сенсорными данными и образованной в процессе обучения громадной сетью символьной информации. И хотя эти взаимодействия должны, в конечном счете, основываться на том или ином наборе общих принципов, в нашей теории изучение мыслительных процессов отделено от вопросов происхождения и развития систем ИИ.
1.2. Параллелизм
Может ли оказаться полезной параллельная обработка информации? Вопрос этот следует считать чисто техническим в большей степени, чем может показаться на первый взгляд. Действительно, на уровне выявления простейших визуальных черт, текстурных элементов, характерных особенностей при стереоскопическом зрении или двигательном параллаксе использование параллельной обработки информации следует считать целесообразным. На следующем, «предметном» уровне труднее представить себе, каким образом можно использовать параллелизм, хотя в этой связи следует отметить работы А.Гузмана(1969) по выделению «ядер» и объединению их в связанные области или Д.Вальтца(1972) по использованию семантических корней для отсортировки теневых линий, выполняемой на специальной параллельной сети.
Однако на более высоких уровнях мыслительной деятельности целесообразность применения параллелизма встречает ряд принципиальных возражений. В работах по распознаванию образов было предложено довольно много схем для выполнения параллельных операций – персептроны, интегральные преобразования и т.д. Эти схемы, интересные и с математической, и с вычислительной точек зрения, видимо, могли бы служить в качестве составных частей теории обработки сенсорной информации, но не более того. Интегральные методы хороши, главным образом, для работы с изолированными двухмерными изображениями, но на их основе нельзя решить задачу выделения и распознавания объектов в сложных трехмерных сценах. Почему?
При анализе сложных сцен должны быть правильно выделены области, принадлежащие различным объектам, ибо только в этом случае воспринимаемая картина обретает смысл; однако для решения этой задачи, которая эквивалентна традиционной в гештальт-психологип проблеме "объект – фон", требуется так много усилий, что, как отмечалось в работе М.Минского и С.Пейперта(1969), сама возможность и даже целесообразность разработки методики изолированного распознавания ставится под сомнение. Для трехмерных изображений эта проблема еще более осложняется как искажением перспективы, так н тем обстоятельством, что отдельные части предметов оказываются невидимыми из-за других объектов.
В новых знаковых теориях используются методы выработки гипотез с последующим их подтверждением; эти методы кажутся нам более продуктивными. Трудно решить любую по-настоящему сложную проблему, не уделив самого пристального внимания ее отдельным составным частям. К счастью, однако, можно представить себе более эффективный (по сравнению с просто идеей параллелизма) последовательный процесс, при котором крупные, сложные знаковые структуры рассматриваются в качестве простейших операндов. Это открывает теоретически новую возможность для быстрого поиска крупных субструктур н, по-видимому, позволит найти секрет быстродействия механизмов человеческого мышления и восприятия зрительной информации.
1.3. Искусственный интеллект и процессы решения задач человеком
В настоящей работе не проводится границы между теорией человеческого мышления и теорией построения «думающих» машин: разделять их в данный момент не имеет смысла, поскольку как в той, так и в другой области знаний отсутствуют концепции, достаточно общие для объяснения и тем более для моделирования сложной интеллектуальной деятельности. Однако одно отличие все же имеется. Дело в том, что у специалистов-психологов, работающих над проблемами интеллекта, наблюдается определенная тенденция к сокращению числа различных механизмов, включаемых в модели функционирования человеческого мозга. Это ведет к попыткам достигнуть большего эффекта с помощью меньшего, чем может быть обосновано, числа основных механизмов мышления. Такие теории уделяют недостаточно внимания как вопросам управления психической деятельностью, так и уточнению наших знаний об отдельных интеллектуальных процессах. Ученые, работающие в области ИИ, видимо, сосредоточили все свои усилия именно на этих вопросах, но ни те, ни другие, однако, не придавали должного значения изучению самой структуры знаний, особенно знаний процедурального типа.
Можно понять, почему психологи чувствуют себя не очень уверенно, оперируя сложными схемами, не основанными на тщательно выверенных механизмах мышления. Однако стремление к ограничению их числа еще не соответствует данному этапу развития науки в той мере, в какой это может иметь место в будущем. Анатомия и генетика мозга являются той областью знаний, в которой можно предположить значительно большее число разнообразных механизмов, чем это можно себе представить сегодня. Нам следует сосредоточить свое внимание скорее на проблемах достаточности и эффективности, чем на проблеме необходимости.
Еще несколько лет назад главная цель работ по распознаванию образов сводилась к проблеме достаточности: найти любые пути, ведущие к разработке алгоритмов машинного анализа сцен. Только недавно специалистам удалось обнаружить и реализовать возможности правильного объединения отдельных черт и признаков в законченные структуры образов. Отмечу, прежде всего, работы Л.Робертса(1965), А.Гузмана(1968), П.Уинстона(1970), Д.Хаффмана(1971), М.Клоувза(1971), Дж.Сираи(1972), Д.Вальтца(1972), которые характеризуют собой ряд этапов в разработке вопросов анализа изображений типа "фигура-фон", "целое-часть" и выделение структурных групп.
Хотя эти работы достаточно просты, на их основе можно дать не только поверхностное толкование феномена зрительного восприятия, но и в какой-то степени объяснить быстроту и гладкость его протекания. Теория восприятия образов сталкивается с рядом новых вопросов при переходе от проблемы достаточности к проблеме эффективности. Каким образом различные виды "признаков" могут столь быстро, как это имеет место в человеческой практике, приводить к идентификации и описанию сложных ситуаций? Каковы способы внесения изменений при выявлении ошибок или нахождении новых доказательств? Как разрешаются противоречия? Как может быть изменена информация о местоположении объекта без перевычисления состояний других связанных с ним предметов? Как обстоит дело с движущимися объектами? Каким образом процессы зрительного восприятия используют знания, связанные с общими, невизуальными видами деятельности? Каким образом человек координирует информацию, поступающую из различных источников? Как в системе могут использоваться ожидания относительно результатов предполагаемых действий? Может ли теория объяснить феноменологические результаты зрительного восприятия образов, а также управляемое самим ходом восприятия построение и манипулирование воображаемыми сценами?
В рамках традиционных подходов бихейвористской и перцептуальной психологии было сделано очень мало, чтобы найти ответы на эти вопросы; однако взгляды некоторых работавших ранее психологов (см.Ф.Бартлетт,1932), несомненно, нашли свое отражение в настоящей работе. В более поздних работах по теории символьной обработки информации, в публикациях, подобных статьям А.Ньюэлла(1973) и Л.Пилишина(1973), содержатся более конструктивные предложения по формулированию этих спорных вопросов.