Текст книги "Кто есть кто в робототехнике. Выпуск I. Компоненты и решения для создания роботов и робототехнических систем"
Автор книги: Александр Барсуков
Жанр:
Технические науки
сообщить о нарушении
Текущая страница: 2 (всего у книги 5 страниц) [доступный отрывок для чтения: 2 страниц]
Глава 2
Электронное зрение роботов
Электронное зрение роботов обладает той особенностью, что может работать не только в реальном времени, но и в «отсроченном» режиме: в частности, когда в массиве видеоизображений система поиска находит искомую видеозапись какого-то события. Поиск объекта среди других средствами компьютерного зрения – тоже навигация, только зрительная. Возьмём из предыдущей главы пример с GPS-навигацией, когда робот, достигнув «мёртвой зоны» радиусом 10–20 м, до цели всё же не доходит. Тогда ему на помощь должно придти зрение, с помощью которого он распознает цель. Пример такой технологии приводится ниже. Она не предназначалась для установки в мобильном роботе, но хорошо поясняет критерии распознавания. Кроме того, подобно описанной в предыдущей главе технологии удалённой GPS-корректировки, она тоже может быть инкорпорирована в стационарный вычислитель, и робот будет обмениваться данными по радиоканалу с централизованным видеоархивом в процессе распознавания.
1. Excalibur: технология распознавания видеоизображений
Эффективность данной системы обусловлена применением в ней как традиционной для фирмы Excalibur Technologies технологии нечёткого поиска APRP, так и оригинальной технологии анализа видеоинформации VAE.
VAE (Video Analysis Engine) обеспечивает автоматическое построение StoryBoard (последовательности кадров, наиболее адекватно отражающих суть видеофрагмента) для вводимой видеоинформации, выделяя набор характерных (по тому или иному критерию) кадров.
APRP (Adaptive Pattern Recognition Process), технология адаптивного распознавания образов, производит так называемый «нечёткий поиск», при котором для поиска изображения не требуется ни словесного описания, ни ключевых слов, ни других специальных приёмов. В данной технологии под нечётким поиском понимается операция нахождения объекта по его достаточно близкому образу (например, по фотографии человека, на лице которого время оставило свои следы). Любого рода данные технология обрабатывает одинаково – в виде нулей и единиц, поэтому она равным образом применяется для индексации и нечёткого поиска как текстов (библиотека TRS), так и звукозаписей (библиотека SRS) и видеозаписей (библиотека VRS). Это обстоятельство позволяет воспользоваться для понимания алгоритмов технологии примером из области обработки текстов. Поскольку APRP работает не с ключевыми словами, а с образами, две-три изменённые (или ошибочные) буквы в слове или фразе не могут существенно изменить базовую картину текста. Таким образом, автоматически становится допустимой ошибка как во входных данных, так и в терминах запроса. Например, если мы напишем в запросе: «ЦЦЦТЕР МАРГМАСАРИТАЭЭЭЭЭЭ», имея в виду название романа Булгакова, то получим правильный ответ – «Мастер и Маргарита».
Поиск происходит так:
• запрос конвертируется в бинарную форму;
• игнорируется шум (т. е. отбрасываются «ЦЦЦ» и «ЭЭЭЭЭЭ»);
• проводится нечёткий поиск, представляющий собой комплекс операций сравнения комбинаций нулей и единиц, по результатам которых осуществляется выбор наиболее близких вариантов искомого образа. Описанный алгоритм поиска по существенным признакам применяется при сравнении почерков, отпечатков пальцев, голосов и фотографий.
Обеспечиваемая технологией скорость поиска видеоинформации по индексированному массиву объёмом 5 Тбайт составляет 5-15 с при степени достоверности, соответствующей сертификату, выдаваемому подобным системам. Под «индексированным массивом» в данном случае понимается вышеупомянутый набор характерных кадров, 1 Мбайт которых соответствует примерно 6 Мбайтам исходного видеоматериала (но это соотношение ориентировочно и зависит от выбранного порога индексирования). В итоге образуются как бы два массива: проиндексированный (потому и «как бы», что он может быть не один – в зависимости от числа критериев индексации), которым, например, телекомпания оперирует при подготовке новостных и иных программ, и другой, состоящий из оригиналов видеоматериала. Типовая схема работы системы – на рис. 2.1.
Рис. 2.1
Кроме того, технология используется для видеонаблюдения: например, она осуществляет в реальном времени последовательное сканирование (посредством видеокамеры) толпы в местах, где движение людей упорядочено: эскалаторы, турникеты и т. п. Ключами для анализа снимаемого материала служат хранящиеся в базах данных фотографии разыскиваемых людей, объектов, автомобильных номерных знаков и т. д. Достоверность распознавания – вопрос постоянного совершенствования технологии. Представитель фирмы привёл такой пример: на одном из этапов развития технологии проводилось «опознание» футболистов по фотографии их команды. Система опознала 9 из 11 футболистов плюс лежащий перед ними мяч. То есть террорист в принципе мог замаскироваться, неся возле своей головы большой розовый грейпфрут, но и в таком случае среди критериев поиска можно было задать «обнаружение людей с большими грейпфрутами». Позже, уже в России, проводились эксперименты по настройке системы на «похожесть» лиц. На человека надевали шапку, очки, прикрывали лицо шарфом, при этом достоверность распознавания достигала 40–50 %. Кроме того, приемлемый процент распознавания достигался при изменении ракурса лица примерно на 20 %.
На рис. 2.2 показаны особенности поиска по изображению человека. Маленький кадр в левом нижнем углу – изображение-запрос. Верхняя линейка кадров – результат поиска с указанием степени близости результата к запросу: «100 %» здесь относятся к кадру, использованному в качестве запроса; рядом с числом процента – названия видеоматериалов, содержащих данные кадры.
Рис. 2.2
Для работающего с Excalibur оператора исследуемый массив предстаёт в виде двух мультимедийных составляющих: картинки и текста. Текст – это фоновый код для поиска видеоизображения, поэтому в ранее рассмотренном процессе редактирования большое значение имеет вычленение текстового материла из видеозаписи (этот же текстовый материал при необходимости ложится в основу субтитров). Поиск проиндексированной видеоинформации, уже хранящейся в VideoAsset Server, осуществляется как по кадрам из StoryBoard при помощи ПО Visual RetrievalWare, так и по тексту (субтитры, название и пр.) при помощи RetrievalWare – профессиональной системы управления знаниями. В частности, в версии 7.0 этой системы, имеющей графические словари (рис. 2.3), мультимедийные запросы могут формироваться по следующим принципам: слова и изображения смешаны в одном запросе; объединение слов и изображений в сложное логическое выражение; при ранжировании результатов поиска учитываются и слова, и изображения. На рис. 2.4 приведён пример сложного поиска.
Рис. 2.3
Рис. 2.4
Дополнением к Excalibur RetrievalWare служит разработанный российской компанией-поставщиком «Русский Семантический Сервер» – совокупность программных средств и информационных ресурсов, позволяющих осуществлять полнотекстовый поиск с учетом специфики русского языка. РСС производит морфологический анализ и выстраивает семантическую сеть. Разработка семантической сети – основная проблема представления языковых знаний, от качества решения которой зависит точность семантического поиска. Использование семантической сети для описания русского языка в совокупности с оригинальными алгоритмами снятия омонимии позволяет оперировать не текстом, а смыслом документов. К моменту выхода на рынок семантическая сеть русского языка, поддерживаемая РСС, включала более 40 тыс. смысловых групп.
Суть технологии Excalibur ScreeningRoom в том, что сканируются только те кадры, в которых возникают изменения, существенные с точки зрения поисковой задачи.
Ha рис. 2.5 – пример автоматически созданной StoryBoard, представляющей собой последовательность таких кадров. Если в последовательности кадров состав и характер объектов не меняется, то запоминается лишь один кадр этой последовательности. Как только появляется кадр с чем-то новым и это новое превышает заданный порог, происходит сканирование данного кадра, и он в свою очередь становится индексным для видеоряда. Причем, уменьшив разрешение индексного кадра, можно увеличить скорость поиска по запросу. Запрос может быть не только описательным, но и графическим: по элементу изображения, по кадру, по блоку кадров. Ключом, к примеру, может стать набор фотографий человека, снятого в разных ракурсах и в разном макияже. В этом особенность уже упомянутой технологии адаптивного распознавания образов APRP, позволяющей находить искомое, даже когда задан не полностью адекватный ключевой символ. Сравнение информации в бинарном виде происходит методом «нечёткого поиска».
Рис. 2.5
Настройка чувствительности на «существенность» изменения в кадре – самая творческая часть работы со ScreeningRoom. Порогом может служить что угодно: появление нового лица или объекта, изменение сюжета, освещённости, масштаба, движение камеры, резкий обрыв либо плавный переход видеофрагмента, жанровая принадлежность видеофрагмента и т. д.
На рис. 2.6 показано, как происходит просмотр построенной по заданным критериям StoryBoard в окне стандартного веб-браузера; для каждого кадра указано время, прошедшее с начала фильма. Есть и «ручное вмешательство»: когда идет прогон видео и кадр оцифровывается по желанию редактора. При этом, происходит ли отбор кадров автоматически или вручную, подразумевается, что отобранные кадры, даже обладающие пониженным разрешением, можно сами по себе демонстрировать в эфире, если их содержание достаточно исчерпывающе рассказывает о том, о чем рассказали бы и соответствующие им видеофрагменты.
Рис. 2.6
В число основных операций, относящихся к редактированию видеоинформации, входят: разбиение длинного видеофрагмента на несколько коротких, удаление лишних видеофрагментов, добавление и редактирование ассоциированной с видеофрагментом текстовой информации (аннотаций и т. п.), создание списка решений для склеивания видеофрагментов. На рис. 2.7 показано редактирование метаданных, представляющих собой структурированную информацию обо всем ролике и об отдельных кадрах.
Рис. 2.7
И теперь более понятен алгоритм, по которому подобная технология сможет работать в киберсобачке, сконструированной российскими роботостроителями (рис. 2.8). На момент её фотографирования эта собака умела поворачивать голову и произносить несложные фразы. Надеемся, что вскоре она сможет, благодаря технологии распознавания лиц, узнавать как хозяев, так и непрошеных посетителей. А пока для подобных небольших мобильных роботов в нашей стране разрабатываются и другие зрительные технологии, подобные той, о которой речь пойдёт ниже.
Рис. 2.8
2. Система технического зрения мобильного робота
(Фрагмент доклада Таганрогского государственного радиотехнического университета на научной школе-конференции «Мобильные роботы и мехатронные системы», эмблема которой изображена на рис. 2.9)
Рис. 2.9
В работе рассматриваются структура и алгоритмы функционирования стереоскопической системы технического зрения (ССТЗ) мобильного робота, ориентированной на определение трехмерных координат излучающих объектов (маяков). Данная ССТЗ отличается использованием библиотеки DirectShow для захвата кадров видеоизображения, применением алгоритма быстрой кластеризации, а также способом формирования трёхмерных координат маяков по их двухмерным изображениям с учетом радиальных искажений объектива камеры.
Структура ССТЗ представлена на рис. 2.10. Для преобразования оптического изображения в видеосигнал в системе используются телевизионные камеры ITM-C-SL с ПЗС-матрицей на 628x582 точки, разрешением 340 твл и объективом с изменяемым фокусным расстоянием. Формируемый видеокамерами аналоговый видеосигнал в стандарте PAL поступает на выполненное в виде PCI-платы устройство захвата видео (фреймгребер FlyVideo EZ II), оцифровывается и передаётся в системную память компьютера. Программно реализованные блоки предварительной обработки изображений и кластеризации осуществляют фильтрацию и выделение ярких объектов – маяков, по двухмерным координатам которых блок вычисления трехмерных координат определяет их трехмерные координаты относительно робота. Результатом работы ССТЗ является список трехмерных координат маяков, наблюдаемых обеими камерами в данный момент времени. Предполагается, что в момент снятия стереоскопического изображения мобильный робот с установленными на нем камерами неподвижен.
Рис. 2.10
Поскольку система управления мобильным роботом реализована в операционной системе Windows, то для считывания кадров видеоизображения в буфер целесообразно использовать возможности, предоставляемые библиотекой Microsoft DirectShow. Она базируется на СОМ-модели и предоставляет широкие возможности по обработке видеоданных. Базовым в DirectShow является понятие фильтра – модуля, производящего какую-либо операцию над видеопотоком (захват видеокадров, декодирование, запись в файл и т. д.). Каждый фильтр содержит набор входов и выходов. Соединяя определённым образом входы и выходы фильтров, можно реализовывать различные функции по обработке видеопотока. Такой набор связанных между собой фильтров называется графом. Для рассматриваемой ССТЗ граф захвата выглядит так, как это показано на рис. 2.11.
Рис. 2.11
Он включает аналоговый мультиплексор, коммутирующий видеосигнал от левой и правой камер, видеодекодер и модуль оцифровки видеосигнала. Эти модули зависят от аппаратных особенностей фреймгребера. В используемой плате FlyVideo EZ II имеется коммутатор на три аналоговых входа и видеодекодер, обрабатывающий видеосигналы в стандартах PAL, NTSC и SECAM. Модуль захвата кадров позволяет сохранять отдельные кадры видеопотока в буфере с возможностью считывания для последующей их обработки и отображения в окне. Запуск и останов процесса обработки видеоданных происходит с помощью модуля IMediaControl.
Буферы левой и правой камер заполняются цветными кадрами в формате RGB 16. Поскольку для дальнейшего анализа необходимы только лишь яркие светящиеся объекты – маяки, то цветные кадры преобразуются к градациям серого, то есть выделяется яркостная составляющая.
3. Чем обусловлен выбор видеокамеры?
(Базовые определения даются в соответствии с рис. 2.12, воспроизведённом из «Справочника по физике для инженеров и студентов вузов»)
Рис. 2.12
Оптические приборы обычно дают двухмерное (плоское) изображение трёхмерных (пространственных) предметов (объектов). Ограничение угла раскрытия пучков света от предмета, необходимое для получения достаточно чёткого изображения, осуществляется с помощью апертурной диафрагмы, роль которой может играть либо круглое отверстие в непрозрачном экране, либо оправа одной из линз системы. Входными и, соответственно, выходными зрачками оптического прибора называются те из отверстий (или их изображений) в нём, которые сильнее всего ограничивают углы раскрытия входящих в прибор и выходящих из него пучков света. Если апертурная диафрагма находится внутри прибора, то её изображение в передней по отношению к предмету части прибора служит входным зрачком, а изображение в задней части прибора – выходным зрачком. Для ограничения поля зрения (в плоскости предмета), помимо апертурной диафрагмы, применяется диафрагма поля зрения, роль которой может также играть оправа одной из линз системы.
Отношение диаметра входного зрачка к фокусному расстоянию объектива называется относительным отверстием объектива. Квадрату величины относительного отверстия пропорциональна освещённость удалённого предмета.
Поле зрения оптической системы – это часть пространства (или плоскости), изображаемая этой системой. На рис. 2.13, воспроизведённом из каталога фирмы «Безопасность», показано, как величина поля зрения влияет на выбор объектива для видеокамеры. В таблице 2.1 приведена зависимость размера видимого объекта от фокусного расстояния объектива и дистанции (для ПЗС 1/3 дюйма) из каталога фирмы «Система» (размер по горизонтали х размер по вертикали в метрах). Также можно воспользоваться формулами определения размеров изображения (рис. 2.14) из каталога систем видеонаблюдения фирмы Sanyo.
Рис. 2.13
Рис. 2.14
Таблица 2.1
По основным оптическим характеристикам объективы (согласно классификации фирмы Fujinon) делятся на:
• широкоугольные, у которых 2w > 70°;
• длиннофокусные, у которых f > 180 мм;
• светосильные, у которых 1:F ≥ 1:1,5.
Здесь:
1) 2w – угол поля зрения: угол, образованный крайними точками объекта и центром входного зрачка объектива.
2) f – фокусное расстояние. Чтобы понять суть этого параметра, можно исходить из того, что в простейшем случае он вычисляется по формуле, включающей радиусы кривизны передней и задней поверхностей тонкой линзы и абсолютные показатели преломления для материала линзы и окружающей среды. Для низколетящего авиаробота окружающая среда – воздух при нормальных условиях.
3) F – диафрагменное число, являющее собой знаменатель относительного отверстия (1:F). Для удобства на практике значение диафрагмы дают не в виде дроби, а приводят только величину её знаменателя. Соответственно, (по еще одной классификации) объективы со светосилой (или значением относительного отверстия) до 1,4 – сверхсветосильные, от 1,8 до 2,0 – светосильные, 2,8 – нормальные, от 2,8 – обычные.
В фотографии под светосилой объектива понимают его способность давать на фотоплёнке изображение большей или меньшей освещённости (или яркости). Чем больше светосила объектива, тем короче может быть выдержка при съёмке. Объектив с большей светосилой даёт возможность фотографировать при менее благоприятных световых условиях. «Справочник по физике» светосилой называет отношение площади входного зрачка к квадрату фокусного расстояния передней (по отношению к предмету) линзы объектива оптического прибора. Поскольку имеет место пропорция, делают ряд допущений и для упрощения выражения светосилы пользуются отношением диаметра входного зрачка к фокусному расстоянию объектива, не возводя это отношение в квадрат, то есть приравнивая к относительному отверстию объектива.
Фокусное расстояние определяет увеличительную мощность линз объектива. Чем больше фокусное расстояние, тем сильнее увеличение. Чем оно меньше, тем более широкоугольным является объектив. На выбор фокусного расстояния влияют два противоречивых параметра – масштаб изображения на экране и угол поля зрения. В случае мобильных роботов надо иметь в виду, что при маневрировании, чем более широкоугольным будет объектив, тем чаще в него будет попадать солнце и другие источники яркого света. В камере могут быть предусмотрены на случай возникновения подобных проблем следующие функции:
• «компенсация заднего света» (способность видеокамеры управлять АРУ и электронным затвором не по всей площади экрана, а по его центральной части, снижая тем самым влияние ярких участков на общее качество изображения);
• «антиблюминг» (компенсация «расплывания» заряда по поверхности матрицы при чрезмерной освещенности отдельных участков изображения, проявляющемся в виде «тянучки» ярких участков).
АРУ – это автоматическая регулировка усиления, которой парируется изменение освещенности, приводящее к изменению величины выходного сигнала в видеотракте телекамеры. Также, в целях стабилизации величины видеосигнала на выходе телекамеры при изменении освещенности в сторону увеличения от рабочей точки, предусмотрены средства управления чувствительностью в сторону её ослабления или же средства ослабления светового потока, в частности, диафрагма. Это механическая заслонка, которая регулирует количество света, попадающее на матрицу (есть еще такое определение: подвижное кольцо с отверстием переменного диаметра, которое может открываться и закрываться как зрачок глаза). В ряде цифровых камер используется цифровой аналог диафрагмы – система, изменяющая время считывания информации с матрицы; при этом площадь отверстия остаётся постоянной.
При изменении значения диафрагмы меняется глубина резкости – расстояние между резким передним планом и резким задним. Когда вы фокусируетесь на объекте съёмки, то есть наводите резкость на аппарате, отдельные фоновые детали сюжета также будут в фокусе. Это объясняется тем, что при нерезкой фокусировке каждая точка объекта съёмки отображается на светопринимающей матрице в виде кружка. Если диаметр этого кружка не более 0,25 % от высоты кадра, наш глаз не ощутит потерю чёткости. Для ведения воздушного боя между оснащёнными видеокамерами авиамоделями глубина резкости имеет большое значение как средство, позволяющее видеть одновременно и земную поверхность, и объекты на ней, и цель.
Большее закрытие диафрагмы затруднено по механическим причинам, а кроме того, когда физические размеры диафрагмы становятся соизмеримы с длинами световых волн, на чёткость изображения начинают отрицательно влиять дифракционные явления. Когда световой поток надо ослабить очень сильно и закрытия диафрагмы недостаточно, уменьшают прозрачность оптики объектива установкой спот-фильтра. Это нейтральный фильтр с переменной по диаметру плотностью. У него периферийная часть прозрачна, а ближе к центру светопропускание уменьшается до нуля, что незаметно при открытой диафрагме, но заметно при её закрытии, так что не приходится закрывать её чрезмерно. При этом объектив ослабляет световой поток примерно в 10 000 раз.