Logo GenDocs.ru

Поиск по сайту:  

Загрузка...

Задача распознавания изображений (фотографий) - файл 1.docx


Задача распознавания изображений (фотографий)
скачать (271.8 kb.)

Доступные файлы (1):

1.docx272kb.16.11.2011 07:41скачать

содержание
Загрузка...

1.docx

Реклама MarketGid:
Загрузка...
Министерство образования и науки РФ
МОСКОВСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ ПЕЧАТИ
Факультет цифровых систем и технологий
Кафедра информационных систем


РЕФЕРАТ
по курсу «Представление знаний в информационных системах»
по теме:
«ЗАДАЧА РАСПОЗНАВАНИЯ ИЗОБРАЖЕНИЙ (ФОТОГРАФИЙ)»


Выполнила: студентка
группы ДЦис-4-1
Тужилина Д. В.
Проверил:
Чеповский А. М.


Москва 2010



СОДЕРЖАНИЕ

1. Введение ………………………………………………………………. 3

2. Общие сведения о распознавании …………………………………… 4

2.1. Этапы распознавания изображений ……………………….. 4

2.2. Подходы для решения задачи распознавания ………..…… 4

2.2.1. Низкоуровневые представления …………………… 4
2.2.2. Признаковые методы …………………….………….. 4
2.2.3. Контурные и структурные методы ………………… 5

2.3. Образы и классы образов …………………………………… 7

2.4. Обучение с учителем и самообучение ………..……………. 7

3. Задача обнаружения и распознавания лиц на изображении .……. 8

3.1. Обнаружение лиц …………………………………………….. 8

3.1.1. Методы обнаружения лиц ………………………….. 9
3.1.2. Достоинства и недостатки методов ……….………… 12

3.2. Распознавание лиц ……………………………………………. 14

3.2.1. Метод главных компонент …………………………... 15
3.2.2. Линейный дискриминантеый анализ ………………. 18
3.2.3. Синтез объектов линейных классов …………………. 19
3.2.4. Гибкие контурные модели лица ……………………. 20
3.2.5 Сравнение эластичных графов ……………………… 22
3.2.6. Скрытые Марковские модели ………………………. 24

4. Заключение …………………………………………………………….. 29

5. Список использованной литературы ………………………………... 32




1. ВВЕДЕНИЕ

Как тема исследований искусственного интеллекта распознавание изображений имеет большое практическое значение. Область применения распознавания изображений велика. Она начинается от измерений, контроля, сортировки и сборки в производственных процессах и заканчивается анализом изображений, считываемых на расстоянии, диагностикой по медицинским снимкам, количественной оценкой экспериментальных данных, идентификацией человека, пониманием изображений как функции технического зрения роботов и т. д.

Процесс распознавания изображения человеком 



не простая обработка зрительной информации, а сложный процесс, важную роль в котором играют психологические факторы, поэтому смоделировать такой процесс в компьютере чрезвычайно сложно.

В существующих средствах распознавания изображений используют различные методы в зависимости от того, является ли объект распознавания искусственным или естественным. В первом случае обычно имеют дело с отдельными предметами четкой формы, поэтому большое число исследований посвящено сопоставлению образов путем обнаружения контуров и границ либо выводу трехмерной формы с использованием геометрических правил. Среди естественных объектов много объектов неправильной формы со светотенями, поэтому обычно с помощью кластерного анализа выполняют разбиение на однородные области, а затем по особенностям форм этих областей делают заключение об объекте. В робототехнике возникает необходимость обработки подвижных изображений в реальном времени, большое значение приобретает скорость распознавания.

В простейшем виде система распознавания изображений может сообщать о том, что на изображении, например, имеется заданный объект. В другом случае система может создавать общее словесное описание сцены.



^ 2. ОБЩИЕ СВЕДЕНИЯ О РАСПОЗНАВАНИИ

2.1. ЭТАПЫ РАСПОЗНАВАНИЯ ИЗОБРАЖЕНИЙ

В общем случае процесс распознавания изображений с помощью компьютера заключается в следующем:

  1. Получение цифрового изображения (например, с помощью фотокамеры, сканера или другим способом)

  2. Предварительная обработка (удаление шумов, яркостная и цветовая коррекция, сегментация и так далее)

  3. Выявление признаков (глобальных или локальных)

  4. Понимание (интерпретация) и оценка (например, классификация)

^ 2.2. ПОДХОДЫ ДЛЯ РЕШЕНИЯ ЗАДАЧИ РАСПОЗНАВАНИЯ

Для любого распознавания нужны эталоны или модели классов распознаваемых объектов. Для решения задач распознавания применяются следующие подходы:

^ 2.2.1. НИЗКОУРОВНЕВЫЕ ПРЕДСТАВЛЕНИЯ

Для определения набора операций над изображениями естественно представить пиксельное изображение в качестве элементов некоторого математического пространства. Это дает набор строгих средств анализа и преобразования изображений.

Функциональное представление является базовым для проведения таких операций над изображениями, как пространственное преобразование изображений, фильтрация и др. Оно преимущественно используется на предварительном этапе обработки изображений.

^ 2.2.2. ПРИЗНАКОВЫЕ МЕТОДЫ

Такие методы основаны на переходе в пространство признаков. В зависимости от задачи, выполняется сравнение признаков, полученных от эталона и входного изображения. Можно классифицировать различные признаки изображений:

  1. Общие признаки: независимые от приложения, такие как цвет, форма

    1. пиксельного уровня, для каждого пикселя, (цвет, положение)

    2. локальные, вычисляемые в некоторой области изображения

    3. глобальные признаки: признаки, вычисляемые по всему изображению (гистограмма, среднее значение, дисперсия)

  2. Предметно-зависимые признаки: зависимые от приложения, например, описывающие лица людей, отпечатки пальцев и т.д. Они формируются на основе общих признаков для конкретной предметной области.

С другой стороны, все признаки могут быть условно разделены на низкоуровневые и высокоуровневые признаки. Низкоуровневые признаки могут быть извлечены непосредственно из исходного изображения, тогда как высокоуровневые признаки базируются на низкоуровневых признаках.

После того как признаки выбраны, для решения задач распознавания может быть использован математический аппарат. Точки, где значение признака достигает экстремального значения, называются точками интереса.

Использование признаков позволяет осуществить распознавание объектов или категоризацию (например, разделение по сюжетам) изображений в достаточно широком круге приложений, однако описание сложных сцен или объектов оказывается сложным. Чаще признаковые методы применяются в задачах распознавания лиц, поиска местности заданного типа на аэрокосмических изображениях, категоризации изображений и т.д.

^ 2.2.3. КОНТУРНЫЕ И СТРУКТУРНЫЕ МЕТОДЫ

Важной характеристикой изображения являются пространственные взаимосвязи между его элементами, образующими иерархическую структуру.

Под контуром обычно понимается местоположение локального изменения или резкого перепада яркости на изображении. При этом подразумевается, что такие перепады возникают на границах объектов.

Аргументы, которые приводятся в пользу контуров:

  1. контур полностью характеризует форму объектов на изображении

  2. контуры объекта, в отличие от его остальных точек, устойчивы на изображениях, полученных в разное время, при смене датчика

  3. контурные точки - небольшая часть всех точек изображения, поэтому работа с ними позволяет резко сократить объем вычислений.

Использование контуров распространено в задачах совмещения пары изображений или изображения с векторной моделью (например, картой местности), описание формы объектов по контурам и т.д. В контурных методах оказывается затруднительным поиск пространственных преобразований сложного типа.

Структурные методы основаны на получении структурно-грамматических признаков, когда в изображении выделяются непроизводные элементы. Вводятся правила соединения этих элементов, одинаковые для эталона и входного изображения. Анализ полученной таким образом грамматики обеспечивает принятие решений.

При структурном сопоставлении изображений, как правило, производится поиск соответствий между структурными элементами с учетом их взаимного расположения, типа, размеров, взаимной ориентации и т.д.

Структурными методами плохо распознаются малоразмерные и слабоструктурированные (например, дымы) объекты. Они чаще используются для распознавания иероглифов, поиска объекта по чертежу в конструкторских базах данных, поиска изображения по наброску, выполненному от руки и т. д.

^ 2.3. ОБРАЗЫ И КЛАССЫ ОБРАЗОВ

Под образом понимается некоторая упорядоченная совокупность признаков. Классом образов называется совокупность образов, обладающих некоторыми свойствами. Распознавание образов - методы, позволяющие относить образы к тем или иным классам.

На практике распространение получили три формы упорядоченного представления признаков: в виде векторов, в виде символьных строк и в виде деревьев. Таким образом, признаки можно представить вектор-столбцами
x=x1x2…xn,
где каждый элемент xi представляет i-тый признак, а n – общее число признаков, связанное с эти образом.

Содержательное наполнение компонент вектора признаков x зависит от применяемого подхода к описанию самого физического объекта.

^ 2.4. ОБУЧЕНИЕ С УЧИТЕЛЕМ И САМООБУЧЕНИЕ

Различие классификации при обучении с учителем и самообучении связано с количеством имеющейся априорной информации. Допустим, что имеется n векторов и (n + 1)-й вектор, классификацию или категорию которого необходимо определить. Первые n векторов называются обучающими, а (n +1)-й вектор — испытуемым или собственно классифицируемым вектором. Если классификация n векторов известна, говорят, что имеет место обучение с учителем, в противном случае — самообучение. Как обучение с учителем, так и самообучение могут быть сформулированы как классическая задача оценивания. Однако самообучение приводит, в общем, к более сложным решениям задачи, чем обучение.


^ 3. ЗАДАЧА ОБНАРУЖЕНИЯ И РАСПОЗНАВАНИЯ ЛИЦ
НА ИЗОБРАЖЕНИИ

Изображения объектов, не имеющих постоянной геометрической формы, но с неизменной топологией внешней поверхности, называют внутренне динамичными. Это изображения многих технических объектов, например, поезда на извилистой железнодорожной линии при рассматривании в плане, некоторых летательных аппаратов (например, вертолет) и т. д. Таковы же и изображения человеческих лиц и фигур животных, объектов растительного происхождения (плоды или листья многих растений одного вида).

Задача обнаружения лица является хорошим примером среди задач распознавания изображений. Часто она является «первым шагом» в процессе решения задачи более высокого уровня (например, узнавания лица, распознавания выражения лица). Однако и сама информация о присутствии и, возможно, количестве лиц на изображении может быть полезна, например, для таких приложений, как охранные системы и содержательная индексация базы данных изображений и т. д.

Распознавание лиц имеет столь же давнюю историю, что и проблема компьютерного зрения. Эта задача имеет серьезную практическую перспективу и вызывает большой исследовательский интерес.

^ 3.1. ОБНАРУЖЕНИЕ ЛИЦ

Задача обнаружения лица на изображении является более чем простой для человеческого зрения, однако при построении автоматической системы обнаружения лиц приходится столкнуться со следующими сложностями:

  1. Сильно варьирующийся внешний вид лица у разных людей

  2. Даже небольшое изменение ориентации лица относительно камеры влечет серьезное изменение изображения лица

  3. Возможное присутствие индивидуальных особенностей (усы, бороды, очки, морщины) осложняет автоматическое распознавание

  4. Изменение выражения лица может сильно сказаться на том, как лицо выглядит на изображении

  5. Часть лица может быть невидима (закрыта другими предметами) на изображении

  6. Условия съемки (освещение, цветовой баланс камеры, качество изображения) влияют на получающееся изображение лица

^ 3.1.1. МЕТОДЫ ОБНАРУЖЕНИЯ ЛИЦ

Существующие алгоритмы обнаружения лиц можно разбить на две широкие категории. К первой категории относятся методы, отталкивающиеся от опыта человека в распознавании лиц и делающие попытку формализовать и алгоритмизовать этот опыт, построив на его основе автоматическую систему распознавания. Вторая категория опирается на инструментарий распознавания образов, рассматривая задачу обнаружения лица, как частный случай задачи распознавания. Далее рассмотрим методы первой категории.

Среди методов, делающих попытку использовать принципы, которыми руководствуется мозг при решении задачи распознавания, можно выделить два направления: методы распознавания «сверху-вниз» основанные на знаниях и методы распознавания «снизу-вверх» основанные на особенностях.

Распознавание «сверху-вниз» означает построение некоторого набора правил, которым должен отвечать фрагмент изображения, для того чтобы быть признанным человеческим лицом. Скажем, строится набор свойств изображения лица, например: лицо обычно симметрично, черты лица (глаза, носа, рот) отличаются от кожи по яркости (обычно им соответствуют области резкого изменения яркости). Опираясь на эти свойства, можно построить алгоритм, проверяющий их наличие на изображении. К этому же семейству методик относится распознавание с помощью шаблонов. Шаблоны задают некий стандартный образ изображения лица. Обнаружение лица с помощью шаблона заключается в проверке каждой из областей изображения на соответствие заданному шаблону.

Распознавание «снизу-вверх» использует инвариантные относительно условий съемки свойства изображений лиц. ^ Алгоритм работы методов распознавания «снизу-вверх» может быть кратко описан так:

  1. Обнаружение элементов, характерных для изображения лица;

  2. Анализ обнаруженных особенностей, вынесение решения о количестве и расположении лиц;

К элементам, характерным для изображения лиц, можно отнести следующие особенности:

  1. резкие переходы яркости - обычно соответствуют границам объектов на изображении, а лицо - это эллипс определенных пропорций. Используя это возможно распознавать лица с помощью карты краев

  2. области изображения, соответствующие чертам лица, зачастую темнее, чем окружающая их кожа. Для распознавания используются алгоритмы обнаружения областей локальных минимумов яркости.

  3. цвет кожи разных людей занимает небольшую подобласть цветового пространства, даже при рассмотрении цветов кожи различных рас. Основное отличие заключается в яркости, а не оттенке цвета, что позволяет использовать цвет кожи как признак для распознавания лиц.

  4. применение операторов, основанных на форме черт лица, например, симметричность, близость границы черт лица по форме к параболе. Другой близкий вариант распознавания - использование жестких или деформируемых шаблонов для обнаружения черт лица.

После того, как на изображении выделены области, обладающие свойствами, характерными для человеческого лица, производится их анализ, и выявляются области, действительно являющихся лицами. Сущность этой проверки зависит от характера используемых признаков, а также от избранной исследователями стратегии. Например, если используется распознавание по цвету, то может быть добавлено дополнительное условие, что рассматриваться в качестве потенциальных лиц будут только области близкие по цвету к оттенку кожи, причем форма областей должна быть эллиптической.

^ Моделирование изображений лица. Методы этой категории опираются на инструментарий распознавания образов, рассматривая задачу обнаружения лица, как частный случай задачи распознавания. Изображению (или его фрагменту) ставится в соответствие некоторым образом вычисленный вектор признаков, который используется для классификации изображений на два класса - лицо/не лицо.

Обычно поиск лиц на изображениях с помощью методов, основанных на построении математической модели изображения лица, заключается в полном переборе всех прямоугольных фрагментов изображения всевозможных размеров и проведения проверки каждого из фрагментов на наличие лица. Поскольку схема полного перебора обладает такими безусловными недостатками, как избыточность и большая вычислительная сложность, применяются методы сокращения количества рассматриваемых фрагментов.

^ Метод Опорных Векторов (SVM). С помощью метода опорных векторов можно построить классификатор минимизирующий верхнюю оценку ожидаемой ошибки классификации. Применение метода опорных векторов к задаче обнаружения лица заключается в поиске гиперплоскости в признаковом пространстве, отделяющий класс изображений лиц от изображений «не лиц».

^ Искусственные нейронные сети (NN). Они успешно применяются для решения многих задач распознавания. Достоинством использования нейросетей для решения задачи обнаружения лица является возможность получения классификатора, хорошо моделирующего сложную функцию распределения изображений лиц p (x | face). Недостатком же является необходимость в тщательной и кропотливой настройке нейросети для получения удовлетворительного результата классификации.

^ Sparse Network of Winnows (SNoW) для обнаружения лиц представляет собой двухслойную сеть, входной слой которой состоит из узлов, каждый из которых соответствует некоторой характеристике входного изображения (генерирует 1 при наличии некоторой особенности и 0 в случае ее отсутствия на изображении), выходной же состоит всего из двух узлов, каждый из которых соответствует распознаваемым классам изображений («лицо», «не лицо»). Узлы выходного слоя вычисляют линейную комбинацию сигналов, генерируемых входными узлами. Коэффициенты линейной комбинации задаются весами связей между входными и выходными узлами. При превышении заданного порога, принимается решение о наличии лица на изображении. Разреженная архитектура сети позволяет использовать огромное количество свойств изображения в качестве входных данных, поскольку в процессе тренировки все несущественные характеристики отбрасываются, и не замедляют, в конечном итоге, функционирование классификатора.

3.1.2. Достоинства и недостатки методов

Основа методов первой категории - эмпирика, является одновременно их сильной и слабой стороной. Применение эмпирических правил позволяет построить некоторую модель изображения лица и свести задачу к выполнению некоторого количества относительно простых проверок. Однако, методы первой категории слабы, поскольку исследователи, сталкиваются с рядом серьезных трудностей. Во-первых, процессы, происходящие в мозгу во время решения задачи распознавания изображений, изучены далеко не полностью. Во-вторых, трудно эффективно перевести неформальный человеческий опыт и знания в набор формальных правил. Жесткие рамки правил приведут к тому, что в ряде случаев лица не будут обнаружены, слишком общие правила приведут к большому количеству случаев ложного обнаружения.

Можно перечислить следующие проблемы, общие для методов второй категории:

  1. Зависимость от ориентации и масштаба лица. Большинство классификаторов не являются инвариантными к повороту лица в плоскости изображения и изменению его размера. Проблему изменения масштаба решают, обычно, путем полного перебора всех возможных прямоугольных фрагментов изображения всех возможных размеров.

  2. Неявный способ определения признаков для распознавания лица таит в себе потенциальную опасность: классификатор, обладающий недостаточно репрезентативным набором изображений лиц, теоретически может выделить вторичные или ложные признаки в качестве важных. Одно из следствий - потенциальная зависимость от освещения, которое преобладало в тренировочном наборе. В ряде случаев применяется дополнительная предобработка изображения для компенсации влияния освещения.

  3. Высокая вычислительная сложность. Во-первых, сами классификаторы часто включают в себя большое количество достаточно сложных вычислений; во-вторых, полный перебор всех возможных прямоугольных фрагментов изображения сам по себе занимает большое количество времени.

Построение универсального метода, с высоким уровнем распознавания, при отсутствии ограничений на исходные изображения сейчас не представляется возможным, однако для большинства задач можно создать методы, предоставляющие достаточный уровень распознавания.

3.2. Распознавание лиц

На сегодняшний день проблема идентификации человека по изображению лица привлекает внимание большого количества исследователей в области обработки изображений и распознавания образов.

К информационным знакам лица человека можно отнести следующие признаки:

  1. Форма лица (круглая, квадратная, треугольная и т. д.)

  2. Соотношение частей лица между собой (лоб, средняя, нижняя части)

  3. Форма лба, скул и подбородка

  4. Форма и размер уха, способ его прикрепления, форма частей уха

  5. Симметрия или асимметрия лица.

  6. Форма, величина и расположение глаз, рта, носа

  7. Линии морщин и т.д.

В зависимости от того, какой портрет используется (в фас, профиль или оба), эти методы комбинируются между собой.

Задача распознавания лица состоит из двух основных задач: задачи обнаружения лица на изображении и задачи распознавания лица, т.е. вычисления меры близости между различными изображениями лиц.

При распознавании лица возникают ошибки двоякого характера. Ошибка первого рода - вероятность того, что алгоритм ошибочно отнесет неизвестное лицо к одному из известных лиц. Ошибка второго рода - вероятность того, что алгоритм известное лицо ошибочно посчитает неизвестным. На практике чаще фиксируют допустимый уровень ошибки первого рода и стараются минимизировать ошибку второго рода.

Согласно приведенным результатам современные системы распознавания лиц способны идентифицировать лица с высокой надежностью, при этом надежность распознавания существенно зависит от размеров лица, его расположения и условий освещенности. Под размером лица понимается количество пикселей между центрами зрачков. Так, при работе лучших алгоритмов в условиях контролируемой освещенности для изображений со сверхвысоким разрешением (размер лица 400 пикселей и более) при ошибке первого рода 0.1% ошибка второго рода составляет всего 1%. В условиях неконтролируемой освещенности ошибка второго рода достигает 10-15 процентов. Эти результаты достигаются лучшими на сегодняшний день алгоритмами распознавания лиц.

В настоящее время для решения задачи распознавания лиц применяются алгоритмы, основанные на статистическом анализе изображений, Марковских цепях, эластичных графах, анализе характерных точек и алгоритмы, основанные на нейронных сетях.

3.2.1. Метод главных компонент

Метод главных компонент (преобразование Кархунена-Лоэва, Principal Component Analysis, PCA) является, по сути, статистическим методом и применяется для сжатия информации без существенных потерь.

Основная идея метода заключается в линейном ортогональном преобразовании входного вектора X размерности N в выходной вектор Y размерности M, N. При этом компоненты вектора Y являются независимыми. Матрица X состоит из всех примеров изображений обучающего набора. Решив уравнение A=ΦT∑Φ , получаем матрицу собственных векторов Φ, где ∑– ковариационная матрица для X (матрица, составленная из попарных ковариаций элементов), а A – диагональная матрица собственных чисел. Выбрав из Φ подматрицу ΦM, соответствующую M наибольшим собственным числам, получим, что преобразование y=ΦMT∙x, где x=x∙x – нормализованный вектор с нулевым математическим ожиданием, характеризует большую часть общей дисперсии и отражает наиболее существенные изменения X.

Выбор первых M главных компонент разбивает векторное пространство на собственное пространство F=Φii=1M, содержащее главные компоненты, и его ортогональное дополнение F=Φii=M+1M

В терминах задачи распознавания лиц входные векторы представляют собой центрированные и приведенные к единому масштабу изображения лиц. Собственные вектора, вычисленные для всего набора изображений лиц, называются собственными лицами. Изображение, соответствующее каждому собственному вектору имеет форму подобную лицу (рисунок 3.1).


Рисунок 3.1. Пример изображений собственных векторов

С помощью вычисленных ранее матриц входное изображение разлагается на набор линейных коэффициентов, называемых главными компонентами. Сумма главных компонент, умноженных на соответствующие собственные вектора, является реконструкцией изображения (рисунок 3.2).


Рис. 3.2. а) изображение лица, б) реконструкция по 85-и главным компонентам

Для каждого изображения лица вычисляются его главные компоненты. Обычно берётся от 5 до 200 главных компонент. Остальные компоненты кодируют мелкие различия между лицами и шум. Процесс распознавания заключается в сравнении главных компонент неизвестного изображения с компонентами всех остальных изображений. При этом предполагается, что изображения лиц, соответствующих одному человеку, сгруппированы в кластеры в собственном пространстве. Из базы данных (или тренировочного набора) выбираются изображения-кандидаты, имеющие наименьшее расстояние от входного (неизвестного) изображения. Дополнительное повышение надёжности достигалось за счёт дополнительного применения анализа главных компонент к отдельным участкам лица, таким как глаза, нос, рот.

Отмечен факт, что при наличии в наборе изображений лиц вариаций, таких как раса, пол, эмоции, освещение, будут появляться компоненты, величина которых в основном определяется этими факторами. Поэтому по значениям соответствующих главных компонент можно определить, например, расу или пол человека.

Преимущество применения анализа главных компонент – это хранение и поиск изображений в больших базах данных, реконструкция изображений.

Основной недостаток – высокие требования к условиям съёмки изображений. Изображения должны быть получены в близких условиях освещённости, одинаковом ракурсе, должна быть проведена качественная предварительная обработка, приводящая изображения к стандартным условиям (масштаб, поворот, центрирование, и т. д.). Нежелательно наличие таких факторов, как очки, изменения в причёске, выражении лица и прочих. Например, при различных условиях освещённости, метод собственных лиц практически неприменим, поскольку первые главные компоненты преимущественно отражают изменения освещения, и сравнение выдаёт изображения, имеющие похожий уровень освещённости.

3.2.2. Линейный дискриминантный анализ

Линейный дискриминантный анализ (линейный дискриминант Фишера, Linear Discriminant Analysis, LDA), выбирает проекцию пространства изображений на пространство признаков таким образом, чтобы минимизировать внутриклассовое и максимизировать межклассовое расстояние в пространстве признаков.

С помощью ЛДА удается получить подпространство небольшой размерности, в котором кластеры изображений лиц и «не лиц» пересекаются минимально. Производить классификацию в таком пространстве проще. Для данной группы методов свойственна высокая точность распознавания.

Матрица W для проецирования пространства изображения на пространство признаков выбирается из следующего условия:

Wopt=argmaxWWTSBWWTSWW,

где SB – матрица межклассовой дисперсии, SW – матрица внутриклассовой дисперсии.

Поскольку работа непосредственно с матрицей SW затруднительна из-за её размерности (общее число классов велико), часто используют предварительное уменьшение размерности с помощью метода главных компонент, и затем вычисления производятся в пространстве меньшей размерности:

Wfld=argmaxWWTWpsaTSBWpsaWWTWpsaTSWWpsaW,

где Wpsa – матрица для проецирования в пространство меньшей размерности (пространство главных компонент). Данный метод называют лицами Фишера. Так же как и собственные вектора, изображения базисных дискриминантных векторов имеют лицеподобную форму.

У метода отмечена высокая точность распознавания для широкого диапазона условий освещённости, различных выражений лица и наличия или отсутствия очков, в отличие от метода собственных лиц при аналогичных условиях. Причём применение метода собственных лиц, в котором главные компоненты отвечающие за освещённость не учитывались, всё равно давало худший результат, чем дискриминант Фишера.

Как и в методе собственных лиц, здесь тоже нужна качественная предварительная обработка, приводящая изображения к стандартным условиям. Нежелательно изменение ракурса.

Вышеописанный метод основывается на предположении о линейной разделимости классов в пространстве изображений. В общем случае такое предположение несправедливо.

3.2.3. Синтез объектов линейных классов

Метод позволяет синтезировать новые изображения объекта (и в частности, изображения лица) для разных ракурсов. Имеется тренировочный набор изображений лиц и только одно изображение нового объекта в определённом ракурсе. Тренировочный набор состоит из изображений объектов того же класса (класс лиц в данном случае), что и новый объект и включает в себя изображения различных лиц, при чём для каждого лица имеются его изображения в широком диапазоне ракурсов. Для нового объекта, имеющего изображение XA в ракурсе A, осуществляется линейное разложение на изображения объектов из тренировочного набора в том же ракурсе, с вычислением коэффициентов αi:

XA=i=1qαiXiA,

где q – количество объектов в тренировочном наборе. Синтез изображения XB в новом ракурсе B для нового объекта осуществляется сложением изображений из тренировочного набора в ракурсе B с теми коэффициентами:

XB=i=1qαiXiB

Таким образом, метод позволяет синтезировать изображения нового объекта в различных ракурсах по изображению в одном ракурсе без привлечения сложных трёхмерных моделей.

Данный метод является перспективным для синтеза изображений в новых ракурсах без привлечения сложных трёхмерных моделей, однако вопрос о качестве и количестве примеров в тренировочном наборе остаётся открытым.

3.2.4. Гибкие контурные модели лица

Распознавание производится на основе сравнения контуров лица. Контуры обычно извлекаются для линий головы, ушей, губ, носа, бровей и глаз. Контуры представлены ключевыми позициями, между которыми положение точек, принадлежащих контуру, вычисляются интерполированием. Для локализации контуров в различных методах используется как априорная информация, так и информация, полученная в результате анализа тренировочного набора.

Главной задачей при распознавании по контурам является правильное выделение этих контуров. В общем виде эта задача по сложности сравнима непосредственно с распознаванием изображений. Кроме того, использование этого метода самого по себе для задачи распознавания недостаточно.

Образы из базы данных представляются в виде контуров, описывающих нижние 2/3 лица без лба (рисунок 3.3).


Рисунок 3.3. Контурные модели формы лица

Эти модели формы лица используются при регистрации, идентификации, распознавании род/пол, распознавании выражения лица, для виртуальной реконструкции.

Вычисляется усреднённая форма лица («эластичная» - известно, в каких пределах она может изменяться). Дополнительными средствами при распознавании являются градиенты яркости. Пример эластичной модели приведен на рисунке 3.4.


Рисунок 3.4. Изменение параметра признака в эластичной модели формы лица

По эластичной модели можно определить наличие усов, бороды, очков. Уровень распознавания лежит в пределах 86-97%, определение положения лица 77-100%, выражения лица с точностью до 83%.

3.2.5. Сравнение эластичных графов

В этом методе лицо представляется в виде графа, вершины которого расположены на ключевых точках лица, таких как контуры головы, губ, носа и их крайних точках (рисунок 3.5).


Рисунок 3.5. Эластичный граф, покрывающий изображение лица

Каждая грань помечена расстояниями между её вершинами. В каждой такой точке вычисляются коэффициенты Габоровых функций для пяти различных частот и восьми ориентаций. Набор таких коэффициентов Jj называется джетом. Джеты характеризуют локальные области изображений и служат для двух целей. Во-первых, для нахождения точек соответствия в заданной области на двух различных изображениях. Во-вторых, для сравнения двух соответствующих областей различных изображений. Каждый коэффициент Jj=ajexpiϕj для точек из одной области различных изображений, характеризуется амплитудой aj, которая медленно меняется с изменением положения точки и фазой ϕj, которая вращается со скоростью, пропорциональной частоте волнового вектора базисного вейвлета. Поэтому, в простейшем случае, для поиска на новом изображении точки с аналогичными характеристиками в функции подобия фазу не учитывают:

SaJ, J=jajajjaj2jaj2

Для различных ракурсов соответствующие ключевые точки отмечены вручную на тренировочном наборе. Кроме того, чтобы для одного и того же лица представить различные вариации его изображения в одном и том же графе, для каждой точки используются несколько джетов, каждый из которых может соответствовать различным локальным характеристикам данной точки, например открытому и закрытому глазу.

Процесс распознавания неизвестного лица состоит в сравнении графа изображения лица GIсо всеми остальными графами из набора Bпри помощи функции подобия:

SBGI, B=1NnmaxmSϕJnI,JnBm-λEeΔxeI-ΔxeB2ΔxeB2

Левая сумма характеризует подобие джетов вычисленное с применением фазочувствительной функции, правая – топографическое соответствие, которое пропорционально квадрату разности расстояний между соответствующими вершинами сравниваемых изображений, N – количество вершин, E – количество граней, λ– коэффициент относительной важности топографической информации.

Метод способен достаточно надёжно распознавать при изменениях ракурса до 22 градусов; при больших углах точность распознавания резко уменьшается, функция подобия оказывается больше чувствительной к ракурсу, чем к межклассовым различиям.

Однако метод учитывает только суммарную взвешенную меру геометрических искажений, никак не пытаясь построить модель или учесть характер этих изменений. Другими словами, это перспективный метод извлечения и поиска характеристик на изображении, но этому методу не хватает механизма классификации.

Существуют так же более ранние разновидности этого метода, которые не используют изначально определённые ключевые точки и структуры графа. Одни из них используют для сравнения решётки джетов, наложенные на изображение (рисунок 3.6).


Рисунок 3.6. Эластичная решётка, наложенная на изображение, и её искажение

В неизвестном изображении отыскиваются точки соответствия, и затем по найденным точкам строится искажённая решётка и измеряется мера её искажения для определения наиболее похожего изображения.

3.2.6. Скрытые марковские модели

Методы на основе скрытых Марковских моделей являются одним из наиболее мощных инструментов для решения задачи распознавания лиц. Каждая модель λ=A, B, π представляет собой набор N состояний
S=S1, S2, …SN (рисунок 3.7, вершины графа), между которыми возможны переходы (дуги). В каждый момент времени система находится в строго определенном состоянии. В наиболее распространенных Марковских моделях первого порядка полагается, что каждое последующее состояние зависит только от текущего состояния.


Рисунок 3.7. Схема Марковской модели

При переходе в каждое состояние генерируется наблюдаемый символ, который соответствует физическому сигналу с выхода моделируемой системы. Набор символов для каждого состояния V=v1, v2, …vM, количество символов M. Генерируемый выход может быть непрерывным. Существуют модели, в которых набор символов для всех состояний одинаков. Символ в состоянии qt=Sj в момент времени t генерируется с вероятностью bjk=P[vk1|qt=Sj]. Набор всех таких вероятностей составляет матрицу B=bj(k).

Матрица A=aij определяет вероятность перехода из одного состояния в другое: aij=Pqt+1=Sjqt=Si, 1≤i, j≤N. Считается, что A не зависит от времени. Если из каждого состояния можно достичь любого другого за один переход, то все aij>0, и модель называется эргодической. Так же модель имеет вероятность начальных состояний π=πi, где πi=P[q1=Si].

Обычно в реальных процессах последовательность состояний является скрытой от наблюдения и остаётся неизвестной, а известен только выход системы, последовательность наблюдаемых символов O=O1,O2, …OT, где каждое наблюдение Ot– символ из V, и T – число наблюдений в последовательности.

Модель λ=A, B, πс настроенными параметрами может быть использована для генерирования последовательности наблюдений. Для этого случайно, в соответствии с начальными вероятностями π выбирается начальное состояние, затем на каждом шаге вероятность B используется для генерации наблюдаемого символа, а вероятность A – для выбора следующего состояния. Вероятность P генерирования моделью λ-последовательности состояний O: POQ,λ)= t=1Tbqt(Ot), где Q=q1q2…qT – последовательность состояний. Предполагается, что наблюдения статистически независимы.

В распознавании образов скрытые Марковские модели применяются следующим образом. Каждому классу i соответствует своя модель λ. Распознаваемый образ ( изображение) представляется в виде последовательности наблюдений O. Затем для каждой модели λ вычисляется вероятность того, что эта последовательность могла быть сгенерирована именно этой моделью. Модель λj, получившая наибольшую вероятность, считается наиболее подходящей, и образ относят к классу j.

Одна из первых работ, применяющая СММ для распознавания изображений лиц – это диссертация Фердинанда Самарии, которой предшествовали работы по распознаванию изображений других видов скрытыми Марковскими моделями. В этой работе распознавание осуществлялось как простейшими одномерными линейными СММ, так и псевдодвумерными. Введение второго измерения позволило повысить точность распознавания с 85% до 95%.

Суть двумерных Марковских моделей заключается в том, что в отличие от одномерных линейных СММ, они позволяют моделировать искажения изображения и взаимное расположение участков не отдельно по горизонтали или вертикали, а в обоих направлениях одновременно. Для уменьшения вычислительной сложности применяются псевдодвумерные Такая модель состоит из нескольких линейных вертикальных моделей нижнего уровня, и одной линейной горизонтальной модели верхнего уровня, на вход которой поступают выходы моделей нижнего уровня (рисунок 3.8).


Рис. 28. Псевдодвумерная скрытая Марковская модель

Таким образом, псевдодвумерная модель позволяет учесть локальные деформации и взаимное расположение участков изображений. Но в отличие от других методов сопоставления деформациями, псевдодвумерная модель учитывает характер деформаций, а то какими именно могут быть возможные деформации, псевдодвумерные СММ усваивают в процессе обучения.

На вход СММ подаются квадратные участки изображений (рисунок 3.9). Экспериментально было установлено, что участки, извлекаемые с 75% перекрытием друг с другом, дают наилучшую точность распознавания.


Рисунок 3.9. Извлечение участков-образцов наблюдения

Одним из полезных свойств СММ является способность сегментировать распознаваемое изображение. Для СММ важное значение имеет начальная инициализация модели.

Полезное свойство распознавания данной модели заключается в том, что оно позволяет работать непосредственно со сжатыми изображениями, такими как JPEG, в которые на сегодняшний день являются распространёнными форматами хранения изображений.

Недостаткам СММ является то, что СММ не обладает различающей способностью. Т.е. алгоритм обучения только максимизирует отклик каждой модели на свои классы, но не минимизирует отклик на другие классы, и не выделяются ключевые признаки, отличающие один класс от другого.


4. ЗАКЛЮЧЕНИЕ

Искусственный интеллект и некоторые смежные области, в частности, анализ сцен и машинное зрение все еще прибывают на относительно ранних стадиях практических разработок.

Процесс распознавания изображений является сложной многоэтапной процедурой. Многоэтапность обусловлена тем, что различные задачи обработки на самом деле тесно связаны и качество решения одной из них влияет на выбор метода решения остальных. Так выбор метода распознавания зависит от конкретных условий предъявления входных изображений, в том числе характера фона, других изображений, помеховой обстановки и связан с выбором методов предобработки, сегментации, фильтрации.

Широкое разнообразие методов анализа изображений объективно обусловлено большим количеством предметных областей, в которых эти методы применяются. Изображения в разных предметных областях могут варьироваться как по своему содержанию, для описания которого может оказаться эффективным то или иное представление изображений, так и по степени изменчивости изображений (типичными причинами изменчивости изображений являются смена ракурса съемки, освещения, типа камеры, а также собственная изменчивость объектов).

В узких предметных областях с низкой изменчивостью изображений наиболее практичными могут оказаться признаковые методы. Глобальные признаки позволяют осуществлять быструю категоризацию изображений или распознавание изолированных объектов. Но данные методы обладают низкой степенью инвариантности к разнообразным факторам изменчивости изображений, в связи с чем, являются недостаточно универсальными.

Структурные методы обладают наибольшей степенью инвариантности и применимы к широким предметным областям с большой изменчивостью изображений. В то же время при построении структурных описаний происходит, как правило, потеря большого объема информации, поэтому эти методы не применимы к малоразмерным объектам. Структурное распознавание изображение можно также оказаться весьма ресурсоемким из-за необходимости перебора большого числа вариантов сопоставления структурных элементов. Однако при наличии перспективных искажений или сложных типов изменчивости объектов на изображениях альтернативу структурным методам найти затруднительно. Повышение эффективности структурных методов может быть достигнуто за счет дополнительного использования локальных текстурных и цветовых признаков. Компромисс между низкоуровневыми и структурными методами представляют контурные методы распознавания изображений, которые допускают достаточно простую и эффективную реализацию. Наиболее существенным недостатком контурных методов является трудность их применения в случаях сложных пространственных преобразований изображений.

Признаковые методы часто применяются в задачах распознавания лиц, поиска местности заданного типа на аэрокосмических изображениях, категоризации изображений и т.д. Контурные структурные методы чаще используются для распознавания иероглифов, поиска объектов искусственного происхождения на аэрокосмических снимках, поиска изображения по цифровой карте местности в геоинформационных системах или объекта по чертежу в конструкторских базах данных, поиска изображения по наброску, выполненному от руки.

Перспективными для построения универсальных систем распознавания изображений могут оказаться иерархические методы, включающие несколько взаимодействующих уровней описания изображений. Однако их применение ограничено слабой проработанностью теории создания подобных иерархических систем.

Задачи, связанные с построением универсальных систем распознавания изображений возникают при построении систем информационного поиска в домашних фотоальбомах, базах торговых знаков, фотостоках, сети Интернет, где изображения могут обладать произвольным содержанием. На настоящий момент большинство функционирующих систем подобного типа используют текстовые аннотации или ключевые слова, на основе которых производится поиск. Необходимость составления текстовых аннотаций и списков ключевых слов осложняет процесс создания соответствующих баз изображений. К сожалению, существующие методы распознавания изображений лишь в незначительной степени позволяют облегчить данную проблему.


^ 5. СПИСОК ИСПОЛЬЗОВАННОЙ ЛИТЕРАТУРЫ

  1. В. С. Файн «Опознавание изображений» Москва «Наука» 1970

  2. Э. Патрик «Основы теории распознавания образов» Москва «Советское радио» 1980

  3. Р. Гонсалес «Цифровая обработка изображений» Москва «Техносфера» 2005

  4. Р. Дуда «Распознавание образов и анализ сцен» Москва «Мир» 1976

  5. Т. Тэрано «Прикладные нечеткие системы» Москва «Мир» 1993

  6. К. Фу «Структурные методы в распознавании образов» Москва «Мир» 1977

  7. В.Н. Васильев «Математические методы и алгоритмическое обеспечение анализа и распознавания изображений в информационно-телекоммуникационных» Санкт-Петербург

  8. http://www.hardbroker.ru/pages/recognition - «Технология распознавания лиц»

  9. http://daily.sec.ru/dailypblprnver.cfm?pid=4425 - Д. Брилюк «Распознавание человека по изображению лица и нейросетевые методы»

  10. http://sumschool.sumdu.edu.ua/is-02/rus/lectures/pytyatin/pytyatin.htm -
    Е. П. Путятин «Нормализация и распознавание изображений»





Скачать файл (271.8 kb.)

Поиск по сайту:  

© gendocs.ru
При копировании укажите ссылку.
обратиться к администрации