Logo GenDocs.ru

Поиск по сайту:  

Загрузка...

Борискевич А.А. Цифровая обработка речи и изображений - файл Тема 1.doc


Борискевич А.А. Цифровая обработка речи и изображений
скачать (5335.1 kb.)

Доступные файлы (16):

Литература.doc34kb.28.04.2007 17:48скачать
Содержание.doc68kb.28.04.2007 17:09скачать
тема10.doc1416kb.28.04.2007 17:42скачать
тема11.doc917kb.28.04.2007 17:47скачать
тема12.doc1926kb.28.04.2007 17:45скачать
Тема 13.doc5561kb.28.04.2007 17:46скачать
тема14.doc177kb.28.04.2007 17:46скачать
Тема 1.doc182kb.28.04.2007 17:34скачать
Тема 2.doc549kb.28.04.2007 17:41скачать
Тема 3.doc243kb.28.04.2007 17:33скачать
тема 4.doc297kb.28.04.2007 17:34скачать
Тема 5.doc1150kb.28.04.2007 17:35скачать
Тема 6.doc3287kb.28.04.2007 17:41скачать
Тема 7.doc529kb.28.04.2007 17:38скачать
Тема 8.doc985kb.28.04.2007 17:39скачать
тема 9.doc1022kb.28.04.2007 17:42скачать

Тема 1.doc

Тема 1. Предмет и задачи курса, его взаимосвязь с другими курсами специальности. Области применения речевых технологий (2 часа) [1-5, 8].
1.1. Краткая история развития теории и техники ЦОС

Вся история развития теории и техники ЦОС, как и информатики в целом, напрямую связана с достижениями в области дискретной схемотехники и компьютерных технологий. Дискретизация непрерывной информации во времени и квантование по уровню являются основой ее эффективного кодирования, преобразования, передачи и архивации. С появлением в 40-х годах первых ЭВМ стало реальным возникновение нового фундаментального научного направления вычислительной математики, одним из разделов которой можно считать машинные алгоритмы цифровой обработки данных. Однако ограниченные вычислительные ресурсы используемых в те годы ЭВМ не позволяли проводить обработку данных в реальном времени. Речь могла идти лишь о моделировании реальных процессов.

Положение начало радикально изменяться с появлением в 60-х годах класса малых ЭВМ, ориентированных преимущественно на решение задач управления и обработки данных в реальном времени. Потенциальная возможность обработки, преобразования и передачи аналоговых по природе сигналов цифровыми методами с помощью малых ЭВМ. привлекла внимание специалистов, работающих во многих областях, и прежде всего, в области связи, гидроакустики и обработки речевых сигналов. С этого времени формулируется круг проблем и задач теории ЦОС как самостоятельного научного направления, которому предстоит в дальнейшем свой многоэтапный путь становления и развития.

^ Цифровая фильтрация и спектральный анализ. Основной предметной областью теории ЦОС (1965—1975 гг.) были цифровая фильтрация и спектральный анализ (рис.1.1), причем оба направления рассматривались с общей позиции частотных представлений. Общей основой развивающихся направлений был синтез цифровых фильтров частотной селекции. Базовые положения теории ЦОС закладывались и апробировались фактически на теории дискретных систем и теории цепей с использованием известного к тому времени набора машинных алгоритмов и, прежде всего, алгоритма быстрого преобразования Фурье (БПФ).


Рис. 1.1. Взаимосвязь цифровой фильтрации и спектрального анализа
Первые цифровые устройства с позиции сегодняшних представлений обладали низкой эффективностью и имели крайне ограниченное применение, связанное, как правило, с военными технологиями.

^ Многоскоростная фильтрация и адаптивная обработка сигналов. В начале 70-х годов начинается новый этап становления техники ЦОС и компьютерных технологий. Открываются новые возможности и возникают новые проблемы. Теория ЦОС входит в очередной этап своего развития. Именно в этот период формируются четыре основных взаимосвязанных направления современной теории ЦОС (рис.1.2).

Первое направление – цифровая частотная селекция сигналов, закрепляет и систематизирует достижения в области проектирования цифровых полосовых фильтров и их наборов. Наиболее оригинальные работы в этом направлении были связаны с развитием теории многоскоростной обработки сигналов на основе эффектов прореживания по времени и по частоте.

Второе направление – быстрые алгоритмы обработки сигналов, ориентировано на построение высокоскоростных алгоритмов ЦОС путем исключения «избыточности» операций преобразования и замены трудоемких операций умножения операциями сложения и сдвига (многочисленные модификации алгоритма БПФ и методы теоретико-числовых преобразований).


Рис 1.2. Основные взаимосвязанные направления

современной теории ЦОС
Третье направление – адаптивная и оптимальная обработка сигналов, охватывает широкий спектр методов решения задач оптимальной фильтрации (фильтры Винера, Калмана и др.) и обработки сигналов в условиях априорной неопределенности о характере исследуемого динамического процесса.

Четвертое направление – обработка многомерных сигналов и полей, является естественным развитием обработки одномерных сигналов на случай многомерных цифровых систем.

Указанные направления взаимосвязаны друг с другом, и эта взаимосвязь базируется как на общей математической основе, «питающей» все четыре направления, так и на прямом использовании основных положений и методов одних направлений в других. В эти годы успешно начали развиваться системы цифровой обработки изображений и звуковой информации – самостоятельные области науки и техники.

Цифровые методы обработки изображений намного превосходят аналоговые по гибкости и эффективности. При линейной обработке изображений широко применяются различные двумерные унитарные преобразования: Фурье, косинусные, синусное, наклонное, Адамара, Хаара, сингулярное и другие, позволяющие в той или иной степени сократить объем информации. Цифровая обработка изображений применяется для их реставрации и улучшения, выделения признаков деталей изображений, обнаружения и распознавания образов, цифрового внутри- и межкадрового кодирования.

В настоящее время интенсивно развиваются мультимедийные интерактивные системы, обеспечивающие работу с неподвижными изображениями и движущимся видео, анимированной компьютерной графикой и текстом, речью и высококачественным звуком. Основная проблема – совместная обработка разнородных данных: цифровых и аналоговых, видео и неподвижных изображений и т.п. В компьютере все данные хранятся в цифровой форме, в то время как теле-, видео- и большинство аудиоаппаратуры имеет дело с аналоговым сигналом. Однако выходные устройства компьютера – мониторы и динамики имеют аналоговый выход. Поэтому простейший и наиболее дешевый путь построения первых систем мультимедиа состоял в стыковке разнородной аппаратуры с компьютером, предоставлении компьютеру возможностей управления этими устройствами, совмещении выходных сигналов компьютера и видео- и аудиоустройств и обеспечении их нормальной совместной работы. Дальнейшее развитие мультимедиа происходит в направлении объединения разнородных типов данных в цифровой форме на одной среде-носителе, в рамках одной системы.

Мультимедиа – это сумма технологий, позволяющих компьютеру вводить, обрабатывать, хранить, передавать и отображать (выводить) такие типы данных, как текст, графика, анимация, оцифрованные неподвижные изображения, видео, звук, речь. Появление систем мультимедиа подготовлено как требованиями практики, так и развитием теории цифровой обработки. Резкий рывок, произошедший в этом направлении за последние несколько лет, обеспечен прежде всего развитием технических и системных средств. Это и прогресс в развитии ПЭВМ: резко возросшие объем памяти, быстродействие, графические возможности, характеристики внешней памяти, и достижения в области видеотехники, лазерных дисков –  аналоговых и CD-ROM, а также их массовое внедрение. Важную роль сыграла так же разработка методов быстрого и эффективного сжатия / развертки данных.

Три основные принципа мультимедиа:

1. Представление информации с помощью комбинации множества воспринимаемых человеком сред (собственно термин происходит от англ. multi - много, и media - среда);
2. Наличие нескольких сюжетных линий в содержании продукта (в том числе и выстраиваемых самим пользователем на основе "свободного поиска" в рамках предложенной в содержании продукта информации);

3. Художественный дизайн интерфейса и средств навигации.

Несомненным достоинством и особенностью технологии являются следующие возможности мультимедиа, которые активно используются в представлении информации:

- возможность хранения большого объема самой разной информации на одном носителе (до 20 томов авторского текста, около 2000 и более высококачественных изображений, 30-45 минут видеозаписи, до 7 часов звука);
·- возможность увеличения (детализации) на экране изображения или его наиболее интересных фрагментов, иногда в двадцатикратном увеличении (режим "лупа") при сохранении качества изображения. Это особенно важно для презентации произведений искусства и уникальных исторических документов;
·- возможность сравнения изображения и обработки его разнообразными программными средствами с научно-исследовательскими или познавательными целями;

- возможность выделения в сопровождающем изображение текстовом или другом визуальном материале "горячих слов (областей)", по которым осуществляется немедленное получение справочной или любой другой пояснительной (в том числе визуальной) информации (технологии гипертекста и гипермедиа);

·- возможность осуществления непрерывного музыкального или любого другого аудиосопровождения, соответствующего статичному или динамичному визуальному ряду;

·- возможность использования видеофрагментов из фильмов, видеозаписей и т.д., функции "стоп-кадра", покадрового "пролистывания" видеозаписи;

·- возможность включения в содержание диска баз данных, методик обработки образов, анимации (к примеру, сопровождение рассказа о композиции картины графической анимационной демонстрацией геометрических построений ее композиции) и т.д.;

·- возможность подключения к глобальной сети Internet;

·- возможность работы с различными приложениями (текстовыми, графическими и звуковыми редакторами, картографической информацией);

·- возможность создания собственных "галерей" (выборок) из представляемой в продукте информации (режим "карман" или "мои пометки");

·- возможность "запоминания пройденного пути" и создания "закладок" на заинтересовавшей экранной "странице";

·- возможность автоматического просмотра всего содержания продукта ("слайд-шоу") или создания анимированного и озвученного "путеводителя-гида" по продукту ("говорящей и показывающей инструкции пользователя"); включение в состав продукта игровых компонентов с информационными составляющими;
·- возможность "свободной" навигации по информации и выхода в основное меню (укрупненное содержание), на полное оглавление или вовсе из программы в любой точке продукта.

^ 1.2. Области применения речевых технологий.

Задача обработки сигналов. Задача обработки сигналов схематически представлена на рис. 1.3. В случае речевых сигналов источником информации является человек. Измерению или наблюдению обычно подвергается акустическое колебание. Обработка сигнала предполагает в первую очередь формирование описания на основе некоторой модели с последующим преобразованием полученного представления требуемую форму. Последним шагом в процессе обработки является выделение и использование информационного содержания сигнала. Этот шаг может осуществляться путем прослушивания сигнала человеком или его автоматической обработки. В качестве примера можно рассмотреть систему идентификации диктора из заданного ансамбля дикторов, в которой используется представление речевого сигнала в виде зависящего времени спектра. Одним из возможных преобразований сигнала в этих условиях является усреднение спектра по всей фразе, сравнение среднего спектра с эталонами, имеющимися для каждого диктора, и затем выбор соответствующего диктора на основе полученных мер сходства спектров. Для данного примера информационным содержанием сигнала являются признаки индивидуальности диктора.



Рис. 1.3. Схема обработки речевой информации

Таким образом, обработка сигнала в общем случае предусматривает решение двух основных задач:

1. Получить общее представление сигнала либо в форме речевого колебания, либо в виде параметров;

2. Преобразовать полученное представление в более удобную для решаемой задачи форму.

Цифровая обработка включает как получение дискретных представлений сигнала, так и теорию, расчет и применение цифровых алгоритмов для преобразования полученных дискретных представлений. Первые методы цифровой обработки речевых сигналов имитировали сложные аналоговые системы [1]. Согласно современной точке зрения система цифровой обработки речевых сигналов, выполненная в виде программы на ЭВМ, реализует точный алгоритм обработки и может быть изготовлена в виде специализированного вычислительного устройства.

Цифровые методы в настоящее время широко применяются при решении задач обработки речевых сигналов [4, 10].

^ Способы представления речевых сигналов и их применение. При рассмотрении вопросов применения цифровой обработки речевых сигналов полезно сконцентрировать внимание на трех основных направлениях:

- представление речевых сигналов в цифровой форме;

- цифровой реализации аналоговых методов обработки;

- методы, основанные исключительно на цифровой обработке.

Представление речевых сигналов в цифровой форме является, конечно, одним из центральных вопросов. Одной из самых основных теорем является теорема дискретизации [1, 6] или теорема Котельникова, утверждающая, что всякий ограниченный по полосе частот сигнал может быть представлен в виде последовательности равноотстоящих отсчетов, взятых с достаточно высокой частотой. Таким образом, процедура дискретизации лежит в основе теории и приложений цифровой обработки. Существует ряд способов дискретного представления речевых сигналов. Как показано на рис. 1.4, эти способы могут быть разбиты на две большие группы - цифровое и параметрическое представление речевого колебания.


Рис. 1.4. Способы представления речевого сигнала
Цифровое представление речевого колебания основано на сохранении формы колебания в процессе дискретизации и квантования. Параметрическое представление базируется на описании речевого сигнала, как выходного отклика модели речеобразования. На первом этапе построения параметрического представления речевое колебание подвергается дискретизации и квантованию, а затем обрабатывается для получения параметров модели. Параметры модели: обычно разделяются на параметры возбуждения (относящиеся к источнику звуков речи) и параметры голосового тракта (относящиеся непосредственно к отдельным звукам речи).

На рис. 1.5 представлены результаты сравнительного анализа различных цифровых представлений по требуемой скорости передачи информации. Пунктирная линия, проходящая через точку 15 кбит/с, отделяет группу цифровых представлений речевого колебания (слева) от параметрических представлений (справа), которые обладают меньшим информационным объемом. Как следует из рисунка, требуемая скорость передачи изменяется от 75 бит/с (что примерно соответствует скорости передачи письменного эквивалента речи) до 200 000 бит/с и более при простейшем цифровом представлении речевого колебания. Таким образом, в зависимости от типа цифрового представления сигнала требуемая для его передачи скорость может изменяться примерно в 3000 раз. Скорость передачи далеко не единственный фактор, определяющий выбор типа цифрового представления. Другими факторами являются стоимость, гибкость цифрового представления, качество восприятия речи и т. д.


Рис.1.5. Диапазон скоростей передачи при различном представлении речевого сигнала
Наиболее важным фактором, определяющим выбор цифрового представления сигнала и методов цифровой обработки, является специфика решаемой прикладной задачи. На рис. 1.6 приведено несколько примеров из обширной области передачи и обработки речевых сигналов.



Рис. 1.6. Области применения речевой связи
Цифровая передача и хранение речевого сигнала. Одним из наиболее ранних и наиболее важных примеров применения обработки речевого сигнала является вокодер или кодер голоса (voice-coder), созданный в 1930-х гг.. Целью разработки вокодера являлось уменьшение полосы частот, необходимой для передачи речи. Эта задача актуальна и в настоящее время, несмотря на наличие широкополосных спутниковых, оптических систем связи и т.д. Кроме того, необходимы дешевые и как можно более низкоскоростные преобразователи речи в цифровую форму для их использования в цифровых телефонных сетях связи. Одной из положительных сторон применения цифровых систем является возможность обеспечения скрытности передачи.

^ Системы синтеза речи. Большой интерес к системам синтеза речи объясняется необходимостью разработки способа экономического хранения речевого сигнала в системах речевого ответа. Подобная система реализует цифровой алгоритм автоматического сообщения голосом информации, которую запрашивает пользователь с клавиатуры пульта или специального терминала. Поскольку пультом может служить обычный телефонный аппарат с кнопочным набором, система речевого ответа может широко использоваться в коммутируемых телефонных сетях без установки какого-либо дополнительного оборудования. Системы синтеза речи играют большую роль и при обучении правильному произношению речи.

Системы речевого обмена между человеком и компьютером можно подразделить на три класса:

1) с речевым ответом;

2) распознавания диктора: a) верификация диктора, б) идентификация диктора

3) распознавания речи.

Системы с речевым ответом предназначаются для выдачи информации пользователю в форме речевого сообщения. Таким образом, системы с речевым ответом — это системы односторонней связи, т. е. от машины к человеку. С другой стороны, системы второго и третьего классов — это системы связи от человека к машине. В системах распознавания диктора задача состоит в верификации диктора (т. е. в решении задачи о принадлежности данного диктора к некоторой группе лиц) или идентификации диктора из некоторого известного множества.

^ Системы верификации и идентификации диктора.

При распознавании дикторов цифровая обработка речи является тем первым шагом, с которого начинается решение задачи распознавания образов. Как видно из рис. 1.7, речевой сигнал (представление образа вектором) представлен с использованием таких методов цифровой обработки, которые сохраняют индивидуальные особенности диктора. Полученный образ сравнивается с предварительно подготовленными эталонными образами, а затем применяется соответствующая логика принятия решений для определения голоса заданного диктора среди возможного множества.

При верификации диктора требуется установить его идентичность данному эталону. Устройство верификации принимает одно из двух возможных решений: диктор является тем, за кого он себя выдает, или не является. Для вынесения такого решения используется совокупность параметров, содержащих необходимую информацию об индивидуальности диктора и измеряемых по одной или нескольким фразам. Измеренные значения сравниваются (часто с использованием некоторых существенно нелинейных метрик близости) с аналогичными параметрами эталонных образов подлежащего опознанию диктора.

Рис.1.7. Общее представление задачи распознавания диктора
Таким образом, при верификации диктора требуется однократное сравнение совокупности (совокупностей) измеренных значений со значениями параметров эталонов, на основе которого выносится решение о принятии или отклонении предполагаемой идентичности. В общем случае вычисляется расстояние между измеренными значениями и распределением эталонов. На основе распределения потерь между возможными типами ошибок (т.е. верификации «самозванца» и отклонении «подлинного» диктора) устанавливается соответствующий порог различимости (расстояния). Вероятность перечисленных выше ошибок практически не зависит от N (числа эталонов, хранимых в системе), поскольку все эталоны голосов других дикторов используются для формирования устойчивого распределения, характеризующего всех дикторов. Записывая сказанное выше в математической форме, обозначим распределение вероятности измеренных значений вектора x для диктора как pi(x), что приводит к простому решающему правилу вида:
Верифицировать диктора i, если; pi(x)>ci*pav(x) (1.1)

Отклонить диктора i, если, pi(x)<ci*pav(x) (1.2)
где ci – константа для i-гo диктора, определяющая вероятности ошибок i-гo диктора, а pav(x) – среднее (по всему ансамблю дикторов) распределение вероятности измеренных значений вектора х. Изменяя порог ci, можно изменять вероятность ошибки, определяемую вероятностями ошибок обоих типов.

Задача идентификации диктора существенно отличается от задачи верификации. В этом случае система должна точно указать одного из дикторов среди N дикторов данного множества. Таким образом, вместо однократного сравнения измеряемых параметров с хранимым в системе эталоном необходимо провести N сравнений. Решающее правило в этом случае сводится к выбору такого диктора i, для которого:
pi(x)>pj(x), j=1,2, …N, j≠i (1.3)
т. е. выбирается диктор с минимальной абсолютной вероятностью ошибки. С увеличением количества дикторов в ансамбле возрастает и вероятность ошибки, поскольку большое число вероятностных распределений в ограниченном пространстве параметров не может не пересекаться. Все более вероятным становится то, что два или более дикторов в общем ансамбле будут иметь распределения вероятностей, которые близки друг к другу. При таких условиях приемлемая идентификация дикторов становится практически невозможной.

Приведенный выше анализ позволяет сделать вывод, что между задачами идентификации и верификации имеется много общего и много различий. В каждом случае диктор должен произнести одну или несколько тестовых фраз. По этим фразам проводятся некоторые измерения, и затем вычисляются одна или несколько мер различимости («расстояния») между предъявленным и эталонным векторами. Таким образом, с позиции методов цифровой обработки обе эти задачи сходны. Основное различие возникает на этапе вынесения решений.

Системы такого типа применимы при управлении процессом (доступа к информации или ограничении доступа, а также при проведении различного рода автоматических кредитных операций. Системы идентификации диктора должны выдать решение о том, кто из ограниченного числа дикторов произнес данную фразу. Такие системы могут применяться в области судебной экспертизы.

^ Системы распознавания речи. В самом общем виде системы распознавания должны преобразовывать речевое сообщение в эквивалентный текст. Сложность задачи распознавания определяется условиями произнесения и контекстом произносимой фразы, а также наличием или отсутствием возможности настройки на диктора. Совместное использование систем распознавания и синтеза речи позволяет получить систему передачи речевого сигнала с минимально возможной скоростью передачи.

^ Устранение дефектов речи. В этом случае предполагается обработка речевого сигнала и отображение полученной информации в виде, наиболее приемлемом для обучаемого индивидуума. Разработан также ряд методов цифровой обработки сигнала для сенсорного и визуального отображения информации при обучении глухих речи.

^ Улучшение качества речевого сигнала. В ряде случаев речевой сигнал, поступающий в систему связи оказывается искаженным, что снижает качество передачи. В этом случае методы цифровой обработки могут быть использованы для улучшения качества восприятия сигнала. Примерами подобных разработок являются устранение реверберации (или эха) устранение шума в речевом сигнале, восстановление речевого сигнала записанного в гедиевокислородной среде, которая используется в качестве дыхательной смеси водолазами.

^ Цифровая обработка сигналов в слуховых аппаратах (СА). Потерями слуха в той или иной форме страдают многие люди. Эти потери становятся критическими, когда они начинают препятствовать нормальному речевому общению между людьми. Возрастное ухудшение слуха, перенесённые болезни уха, звуковые травмы, ототоксическое действие некоторых лекарств и другие причины приводят к тому, что около 2% населения для того, чтобы быть полноправными членами общества, нуждаются в применении слуховых аппаратов СА. Историческое развитие СА отражает развитие техники и научных представлений о механизмах. СА имеют следующие общие преимущества при использовании цифровой обработки сигналов звукового диапазона частот:

- качество, стабильность, точность, повторяемость амплитудно-частотных характеристик (АЧХ) цифровых фильтров. Возможность создания банков полосовых фильтров с линейной фазой. Формирование с большой точностью заданных АЧХ, компенсирующих как индивидуальные характеристики слуха пациента, так и АЧХ применённых электроакустических преобразователей;

- отсутствие механических элементов настройки с одновременным ростом числа управляемых параметров;

- программная гибкость реализации и индивидуальной настройки алгоритмов при неизменном аппаратном ядре;

- возможность выбора стратегии обработки звука, отвечающей конкретной акустической обстановке.







Скачать файл (5335.1 kb.)

Поиск по сайту:  

© gendocs.ru
При копировании укажите ссылку.
обратиться к администрации