Logo GenDocs.ru

Поиск по сайту:  

Загрузка...

Борискевич А.А. Цифровая обработка речи и изображений - файл Тема 5.doc


Борискевич А.А. Цифровая обработка речи и изображений
скачать (5335.1 kb.)

Доступные файлы (16):

Литература.doc34kb.28.04.2007 17:48скачать
Содержание.doc68kb.28.04.2007 17:09скачать
тема10.doc1416kb.28.04.2007 17:42скачать
тема11.doc917kb.28.04.2007 17:47скачать
тема12.doc1926kb.28.04.2007 17:45скачать
Тема 13.doc5561kb.28.04.2007 17:46скачать
тема14.doc177kb.28.04.2007 17:46скачать
Тема 1.doc182kb.28.04.2007 17:34скачать
Тема 2.doc549kb.28.04.2007 17:41скачать
Тема 3.doc243kb.28.04.2007 17:33скачать
тема 4.doc297kb.28.04.2007 17:34скачать
Тема 5.doc1150kb.28.04.2007 17:35скачать
Тема 6.doc3287kb.28.04.2007 17:41скачать
Тема 7.doc529kb.28.04.2007 17:38скачать
Тема 8.doc985kb.28.04.2007 17:39скачать
тема 9.doc1022kb.28.04.2007 17:42скачать

Тема 5.doc

Тема 5. Сжатие речевых и аудиосигналов на основе модели речеобразования (4 часа) [1—3,8-10].
5.1. Виды избыточности речевого сигнала.

Для речевого сигнала характерна высокая степень избыточности, что обеспечивает его высокую помехоустойчивость. На рис.5.1. представлены основные виды избыточности речевого сигнала с учетом механизмов речеобразования и восприятия речи.

Рис.5.1. Основные виды избыточности речи
Рассмотрим более подробно каждый вид избыточности.
Неравномерное распределение амплитуды.

Известно, что малые значения амплитуд отсчетов более вероятны, чем большие. Большинство отсчетов с малой амплитудой возникает из-за наличия пауз в разговоре. Однако такие же уровни мощности активных речевых сигналах имеют тенденцию к появлению вблизи нижней границы диапазона кодирования. Процедуры компандирования обеспечивают пониженное качество передачи малых сигналов (т.е. более низкое ОСШ) по сравнению с большими сигналами. Таким образом, средний уровень качества речи с ИКМ может быть улучшен дальнейшим уменьшением шагов квантования для сигналов низкого уровня и их увеличением для сигналов более высокого уровня. Однако степень улучшения в результате применения таких методов минимальна и, возможно, не оправдывает дополнительных затрат. Более разумный подход к обработке амплитуды сигнала с точки зрения сокращения скорости передачи обеспечивают разновидности АРУ.

Процесс, приводящий все сигналы к одному уровню называется автоматической регулировкой усиления (АРУ), Этот процесс традиционно используется в системах передачи с несущей для выравнивания всех значений принимаемых сигналов к стандартному значению с целью устранения изменений затухания при передаче. Автоматическую регулировку усиления нельзя применять к источнику речевого сигнала без учета пауз в разговоре, т.е. когда сигнал отсутствует. В противном случае, уровень шума в свободном канале во время паузы будет усиливаться до среднего уровня речевого сигнала. Отметим, что при использовании АРУ в уровне мощности кодируемого сигнала не присутствует остаточная информация, как это было в случае слогового компандирования. Для установления исходного уровня мощности АРУ должно быть дополнено функцией кодирования с адаптивным усилением (Adapted Gain Encoding, AGE) рис.5.2. Все алгоритмы кодирования которые описаны ниже используют слоговое компандирование или разновидности AGE.


Рис.5.2. Кодирование с адаптивным усилением
Корреляция между отсчетами.

Высокий коэффициент корреляции (0,85) показывает, что при любой сколь-нибудь серьезной попытке снизить частоту передачи необходимо использовать корреляцию между отсчетами. Действительно, при скорости цифрового преобразования 8 кГц уровень корреляции остается высоким даже для отсчетов отстоящих на один или два отсчета от данного. Естественно, уровень корреляции возрастает с ростом частоты дискретизации.

Простейший способ использовать избыточность между отсчетами речи состоит в кодировании разностей между соседними отсчетами.

Для восстановления сигнала в декодере эти разности постепенно накапливаются. В сущности, в таких системах производится кодирование наклона (производной) сигнала от источника, а в точке назначения сигнал восстанавливается путем интегрирования.
^ Корреляция между циклами.

Хотя для передачи речи требуется полоса частот 300-3400 Гц, которая обеспечивается телефонным каналом, в каждом отдельно взятом моменте времени некоторые звуки могут состоять только из нескольких частот внутри полосы. Если в спектре сигнала присутствует несколько слабых гармоник, то этот сигнал сильно коррелирует с множеством отсчетов, соответствующих различным циклам колебаний. Циклическая природа речевого сигнала становится очевидной, если его представить как функцию от времени (рис.5.3). Кодеры, способные использовать корреляцию между циклами, заметно сложнее тех, которые используют только избыточность между соседними отсчетами. В действительности эти кодеры занимают промежуточное положение между кодерами, которые работают на относительно высокой скорости и дают натуральное звучание, и низкоскоростными вокодерами, которые дают синтетический звук.

Рис.5.3. Форма сигнала вокализованного звука
Корреляция между периодами основного тона.

Звуки человеческой речи часто подразделяются по двум возможным способам их воспроизведения. Первая категория звуков охватывает так называемые вокализованные звуки, возникающие как результат вибрации голосовых связок. В результате такой вибрации воздух проходит из легких в речевой тракт. Интервал между такими выходами воздуха, возбуждающими речевой тракт, называют периодом основного тона, или, проще говоря, основной тон есть частота возбуждения речевого тракта. Вокализованные звуки возникают при генерации гласных и определенной части согласных звуков. Пример формы сигнала вокализованного звука приведен на рис.5.3.

Вторая категория звуков включает щелевые, или не вокализованные звуки. Они возникают как результат продолжительного продувания воздуха из легких и прохождения его через речевой тракт, который несколько суживается для того, чтобы образовывалась турбулентность (трение). Невокализованные звуки соответствуют нескольким согласным, таким, как «ф», «ж», «с» и «х». Пример формы сигнала невокализованного звука приведен на рис.5.4. Как видно на рисунке, форма сигнала не вокализованного звука имеет гораздо более случайный характер, чем вокализованного.

Рис.5.4. Форма сигнала невокализованного звука
Как видно из рис.5.3, в звуковом сигнале есть не только циклическая избыточность, но и повторяющиеся на большом промежутке времени участки, соответствующие периоду основного тона. Таким образом, одним из наиболее эффективных способов кодирования вокализованных участков речи является кодирование одного периода основного тона и использование полученного кода как шаблона для каждого следующего периода основного тона в том же звуке, Период основного тона обычно находится в пределах от 5 до 20 мс для мужчин и от 2,5 до 10 мс для женщин. Если типичный вокализованный звук длится примерно 100 мс, то в нем может содержаться от 20 до 40 периодов основного тона. Хотя кодирование с использованием периода основного тона и может приводить к существенному уменьшению скорости передачи битов, иногда бывает очень сложно фиксировать этот период, так как не все вокализованные звуки имеют легко распознаваемый период основного тона, как на рис. 5.3.

Интересным аспектом кодирования периода основного тона является то, что при этом возможно ускорение речи без потери ее разборчивости. Путем удаления определенного процента периодов основного тона из каждого звука (фонемы) можно увеличить скорость генерации звуков, что аналогично более быстрому произнесению слов Период основного тона звуков при этом остается постоянными. И напротив, если просто увеличить скорость воспроизведения речи, то все частоты, включая и частоту основного тона, пропорционально возрастут. Среднее ускорение приведет к очевидным искажениям, а при еще большем ускорении речь станет неразборчивой Приборы, разработанные для моделирования быстрого словообразования, демонстрируют способность человека к восприятию речевой информации гораздо быстрее, чем обычное ее воспроизведение человеком.

^ Избыточность, связанная с неактивностью речи.

Анализ телефонных переговоров показывает, что активная часть речи при разговоре составляет около 40% ее продолжительности. Большинство пауз возникает из-за того, что один человек слушает, что говорит другой. Следовательно, обычное дуплексное соединение (с коммутацией каналов) существенно избыточно. Для улучшения эффективности использования канала в дорогих аналоговых линиях используется временное уплотнение речи с интерполяцией (TASI).

Временное уплотнение речи с интерполяцией (Time Assignment Speech Interpolation) представляет собой систему повышения эффективности кабельной пары, которая динамически присоединяет канал к цепи при условии, что в нем есть речевая активность. Таким образом, система TASI распознает речевую активность от N источников, связывает активные источники с одним из М каналов (где М, как правило, составляет половину N) и сигнализирует на дальнее окончание о соединениях. Обычно каждый участник разговора активен примерно 40 % времени, что дает (при) определенный запас пропускной способности для того, чтобы принять избыточную активность в одном направлении. Если абонент начинает говорить, когда все линии используются, то начало этого сегмента речи будет урезаться (клиппироваться) до момента, когда какой-нибудь канал станет доступен. Изначально приложения TASI позволяли улучшить использование подводных кабельных пар. Очевидная дороговизна этих каналов оправдывала использование довольно сложной техники мультиплексирования на то время. Та же базовая техника использовалась в многочисленных приложениях с цифровой речью для спутниковых и наземных линий связи. Эти системы обычно называют системами с цифровой интерполяцией речи (Digital Speech Interpolation, DSI).

Цифровая интерполяция речи, очевидно, применима к системам с цифровым хранением речи, в которых длительность паузы может кодироваться более эффективно, чем собственно пауза. Однако в записанных сообщениях паузы обычно более короткие, и здесь нет полудуплексной связи. Методы DSI используются для увеличения пропускной способности речевого канала в цифровых системах с ВРК. Входными сигналами служат обычные сигналы с ИКМ, которые подвергаются цифровой обработке для выявления активности речи. Операция DSI часто сочетается с алгоритмами сжатия речи для того, что бы реализовать оборудование с цифровыми схемами мультиплексирования (Digital Circuit Multiplication Equipment, DCM). При комбинировании алгоритма сжатия речи 2:1 с фактором концентрации DSI 2,5:1 общий коэффициент освобождения канала равен 5:1. В зависимости от желаемого качества речи возможны даже большие коэффициенты освобождения канала. Использование такого оборудования в сети нуждается в тщательном управлении, для того чтобы гарантировать, что данные в речевом диапазоне и каналы с цифровыми данными не охвачены операциями с DCM.
^ Неравномерность спектральной плотности.

Избыточности во временной области, которые описываются в предыдущих разделах, проявляются также и в частотной области и могут быть использованы для понижения скорости кодирования. Избыточности в частотной области нередко зависимы от избыточностей во временной области. Однако методики, разработанные для частотной области, нередко дают альтернативные подходы к анализу и обработке избыточностей.

Сигнал, носящий абсолютно случайный или непредсказуемый характер во временной области, имеет частотный спектр, равномерно распределенный в определенной полосе частот. Таким образом, сигнал с некоррелированными отсчетами во временной области максимально занимает полосу частот. С другой стороны, неоднородная спектральная плотность приводит к неэффективному использованию полосы частот и свидетельствует об избыточности в сигнале.

^ Долговременная спектральная плотность. На рис.5.5 показана долговременная спектральная плотность речевых сигналов, усредненная как для мужчин, так и для женщин. Стоит отметить, что сигналы в полосе частот выше 3 кГц передаются по телефонной сети с существенным ослаблением уровня мощности. Низкий уровень мощности на высоких частотах является прямым следствием корреляции между отсчетами во временной области, которая обсуждалась ранее. Сигналы с большой амплитудой не могут изменяться быстро, поскольку в среднем они преимущественно состоят из низкочастотных компонентов.


Рис.5.5 Долговременная спектральная плотность речи
Один из подходов к более эффективному кодированию включает выравнивание спектра в частотной области перед кодированием сигнала. Процесс выравнивания осуществляется пропусканием сигнала через фильтр верхних частот (ФВЧ) для выделения перед дискретизацией высокочастотных компонент. Исходный сигнал затем восстанавливается путем пропускания кодированного сигнала через фильтр с дополняющей низкочастотной характеристикой. Важным аспектом этого процесса является то, что ФВЧ во временной области обладает характеристикой дифференциатора, а ФНЧ аналогичен интегратору. Таким образом, процесс выравнивания спектра означает кодирование крутизны сигнала источника и его восстановление интегрированием в пункте назначения, что по существу представляет собой базовую процедуру, описанную ранее и предназначенную для исключения избыточностей между отсчетами.

При анализе рис.5.5 естественно предположить, что заметно более низкий уровень энергии сигнала на более высоких частотах (2-3,4 кГц) означает, что для него должна выделяться большая полоса, чем необходимо. Однако ошибочность такого вывода заключается в смешивании понятий энергетического и информационного содержания спектра речи (при программировании смысл переменных в программе часто можно сохранить, удаляя все гласные в их названиях). В речевом сигнале на гласные приходится большая доля энергии, и они занимают в спектре нижний участок полосы частот. Согласные, в свою очередь, содержат больше информации, но менее энергетичны и находятся в верхнем участке спектра. Следовательно, простого воспроизводства большей части энергии звука достаточно для цифровой передачи речи и ее использования в системах хранения.

^ Мгновенная спектральная плотность.

Спектр речи, показанный на рис.5.5, представляет собой долговременную усредненную спектральную плотность. На более коротких промежутках времени спектральная плотность изменяется более существенно и демонстрирует присущие звуку энергетические пики (резонансы) на некоторых частотах и энергетические впадины на других. Частоты, на которых возникают резонансы, называются формантными частотами, или просто формантами. Звуки произносимой речи содержат, как правило, три – четыре различимых форманты. Эти свойства спектра речи на коротких временных промежутках демонстрируются на спектрограмме рис.5.6. Спектрограмма представляет собой распределение энергии речи в зависимости от времени и частоты. По оси абсцисс откладывается время, по оси ординат – частота, а степень затемненности отражает уровень энергии. То есть темные пятна на рис.5.6 отображают относительно высокий уровень энергии (форманты) для каждого момента времени.

Кодеры речи в частотной области обеспечивают улучшенную эффективность кодирования, так как кодируют наиболее важные компоненты спектра на динамической основе. При изменении звуков в полосе частот кодируются различные участки (форманты) для каждого момента времени. Период обновления формант составляет обычно 10-20 мс.

Вместо использования периодического измерения спектра вокодерами с более высоким качеством на высоких скоростях производится слежения за плавными его изменениями. Вокодеры частотных областей часто обеспечивают более низкую скорость передачи, чем вокодеры, работающие во временной области, однако, производимая речь звучит все же менее естественно.

Рис.5.6. Спектрограмма фразы digital telephony

^ 5.2. Методы анализа речевого сигнала на основе линейного предсказания.

На рис.5.7 основная модель речеобразования в дискретном времени представлена в форме, наиболее удобной для решения задач линейного предсказания. В этом случае общий спектр, обусловленный излучением, речевым трактом и возбуждением, описывается с помощью линейной системы с переменными параметрами и передаточной функцией:
. (5.1)
Эта система возбуждается импульсной последовательностью для вокализованных звуков речи и шумом для невокализованных. Таким образом, модель имеет следующие параметры: классификатор вокализованных и невокализованных звуков, период основного тона для вокализованных сегментов, коэффициент усиления G и коэффициенты цифрового фильтра. Все эти параметры медленно изменяются во времени.

Рис.5.7. Структурная схема упрощенной модели речеобразования
Определение периода основного тона и классификация тон/шум могут быть осуществлены на основе использования ряда методов, или с помощью методов линейного предсказания. Для вокализованных звуков хорошо подходит модель, содержащая только полюсы в своей передаточной функции (чисто полюсная), но для носовых и фрикативных звуков требуется учитывать и нули. Если порядок р модели достаточно велик, то полюсная модель позволяет получить достаточно точное описание почти для всех звуков речи. Главное достоинство этой модели заключается в том, что как параметр G, так и коэффициенты можно оценить непосредственно с использованием очень эффективных с вычислительной точки зрения алгоритмов.

Для системы, показанной на рис.5.7, отсчет речевого сигнала связан с сигналом возбуждения разностным уравнением:
. (5.2)
Линейный предсказатель с коэффициентами определяется как система, на выходе которой имеем:
, (5.3)
где – коэффициенты линейного предсказания в пределах сегмента речевого сигнала.

Такие системы используются для уменьшения дисперсии погрешности предсказания. Системная функция предсказателя р-го порядка представляет собой полином вида:

, (5.4)

Погрешность предсказания определяется как:
, (5.5)
Из выражения (5.5) видно, что погрешность предсказания представляет собой сигнал на выходе системы с передаточной функцией:
. (5.6)
Сравнение выражения (5.2) и (5.5) показывает, что если сигнал точно удовлетворяет модели (5.2) и , то . Таким образом, фильтр погрешности предсказания A(z) является обратным фильтром для системы Н(z), соответствующей уравнению (5.1), т. е.:
. (5.7)
Основная задача анализа на основе линейного предсказания заключается в непосредственном определении параметров по речевому сигналу с целью получения хороших оценок его спектральных свойств путем использования уравнения (5.7). Вследствие изменения свойств речевого сигнала во времени коэффициенты предсказания должны оцениваться на коротких сегментах речи. Основным подходом является определение параметров предсказания таким образом, чтобы минимизировать дисперсию погрешности на коротком сегменте сигнала. При этом предполагается, что полученные параметры являются параметрами системной функции H(z) в модели речеобразования.

Кратковременная энергия погрешности предсказания:
, (5.8)
, (5.9)
, (5.10)
где – сегмент речевого сигнала, выбранный в окрестности отсчета n, т. е.
, (5.11)
Пределы суммирования справа в (5.8) – (5.10) не определены, но так как используется концепция кратковременного анализа, то эти пределы всегда предполагаются конечными. Для получения среднего значения необходимо разделить полученный результат на длину речевого сегмента. Однако эти константы несущественны с точки зрения решения системы линейных уравнений и поэтому они опускаются.

Параметры можно получить, минимизируя в (5.10) путем вычисления , , что приводит к системе уравнений:
, , (5.12)
Эта система из р уравнений с р неизвестными может быть решена достаточно эффективным способом для получения неизвестных коэффициентов предсказания, минимизирующих средний квадрат погрешности предсказания на сегменте . Используя (5.10) и (5.12), можно показать, что средняя квадратическая погрешность предсказания имеет вид:
, (5.13)
Таким образом, общая погрешность предсказания состоит из двух слагаемых, одно из которых является постоянным, а другое – зависит от коэффициентов предсказания.

Хотя пределы суммирования в (5.8) – (5.10) и (5.12) не определены, заметим, что в (5.12) они совпадают с соответствующими пределами в (5.8) – (5.10). Как было установлено, для кратковременного анализа соответствующие пределы должны охватывать конечный интервал. В зависимости от пределов суммирования и выбора сегмента различают два метода линейного предсказания: автокорреляционный метод и ковариационный метод.
^ 5.3. Автокорреляционный метод вычисления коэффициентов линейного предсказания

Один из способов определения пределов в (5.8) – (5.10) и (5.12) основан на предположении, что сигнал равен нулю вне интервала . Это удобно записать в виде:
, (5.14)

где – окно конечной длительности (например, окно Хемминга), равное нулю вне интервала.

Значение этого предположения при решении вопроса о пределах суммирования в выражении для можно рассмотреть на примере соотношения (5.5). Если отличен от нуля только на интервале , то соответствующая погрешность предсказания для предсказателя порядка р будет отлична от нуля на интервале . В этом случае имеет вид:
. (5.15)
С другой стороны, пределы суммирования можно распространить на все ненулевые значения на интервале от до . Возвращаясь к (5.5), можно отметить, что погрешность предсказания будет, вероятно, большой в начале интервала (т.е. ), поскольку мы пытаемся предсказать сигнал по отсчетам, которые приравняли нулю. Очевидно, что погрешность будет большой и в конце интервала (т. е. ), поскольку здесь мы предсказываем нулевые значения по ненулевым. Поэтому в качестве окна в уравнении (5.14) используется окно, которое стремится к нулю на концах интервала.

Поскольку равно нулю вне интервала ,можно показать, что
, ,, (5.16)
можно выразить в виде
, ,, (5.17)
Видно, что в данном случае совпадает с кратковременной автокорреляционной функцией сигнала, вычисленной для . Это означает, что
, (5.18)
где

. (5.19)
Поскольку автокорреляционная функция ) является четной функцией, то:
, ,. (5.20)
Таким образом, можно записать следующее выражение:
, . (5.21)
Аналогично можно представить минимальный средний квадрат погрешности предсказания:
. (5.22)
Систему уравнений (5.21) можно записать в матричной форме:
. (5.23)
Матрица размером является теплицевой, т.е. симметричной и такой, что элементы на любой диагонали равны между собой.

На рис.5.8 представлена блок-схема автокорреляционного метода вычисления коэффициентов линейного предсказания и коэффициентов усиления для сегмента речевого сигнала. Суть метода состоит в выполнении следующих операций.

1. Разбиение скорректированного речевого сигнала , на сегменты , M – число сегментов, а сегментов – на кадры , K – число кадров в сегменте.

2. Взвешивание кадра РС оконной функцией Хемминга для уменьшения погрешности предсказания нулевых значений по ненулевым.
(5.24)


Рис. 5.8. Алгоритм вычисления коэффициентов линейного предсказания и коэффициентов усиления

Взвешенный кадр РС имеет вид:
. (5.25)
3. Вычисление автокорреляционной функции k –го кадра РС
, (5.26)

где .

4. Вычисление коэффициентов линейного предсказания и коэффициентов усиления k–го кадра РС с использованием алгоритма Левинсона-Дарбина (рис.5.9).

5. Проверка условий об окончании вычислений.

6. Формирование множества коэффициентов линейного предсказания для m-го сегмента и коэффициентов усиления .
На рис.5.9. представлен рекурсивный алгоритм Левинсона-Дарбина, который преобразует (р+1) значений автокорреляционной каждого кадра речевого сигнала в множество р коэффициентов линейного предсказания.


Рис.5.9 Обобщенная схема вычисления параметров речевого тракта, определяющих качество представления огибающей спектра речевого сигнала

Алгоритм Левинсона-Дарбина для рекурсивного решения автокорреляционных уравнений состоит из следующих этапов:

Начальное условие: ,

1.

Итерационная процедура:

2. Вычисление при .

3.

4. при .

5. .

6.

где [] – число в квадратных скобках обозначает порядок предсказания; – кратковременная энергия погрешности предсказания для предсказателя порядка i; R(0) и R(j) – нулевой и j- й коэффициент автокорреляции для кадра; G – коэффициент усиления, необходимый для согласования энергии сигнала и линейно-предсказанных отсчетов и равный общей энергии погрешности предсказания. Ограничение параметров является необходимыми достаточным условием того, чтобы все корни полинома лежали внутри единичной окружности.
^ 5.4. Методы сжатия речевых сигналов

Основные объемы передаваемой в системах связи информации сегодня приходится на речь – это проводная телефония, системы сотовой и спутниковой связи и т.д. Поэтому эффективному кодированию, или сжатию речи, в системах связи уделяется исключительное внимание.

Речь представляет собой колебания сложной формы, зависящей от произносимых слов, тембра голоса, интонации, пола и возраста говорящего. Спектр речи весьма широк (примерно от 50 до 10000 Гц), но для передачи речи в аналоговой телефонии когда-то отказались от составляющих, лежащих за пределами полосы 0,3 – 3,4 кГц, что несколько ухудшило восприятие ряда звуков (например шипящих, существенная часть энергии которых сосредоточена в верхней части речевого спектра), но мало затронуло разборчивость. Ограничение частоты снизу (до 300 Гц) также немного ухудшает восприятие из-за потерь низкочастотных гармоник основного тона.

На приведенных ниже рисунках изображены фрагменты речевых сигналов, содержащих гласные (рис. 5.10 ) и согласные (рис. 5.11) звуки, а также спектры этих сигналов (рис. 5.12 и 5.13). Хорошо видны разница в характере соответствующих сигналов, а также то, что как в первом, так и во втором случаях ширина спектра сигнала не превышает 3,5 кГц. Кроме этого, можно отметить, что уровень низкочастотных (то есть медленных по времени) составляющих в спектре речевого сигнала значительно выше уровня высокочастотных (быстрых) составляющих. Эта существенная неравномерность спектра, кстати, является одним из факторов сжимаемости таких сигналов.


Рис.5.10. Фрагмент речевого сигнала, содержащий гласные звуки

Рис.5.11. Фрагмент речевого сигнала, содержащий согласные звуки

Рис.5.12. Спектр речевого сигнала, содержащего гласные звуки


Рис.5.13. Спектр речевого сигнала, содержащего согласные звуки
Второй особенностью речевых сигналов, как это можно отметить из приведенных примеров, является неравномерность распределения вероятностей (плотности вероятности) мгновенных значений сигнала. Малые уровни сигнала значительно более вероятны, чем большие. Особенно это заметно на фрагментах большой длительности с невысокой активностью речи. Этот фактор также обеспечивает возможность экономного кодирования – более вероятные значения могут кодироваться короткими кодами, менее вероятные – длинными.

Еще одна особенность речевых сигналов – их существенная нестационарность во времени: свойства и параметры сигнала на различных участках значительно различаются. При этом размер интервала стационарности составляет порядка нескольких десятков миллисекунд. Это свойство сигнала значительно затрудняет его экономное кодирование и заставляет делать системы сжатия адаптивными, то есть подстраивающимися под значения параметров сигнала на каждом из участков. Наконец, исключительно важным для организации сжатия речевых сигналов является понимание физики механизма речеобразования.

Речь формируется при прохождении выталкиваемого легкими потока воздуха через голосовые связки и голосовой тракт. Голосовой тракт начинается от голосовых связок и заканчивается губами и в среднем имеет длину порядка 15 – 17 сантиметров. Голосовой тракт в силу своих резонансных свойств вносит в формируемый сигнал набор характерных для каждого человека частотных составляющих, называемых формантами. Частоты и полосы этих формант могут управляться изменением формы голосового тракта, например, изменением положения языка. Важной частью многих голосовых кодеров/декодеров является моделирование голосового тракта как кратковременного фильтра с изменяемыми параметрами. Поскольку форма голосового тракта может изменяться сравнительно медленно (трудно предположить, что можно изменять положение языка чаще, чем 20 – 30 раз в секунду), то параметры такого фильтра должны обновляться (или изменяться) также сравнительно редко (обычно – через каждые 20 миллисекунд или даже реже).

Таким образом, голосовой тракт возбуждается потоком воздуха, направляемым в него через голосовые связки. В зависимости от способа возбуждения возникающие при этом звуки можно разделить на три класса:

1. Гласные звуки, возникающие, когда голосовые связки вибрируют, открываясь и закрываясь, прерывая тем самым поток воздуха от легких к голосовому тракту. Возбуждение голосового тракта при этом производится квазипериодическими импульсами. Скорость (частота) открывания и закрывания связок определяют высоту возникающего звука (тона). Она может управляться изменением формы и напряжения голосовых связок, а также изменением давления подводимого воздушного потока. Гласные звуки имеют высокую степень периодичности основного тона с периодом 2 - 20 мс. Эта долговременная периодичность хорошо видна на рис. 5.10, где приведен фрагмент речевого сигнала с гласным звуком.

2. Согласные звуки, возникающие при возбуждении голосового тракта шумоподобным турбулентным потоком, формируемым проходящим с высокой скоростью через открытые голосовые связки потоком воздуха. В таких звуках, как это видно из рис.5.11, практически отсутствует долговременная периодичность, обусловленная вибрацией голосовых связок, однако кратковременная корреляция, обусловленная влиянием голосового тракта, имеет место.

3. Звуки взрывного характера, возникающие, когда закрытый голосовой тракт с избыточным давлением воздуха внезапно открывается.

Некоторые звуки в чистом виде не подходят ни под один из описанных выше классов, но могут рассматриваться как их смесь.

Из рис. 5.10 и 5.11 хорошо видно, что речевой сигнал обладает высокой степенью кратковременной и долговременной предсказуемости из-за периодичности вибраций голосовых связок и резонансных свойств голосового тракта. Большинство кодеров/декодеров речи и используют эту предсказуемость, а также медленность изменения параметров модели системы речеобразования для уменьшения скорости кода. При этом все известные способы экономного кодирования речевых сигналов можно условно разделить на три класса, описанные ниже.
^ 5.4.1. Кодирование формы сигнала

Простейшими кодерами/декодерами речи, вообще не использующими информацию о том, как был сформирован кодируемый сигнал, а просто старающимися максимально приблизить восстанавливаемый сигнал по форме к оригиналу, являются кодеры/декодеры формы сигнала. Теоретически они инвариантны к характеру сигнала, подаваемого на их вход, и могут использоваться для кодирования любых, в том числе и неречевых, сигналов. Эти кодеры – самые простые по принципу действия и устройству, но больших степеней сжатия (низких скоростей кода) обеспечить не могут.

Простейшим способом кодирования формы сигнала является импульсно-кодовая модуляция – ИКМ или PCM – Pulse Code Modulation, при использовании которой производятся просто дискретизация и равномерное квантование входного сигнала, а также преобразование полученного результата в равномерный двоичный код.

Для речевых сигналов со стандартной для передачи речи полосой 0,3 – 3,4 кГц обычно используют частоту дискретизации . Экспериментально показано, что при равномерном квантовании для получения практически идеального качества речи нужно квантовать сигнал не менее чем на  2000 уровней, т.е. для представления каждого отсчета понадобится 12 бит, а результирующая скорость кода будет составлять .

Используя неравномерное квантование (более точное для малых уровней сигнала и более грубое для больших его уровней, таким образом, чтобы относительная ошибка квантования была постоянной для всех уровней сигнала), можно достичь того же самого субъективного качества восстановления речевого сигнала, но при гораздо меньшем числе уровней квантования – порядка  128. В этом случае для двоичного представления отсчетов сигнала понадобится 8 бит и результирующая скорость кода составит 64 кбит/с.

С учетом статистических свойств речевого сигнала (вида распределения вероятностей мгновенных значений), а также нелинейных свойств слуха, гораздо лучше различающего слабые звуки, оптимальной является логарифмическая шкала квантования, которая и была принята в качестве стандарта еще в середине 60-х годов и сегодня повсеместно используется. Правда, в США и Европе стандарты нелинейного квантования несколько различаются ( -law companding и A-law compression), что приводит к необходимости перекодирования сигналов.

Таким образом, исходной для любого сравнения эффективности и качества кодирования речевых сигналов может служить скорость кода, равная 64 кбит/с.

Следующим приемом, позволяющим уменьшить результирующую скорость кода, может быть попытка предсказать значение текущего отсчета сигнала по нескольким предыдущим его значениям, и далее, кодирование уже не самого отсчета, а ошибки его предсказания – разницы между истинным значением текущего отсчета и его предсказанным значением. Если точность предсказания достаточно высока, то ошибка предсказания очередного отсчета будет значительно меньше величины самого отсчета и для ее кодирования понадобится гораздо меньшее число бит. Таким образом, чем более предсказуемым будет поведение кодируемого сигнала, тем более эффективным будет его сжатие.

Описанная идея лежит в основе дифференциальной импульсно-кодовой модуляции – ДИКМ (DPCM) – способа кодирования, при котором кодируются не сами значения сигнала, а их отличия от некоторым образом предсказанных значений. Простейшим способом предсказания является использование предыдущего отсчета сигнала в качестве предсказания его текущего значения. Это так называемое предсказание нулевого порядка, самое простое, но и наименее точное. Более точным, очевидно, будет предсказание текущего отсчета на основе линейной комбинации двух предшествующих и т.д.

К сожалению, точность предсказания не всегда растет с ростом порядка предсказания, поскольку свойства сигнала между отсчетами начинают уже изменяться, поэтому обычно ограничиваются предсказанием не выше 2 – 3-го порядка.

На рис. 5.14 и 5.15 приведены схемы ДИКМ кодера и декодера.

Рис.5.14. ДИКМ кодер



Рис.5.15. ДИКМ декодер
При кодировании речевых сигналов с учетом степени их кратковременной (на несколько очередных отсчетов) предсказуемости результирующая скорость кода для ДИКМ (DPCM) обычно составляет 5 – 6 бит на отсчет или 40 – 48 кбит/с.

Эффективность ДИКМ может быть несколько повышена, если предсказание и квантование сигнала будет выполняться не на основе некоторых усредненных его характеристик, а с учетом их текущего значения и изменения во времени, то есть адаптивно. Так, если скорость изменения сигнала стала большей, можно увеличить шаг квантования, и, наоборот, если сигнал стал изменяться гораздо медленнее, величину шага квантования можно уменьшить. При этом ошибка предсказания уменьшится и, следовательно, будет кодироваться меньшим числом бит на отсчет. Такой способ кодирования называется адаптивной ДИКМ, или АДИКМ (ADPCM). Сегодня такой способ кодирования стандартизован и широко используется при сжатии речи в междугородных цифровых системах связи, в системе микросотовой связи DECT, в цифровых бесшнуровых телефонах и т.д. Использование АДИКМ со скоростью кода 4 бита/отсчет или 32 кбит/с обеспечивает такое же субъективное качество речи, что и 64 кбит/с - ИКМ, но при вдвое меньшей скорости кода.

На сегодня стандартизованы также АДИКМ – кодеки для скоростей 40, 24 и 16 кбит/с (в последнем случае с несколько худшим, чем для 32 кбит/с – АДИКМ, качеством сигнала). Таким образом, видно, что сжатие речевых сигналов на основе кодирования их формы обеспечивает в лучшем случае двух - трехкратное уменьшение скорости кода. Дальнейшее снижение скорости ведет к резкому ухудшению качества кодируемого сигнала.
^ 5.4.2. Субполосные кодеры

Описанные выше кодеры формы сигнала использовали чисто временной подход к описанию этого сигнала. Однако возможны и другие подходы. Примером может служить так называемое кодирование поддиапазонов (Sub-Band Coding - SBC), при котором входной сигнал разбивается (или расфильтровывается) на несколько частотных диапазонов (поддиапазонов - sub-bands) и сигнал в каждом из этих поддиапазонов кодируется по отдельности, например, с использованием техники АДИКМ.

Поскольку каждый из частотных поддиапазонов имеет более узкую полосу (все поддиапазоны в сумме дают полосу исходного сигнала), то и частота дискретизации в каждом поддиапазоне также будет меньше. В результате суммарная скорость всех кодов будет по крайней мере не больше, чем скорость кода для исходного сигнала. Однако у такой техники есть определенные преимущества. Дело в том, что субъективная чувствительность слуха к сигналам и их искажениям различна на разных частотах. Она максимальна на частотах 1 - 1,5 кГц и уменьшается на более низких и более высоких частотах. Таким образом, если в диапазоне более высокой чувствительности слуха квантовать сигнал более точно, а в диапазонах низкой чувствительности более грубо, то можно получить выигрыш в результирующей скорости кода. Действительно, при использовании технологии кодирования поддиапазонов получено хорошее качество кодируемой речи при скорости кода 16 – 32 кбит/с. Кодер получается несколько более сложным, чем при простой АДИКМ, однако гораздо проще, нежели для других эффективных способов сжатия речи.

Упрощенная схема подобного кодера (с разбиением на 2 поддиапазона) приведена на рис. 5.16.


Рис. 5.16. Упрощенная схема субполосного кодера с разбиением на 2 поддиапазона

^ 5.4.3. Кодеры основанные на спектральных преобразованиях

Близким к кодированию поддиапазонов является метод сжатия, основанный на применении к сигналу линейных преобразований, к примеру, дискретного косинусного или синусного преобразования. Для кодирования речи используется так называемая технология ATC (Adaptive Transform Coding), при которой сигнал разбивается на блоки, к каждому блоку применяется дискретное косинусное преобразование и полученные коэффициенты адаптивно, в соответствии с характером спектра сигнала, квантуются. Чем более значимыми являются коэффициенты преобразования, тем большим числом бит они кодируются. Техника очень похожа на JPEG, но применяется к речевым сигналам. Достигаемые при таком кодировании скорости кодов составляют 12 – 16 кбит/с при вполне удовлетворительном качестве сигнала. Широкого распространения для сжатия речи этот метод не получил, поскольку известны гораздо более эффективные и простые в исполнении методы кодирования.
^ 5.4.4.Кодирование источника. Параметрические кодеры

В отличие от кодеров формы сигнала, вообще не использующих информацию о том, как был сформирован кодируемый сигнал, кодеры источника основываются именно на модели источника и из кодируемого сигнала извлекают информацию о параметрах этой модели. При этом результатом кодирования являются не коды сигналов, а коды параметров источника этих сигналов.

Кодеры источника для кодирования речи называются вокодерами (VOice CODERS) и работают примерно следующим образом.

Голосообразующий тракт представляется как линейный фильтр с переменными во времени параметрами, возбуждаемый либо источником белого шума (при формировании согласных звуков), либо последовательностями импульсов с периодом основного тона (при формировании гласных звуков) рис. 5.17.


Рис. 5.17. Модель речеобразования
Информация, которую получает вокодер в результате анализа речевого сигнала и передает декодеру, это параметры речеобразующего фильтра, указатель гласный/негласный звук, мощность сигнала возбуждения и период основного тона для гласных звуков. Эти параметры должны обновляться каждые 10 – 20 мс, чтобы отслеживать нестационарность речевого сигнала.

Вокодер, в отличие от кодера формы сигнала, пытается сформировать сигнал, звучащий как оригинальная речь, и не обращает внимания на отличие формы этого сигнала от исходного. При этом результирующая скорость кода на его выходе обычно составляет не более 2,4 кбит/с, то есть в пятнадцать раз меньше, чем при АДИКМ.

К сожалению, качество речи, обеспечиваемой вокодерами, очень далеко от идеального, ее звучание хотя и достаточно разборчиво, но абсолютно ненатурально. При этом даже существенное увеличение скорости кода практически не улучшает качества речи, поскольку для кодирования была выбрана слишком простая модель системы речеобразования. Особенно грубым является предположение о том, что речь состоит лишь из гласных и согласных звуков, не допускающее каких либо промежуточных состояний.

Основное применение вокодеры нашли в военной области, где главное – это не натуральность речи, а большая степень ее сжатия и очень низкая скорость кода, позволяющая эффективно защищать от перехвата и засекречивать передаваемую речь. Кратко рассмотрим основные из известных типов вокодеров.

^ Канальные вокодеры.

Это наиболее древний тип вокодера, предложенный еще в 1939 году. Этот вокодер использует слабую чувствительность слуха человека к незначительным фазовым (временным) сдвигам сигнала. Для сегментов речи длиной примерно в 20 - 30 мс с помощью набора узкополосных фильтров определяется амплитудный спектр. Чем больше фильтров, тем лучше оценивается спектр, но тем больше нужно бит для его кодирования и тем больше результирующая скорость кода. Сигналы с выходов фильтров детектируются, пропускаются через ФНЧ, дискретизируются и подвергаются двоичному кодированию (рис. 5.18).


Рис. 5.18. Структурная схема канального вокодера – блок кодера

Таким образом определяются медленно изменяющиеся параметры голосообразующего тракта и, кроме того, с помощью детекторов основного тона и гласных звуков, период основного тона возбуждения и признак гласный/негласный звук.

Канальный вокодер может быть реализован как в цифровой, так и в аналоговой форме и обеспечивает достаточно разборчивую речь при скорости кода на его выходе порядка 2,4 кбит/с.

Декодер (рис. 5.19), получив информацию, вырабатываемую кодером, обрабатывает ее в обратном порядке, синтезируя на своем выходе речевой сигнал, в какой-то мере похожий на исходный. Канальные вокодеры используются в основном только там, где главным образом необходимы разборчивость и высокая степень сжатия: в военной связи, авиации, космической связи и т.д.

Рис. 5.19. Структурная схема канального вокодера – блок декодера

^ Гомоморфный вокодер.

Гомоморфная обработка сигналов представляет собой один из нелинейных методов обработки, который может эффективно применяться к сложным сигналам, например к речевым. С учетом используемой в вокодерах модели системы голособразования речевой сигнал можно представить как временную свертку импульсной переходной характеристики голосового тракта с сигналом возбуждения. В частотной области это соответствует произведению частотной характеристики голосового тракта и спектра сигнала возбуждения. Наконец, если взять логарифм от этого произведения, то получим сумму логарифмов спектра сигнала возбуждения и частотной характеристики голосового тракта. Поскольку человеческое ухо практически не чувствительно к фазе сигнала, можно оперировать с амплитудными спектрами:
(5.27)
где – спектр речи, – спектр сигнала возбуждения и – частотная характеристика голосового тракта.

Если теперь выполнить над обратное преобразование Фурье (ОПФ), то получим так называемый кепстр сигнала. Параметры голосового тракта изменяются во времени сравнительно медленно (их спектр находится в области низких частот – НЧ), тогда как сигнал возбуждения – быстроосциллирующая функция (ее спектр сосредоточен в области высоких частот - ВЧ). Поэтому в кепстре речевого сигнала эти составляющие разделяются (рис. 5.20) и могут быть закодированы по отдельности.



Рис. 5.20. Кепстр речевого сигнала
Схема гомоморфного кодера/декодера речи приведена на рис. 5.21, с его использованием можно получить скорость кода порядка 4 кбит/с.



Рис. 5.21. Схема гомоморфного кодера/декодера речи
Формантные вокодеры.

Как уже отмечалось ранее, основная информация о речевом сигнале содержится в положении и ширине составляющих его формант. Если с высокой точностью определять и кодировать параметры этих формант, можно получить очень низкую результирующую скорость кода – менее 1 кбит/с. К сожалению, сделать это очень трудно, поэтому формантные кодеры речи пока не нашли широкого распространения.

^ Вокодеры с линейным предсказанием.

Вокодеры на основе линейного предсказания используют такую же модель речеобразования, что и остальные из рассмотренных. Что их отличает – это метод определения параметров тракта. Линейные предсказывающие кодеры, или ЛПК, полагают голосовой тракт линейным фильтром с непрерывной импульсной переходной характеристикой, в котором каждое очередное значение сигнала может быть получено как линейная комбинация некоторого числа его предыдущих значений.

В ЛПК-вокодере речевой сигнал делится на блоки длиной около 20 мс, для каждого из которых определяются коэффициенты предсказывающего фильтра. Эти коэффициенты квантуются и передаются декодеру. Затем речевой сигнал пропускается через фильтр, частотная характеристика которого обратна частотной характеристике голосового тракта. На выходе фильтра получается ошибка предсказания. Назначение предсказателя – устранить корреляцию между соседними отсчетами сигнала. В результате гораздо отчетливее проявляется долговременная корреляция в сигнале, что позволяет точнее определить частоту основного тона и выделить признак гласный/согласный звук.

Вокодеры на основе линейного предсказания сейчас наиболее популярны, поскольку все используемые ими фильтровые модели речевого тракта работают очень хорошо. Получаемые с их помощью скорости кодов при неплохом качестве речи составляют до 2,4 кбит/с.

^ 5.4.5. Гибридные методы кодирования речи

Гибридные, или комбинированные, методы кодирования речи заполняют разрыв между кодерами формы сигнала, совершенно не учитывающими его природы, и кодерами источника, кодирующими, по сути, не сигнал, а параметры модели порождающего его источника. Как отмечалось ранее, кодеры формы сигнала обеспечивают очень хорошее качество речи при скоростях кодирования выше 16 кбит/с, но вообще не работают при более низких скоростях, тогда как вокодеры обеспечивают разборчивую речь при скоростях кодирования 2,4 кбит/с и ниже, но не могут дать хорошего качества при любой скорости кода.

Наиболее распространенными в настоящее время являются гибридные методы кодирования, работающие во временной области (то есть с сигналом, а не его спектром или другими линейными преобразованиями), основанные на анализе сигнала через его синтез (так называемые ABS-кодеки). Эти кодеры так же, как и вокодеры, используют модель голосового тракта, но несколько иным образом – для подбора сигнала возбуждения, обеспечивающего наилучшее совпадение синтезированного на ее основе речевого сигнала с исходным.

ABS-кодеры были впервые предложены сравнительно недавно – в 1982 году - и в своем первоначальном виде получили название MPE-кодеров (Multi-Pulse Excited - кодеры с многоимпульсным возбуждением). Позднее были предложены более совершенные RPE-кодеры (Regular-Pulse Excited – кодеры с регулярным импульсным возбуждением) и CELP-кодеры (Codebook-Excited Linear Predictive – c возбуждением на основе кодовых книг). Сегодня существуют и другие их разновидности, но все они используют общую идею.

Чтобы понять, на чем основаны эффективность и качество ABS-кодера, сначала рассмотрим работу так называемого RELP-кодера (Residual Excited Linear Prediction - RELP).

Если речевой сигнал (имеющий спектр рис. 5.22, а) пропустить через линейный предсказатель (с частотной характеристикой вида рис.5.22, б), то корреляция между отсчетами выходного сигнала (ошибки предсказания) значительно уменьшится. Если предсказание выполнялось достаточно хорошо, то выходом предсказателя будет практически белый шум с равномерным спектром (рис. 5.23, в).



Рис. 5.22 Анализ речевого сигнала с помощью коэффициентов линейного предсказания
Вместе с тем этот белый шум (ошибка предсказания) несет всю информацию о кодируемом речевом сигнале, и если его пропустить снова через LPC-фильтр (с частотной характеристикой - рис. 5.22,г), то мы абсолютно точно восстановим исходный речевой сигнал. Поскольку эта информация распределена по спектру ошибки предсказания более или менее равномерно, то возникла идея кодировать и передавать только небольшую часть спектра ошибки предсказания, а остальное восстанавливать в декодере.

В RELP-кодере сигнал ошибки предсказания пропускается через низкочастотный фильтр с частотой среза около 1 кГц. Сигнал с выхода фильтра кодируется по форме, например ДИКМ-кодером. В декодере ошибка предсказания восстанавливается путем ее переноса в область удаленных низкочастотным фильтром кодера частот. RELP-кодер работал бы идеально, если бы в процессе линейного предсказания мы получали белый шум. Однако из за наличия в речевом сигнале квазипериодических формантных составляющих линейный предсказатель не может устранить долговременной корреляции с периодом основного тона формант и они будут явно присутствовать в спектре ошибки предсказания. Если теперь пропустить ошибку предсказания через ФНЧ, то высокочастотные формантные составляющие будут утеряны и в дальнейшем не смогут быть восстановлены.

RELP-кодеры позволяют получить неплохое качество сигнала при скорости кода порядка 9.6 кбит/с, однако им в некоторой степени присущ недостаток вокодеров – синтетический характер восстановленной речи. В связи с этим на смену им практически повсеместно пришли похожие по принципу работы ABS-кодеры в их разновидностях.

ABS-кодер работает следующим образом. Кодируемый входной сигнал (уже в цифровой форме, в виде потока отсчетов) разбивается на фрагменты длиной порядка 20 мс, в пределах которых свойства сигнала изменяются незначительно. Для каждого из этих фрагментов определяются текущие параметры синтезирующего фильтра (аналога голосового тракта) и далее подбирается сигнал возбуждения, который, будучи пропущенным через синтезирующий фильтр, минимизирует ошибку между входным и синтезированным сигналами.

Таким образом, название метода Analysis-by-Synthesis состоит в том, что кодер анализирует входную речь посредством синтеза множества приближений к ней. В конечном итоге кодер передает декодеру информацию, представляющую собой комбинацию текущих параметров синтезирующего фильтра и сигнала возбуждения. Желательно, чтобы этих данных было поменьше. Декодер по этим параметрам восстанавливает закодированную речь, причем делает это так же, как это делал кодер в процессе анализа через синтез. Различие между ABS-кодерами разного типа состоит в том, как в каждом из них подбирается сигнал возбуждения синтезирующего фильтра u(n). Теоретически на вход синтезирующего фильтра нужно подать бесконечно большое число различных сигналов возбуждения, чтобы посмотреть, какой сигнал получится на его выходе, и сравнить его с кодируемым. Сигнал возбуждения, который даст минимум взвешенной ошибки между оригиналом и синтезированной речью, выбирается в качестве результата кодирования. Именно эта замкнутая схема определения сигнала возбуждения (рис. 5.23) и обеспечивает ABS-кодерам высокое качество кодируемой речи при низких скоростях кода.

Рис. 5.23. Структурная схема ABS-кодера/декодера
Проблема состоит в большом количестве вычислительных операций, необходимых для подбора наилучшего сигнала возбуждения. Но для сегодняшних возможностей вычислительной и микропроцессорной техники это вполне разрешимая задача.

^ Многоимпульсные кодеры ( MPE-кодеры).

Как уже говорилось, при прохождении речевого сигнала через предсказывающий фильтр корреляция между его соседними отсчетами значительно уменьшается. Однако для гласных звуков наличие формантных составляющих приводит к появлению в речевом сигнале квазипериодичности и высокой долговременной корреляции. Эта периодичность не устраняется линейным предсказанием и приводит к появлению в сигнале ошибки предсказания высокоамплитудных скачков.

Чтобы устранить долговременную корреляцию, можно пропустить сигнал ошибки предсказания через второй линейный предсказатель. Этот линейный предсказатель должен устранить корреляцию уже не между соседними отсчетами речевого сигнала, а между соседними периодами ошибки предсказания. Это достигается введением в предсказатель временной задержки на величину периода основного тона речевого сигнала:
, (5.28)
где М – период основного тона.
На приведенном ниже рис.5.24 изображены: а – исходный речевой сигнал; б – сигнал ошибки кратковременного линейного предсказания (увеличенный в 3 раза); в – сигнал на выходе двухкаскадного (кратковременного + долговременного) предсказателя (увеличенный в 10 раз).


Рис. 5.24 Представление речевого сигнала
Если теперь подать результирующий сигнал ошибки предсказания в качестве возбуждения на последовательно соединенные кратковременный и долговременный фильтры-предсказатели, то на выходе получим исходный неискаженный речевой сигнал. Можно было бы кодировать и передавать по каналу связи полученный сигнал ошибки предсказания, и уже это обеспечивало бы определенную экономию из-за существенно меньшей его амплитуды по сравнению с исходным речевым сигналом. Однако форма сигнала все же остается довольно сложной, что требует для его кодирования достаточно много бит. В многоимпульсных кодерах (MPE ) в качестве сигнала возбуждения u(n) берут не ошибку предсказания, а просто последовательность из четырех – шести коротких импульсов. Временное положение каждого из этих импульсов и их амплитуды определяются в процессе процедуры анализа через синтез (ABS) до достижения минимальных различий между исходным и синтезированным речевыми сигналами. Параметры импульсов возбуждения, минимизирующие ошибку, подбирают последовательно, сначала для первого импульса, затем для второго и т.д. На практике достаточно задавать положение импульсов с шагом около 1 мс и точностью амплитуд до 5 %, и это обеспечивает хорошее качество синтезируемого звука при скорости кода около 10 кбит/с

^ Кодеры с регулярным импульсным возбуждением ( RPE-кодеры).

Так же как и MPE-кодек, Regular Pulse Excited, или RPE-кодек, использует в качестве сигнала возбуждения u(n) фиксированный набор коротких импульсов. Однако в этом кодеке импульсы расположены регулярно на одинаковых расстояниях друг от друга, и кодеру необходимо определить лишь положение первого импульса и амплитуды всех импульсов. Таким образом, декодеру нужно передавать меньше информации о положении импульсов, следовательно, в сигнал возбуждения можно включить их большее количество и тем самым улучшить приближение синтезированного сигнала к оригиналу. К примеру, если при скорости кода 10 кбит/с в MPE-кодеке используется четырехимпульсный сигнал возбуждения, то в RPE-кодеке можно использовать уже десятиимпульсный сигнал. При этом существенно повышается качество речи.

Метод регулярного импульсного возбуждения RPE сегодня широко применяется, в том числе в системе сотовой связи GSM.

^ Кодеры с возбуждением на основе кодовых книг (CELP–кодеры).

Методы кодирования МPE и RPE обеспечивают хорошее качество кодируемой речи при скоростях кода порядка 10 кбит/с и выше, но начинают сильно искажать сигнал при более низких скоростях. Дело в том, что для описания необходимых параметров сигнала возбуждения – временного положения и амплитуд импульсов с требуемой точностью просто не хватает бит.

В связи с этим был предложен метод, использующий в качестве сигнала возбуждения не импульсные последовательности, задаваемые набором своих параметров, а библиотеки (кодовые книги) специальным образом подготовленных и записанных в запоминающее устройство сигналов возбуждения различной формы – Codebook Excited Linear Prediction ( CELP ).

Схема формирования сигнала возбуждения CELP-кодера приведена на рис. 5.25.



Рис.5.25. Схема формирования сигнала возбуждения CELP-кодера
Результатом кодирования при этом являются не параметры импульсов сигнала возбуждения, а индекс кодовой книги (номер хранимого в ней образца сигнала возбуждения), а также его амплитуда. Если кодовая книга содержит, к примеру, 1024 сигнала, а амплитуда сигнала кодируется с точностью 2 – 3 %, то необходимое число бит составит 10 (для индекса) + 5 (для амплитуды) = 15 бит на фрагмент сигнала длительностью в 20 мс (в сравнении с 47 битами, используемыми в GSM RPE-кодеке). Правда, процедура кодирования требует очень больших вычислительных затрат, поэтому реализация CELP-кодеров стала возможной только в последнее время с использованием специализированных сигнальных процессоров с производительностью порядка 300 млн. операций в секунду и более.

Кодирование на основе алгоритма CELP с успехом используется в современных системах связи при скоростях кода от 16 до 4,8 кбит/с. При этом для скорости кода 16 кбит/с CELP обеспечивается такое же качество речи, как и для 64 кбит/с ИКМ, а при скорости кода 4,8 кбит/с – как для 13 кбит/с GSM RPE.







Скачать файл (5335.1 kb.)

Поиск по сайту:  

© gendocs.ru
При копировании укажите ссылку.
обратиться к администрации