Logo GenDocs.ru

Поиск по сайту:  

Загрузка...

Борискевич А.А. Цифровая обработка речи и изображений - файл Тема 2.doc


Борискевич А.А. Цифровая обработка речи и изображений
скачать (5335.1 kb.)

Доступные файлы (16):

Литература.doc34kb.28.04.2007 17:48скачать
Содержание.doc68kb.28.04.2007 17:09скачать
тема10.doc1416kb.28.04.2007 17:42скачать
тема11.doc917kb.28.04.2007 17:47скачать
тема12.doc1926kb.28.04.2007 17:45скачать
Тема 13.doc5561kb.28.04.2007 17:46скачать
тема14.doc177kb.28.04.2007 17:46скачать
Тема 1.doc182kb.28.04.2007 17:34скачать
Тема 2.doc549kb.28.04.2007 17:41скачать
Тема 3.doc243kb.28.04.2007 17:33скачать
тема 4.doc297kb.28.04.2007 17:34скачать
Тема 5.doc1150kb.28.04.2007 17:35скачать
Тема 6.doc3287kb.28.04.2007 17:41скачать
Тема 7.doc529kb.28.04.2007 17:38скачать
Тема 8.doc985kb.28.04.2007 17:39скачать
тема 9.doc1022kb.28.04.2007 17:42скачать

Тема 2.doc

Тема 2. Цифровое представление речевого сигнала и его параметры (2 часа) [1, 2, 8, 16].

Быстрое развитие современных технологий привело к необходимости передавать не аналоговый сигнал, а цифровой. Принцип, на котором базируется способ передачи звуковых сигналов в цифровой форме, состоит в том, что полное воспроизведение любого сигнала на стороне приема возможно и в том случае, когда передается не весь сигнал, а лишь периодически выделяемые из него отсчеты. В отличие от аналогового цифровой сигнал, искаженный помехами, можно восстановить (регенерировать) полностью. Для этого достаточно принять решение о наличии ("1") или отсутствии ("0") сигнала. Длительность цифрового сигнала при передаче выбирается строго определенной, и при приеме возможно полное устранение временных искажений.

Цифровая система звукозаписи требует представления входного аналогового сигнала в цифровом виде, а выходного цифрового сигнала - в аналоговом. Для преобразований используют аналого-цифровые (АЦП) и цифро-аналоговые (ЦАП) преобразователи.

В данном курсовом проекте рассматривается принцип действия одного из блоков АЦП – квантователя.



Рис.2.1. Общая схема цифрового представления сигнала
Общая схема цифрового представления речевого сигнала изображена на Рис.2.1. Из рисунка видно, что речевое колебание как непрерывная функция времени подвергается дискретизации, чаще всего периодической, в результате которой образуется последовательность отсчетов ха(пТ). Эти отсчеты могут в общем случае принимать непрерывное множество значений. Поэтому для получения цифрового, т.е. дискретного по амплитуде и по времени, представления необходимо проквантовать каждый отсчет до конечного множества значений.
^ 2.1. Дискретизация речевого сигнала

Для применения методов цифровой обработки к такому аналоговому сигналу, как речевое колебание, необходимо представить его в виде последовательности чисел. Обычно это осуществляется путем периодической дискретизации аналогового сигнала для получения последовательности его значений:
, , (2.1)
где принимает только целые значения.
Теорема дискретизации

Условия, которые должны выполняться для того, чтобы аналоговый сигнал можно было представить последовательностью своих отсчетов единственным образом, хорошо известны и часто формулируются в следующем виде.

Теорема дискретизации: если сигнал имеет преобразование Фурье такое, что при ,то может быть восстановлен единственным образом по последовательности равноотстоящих отсчетов , , если .

Данная теорема вытекает из того факта, что если преобразование Фурье сигнала определяется выражением:

, (2.2)
и преобразование Фурье последовательности определено в соответствии с выражением:
, (2.3)
то в частотной области выполняется соотношение:
, (2.4)
Для пояснения соотношения (2.4) предположим, что имеет вид, показанный на рис. 2.2, т.е. допустим, что для . Частоту называют частотой Найквиста.

Рис.2.2 Непрерывный спектр ограниченного по частоте дискретного сигнала
В соответствии с (2.4) представляет собой сумму бесконечного числа спектров , каждый из которых расположен на высших гармониках частоты . На рис. 2.3 показан случай, когда .

Рис.2.3 Дискретизация без наложения непрерывных спектров
Здесь дополнительные компонента преобразование Фурье не попадают в основной диапазон . На рис.2.4 приведен обратный случай, когда .

Рис.2.4 Дискретизация с наложением непрерывных спектров
Здесь спектры, отстоящие друг от друга , пересекаются. Такая ситуация, при которой смежные спектры перекрываются, называется наложением частот. Очевидно, что наложения частот можно избежать только при условии, что преобразование Фурье исходного сигнала ограничено по полосе частот и частота дискретизации, по крайней мере, равна удвоенной частоте Найквиста ().

Если , то преобразование Фурье последовательности отсчетов пропорционально преобразованию Фурье аналогового сигнала в основной полосе частот:
,. (2.5)
Используя этот результат, можно показать, что исходный сигнал связан с последовательностью отсчетов следующей формулой:
(2.6)
Таким образом, по последовательности отсчетов аналогового сигнала, взятых с частотой, равной, по крайней мере, удвоенной частоте Найквиста, можно по (2.6) восстановить исходный аналоговый сигнал. Применяемые на практике цифроаналоговые преобразователи основаны на приближении соотношения (2.6).

Дискретизация предполагается во многих алгоритмах обработки речевых сигналов, предназначенных для оценки таких важных параметров речи, как частоты формант или период основного тона. В этих случаях аналоговая функция, подвергаемая дискретизации, недоступна наблюдению. Однако параметры изменяются во времени медленно, и поэтому их можно оценивать со скоростью порядка 100 отсч./с (т.е. дискретизировать). Полученные отсчеты параметра являются значениями ограниченной по частоте функции, которую можно восстановить в соответствии с (2.6).
^ Прореживание и интерполяция дискретизированного сигнала

Иногда возникает задача изменения частоты дискретизации сигнала, представленного в дискретном времени. Процесс понижения и повышения частоты дискретизации называется прореживанием и интерполяцией соответственно. В обоих случаях предполагается, что имеется последовательность отсчетов x(n) = xa(nT), где аналоговая функция xa(t) имеет ограниченное по частоте преобразования Фурье, такое, что Xa(iΩ) = 0, |Ω|/ > FN.

Прореживание. Пусть требуется понизить частоту дискретизации в М раз, т. е. необходимо построить новую последовательность, соответствующую отсчетам xa(t), взятым с периодом T′ = MT, т.е.:

y(n) = xa(n T′) = xa(n TM) (2.7)

Заметим, что:
y(n) = x(M n), +∞< n <∞ (2.8)
Таким образом, y(n) получается путем сохранения только одного из M отсчетов. Из теоремы дискретизации следует, что если 1/ T′>2FN , то y(n) также единственным образом описывает исходный аналоговый сигнал. Преобразования Фурье x(n) и y(n) связаны соотношением:
(2.9)

Из (2.9) видно, что для устранения наложения между спектрами необходимо, чтобы . Если это условие выполняется, то получаем
, (2.10)
где .

Структурная схема обобщенной системы прореживания изображена на рис. 2.5. Фильтр низких частот необходим для того, чтобы не происходило наложение частот.


Рис.2.5. Структурная схема прореживания
Интерполяция. Пусть имеется последовательность отсчетов аналогового сигнала x(n) = xa(nT). Если необходимо повысить частоту дискретизации в L раз, то следует вычислить новую последовательность, соответствующую отсчетам xa(t), взятым с периодом T'=T/L, т.е.:
y(n) = xa(n T') = xa(nT/L) (2.11)
Очевидно, y(n) = x(n/L) для n=0, ±L, ±2L, но для других значений недостающие отсчеты необходимо получить с использованием методов интерполяции.

Общая структурная схема процесса интерполяции представлена на рис. 2.6.

Рис.2.6. Структурная схема интерполяции
Изменение частоты дискретизации в дробное число раз. Отсчеты, соответствующие периоду дискретизации T'=МТ/L, можно получить путем комбинаций интерполяции с параметром L и последующей процедуры прореживания с параметром М. Соответствующим подбором целых чисел М и L можно получить любое, необходимое соотношение между частотами дискретизации. Объединив структурные схемы на рис. 2.5 и 2.6 легко заметить, что вместо двух достаточно иметь один фильтр нижних частот (рис. 2.7).

Рис.2.7. Структурная схема повышения частоты дискретизации
Важным аспектом при использовании методов интерполяции и прореживания является выбор фильтра нижних частот. Значительная экономия в объеме вычислений в таких системах достигается использованием фильтров в стандартной прямой форме. Экономия в вычислениях достигается вследствие того, что при прореживании только один из каждых М отсчетов подвергается фильтрации, а при интерполяции каждые L-1 из L отсчетов равны нулю и потому не влияют на процесс вычисления.

Если предположить, что фильтрация будет осуществлена с использованием фильтра нижних частот, то для большого изменения частоты дискретизации (т. е. большого М при прореживании и большого L при интерполяции) более целесообразным, оказывается, уменьшать (или увеличивать) частоту дискретизации с помощью серии последовательных прореживаний. В этом случае частота дискретизации уменьшается постепенно и на каждом шаге требуется фильтр нижних частот с менее крутым спадом частотной характеристики.

^ 2.2. Скалярное квантование речевого сигнала

Предположим, что речевой сигнал пропущен через фильтр нижних частот и в результате дискретизации получена последовательность непрерывных величин {х(п)}. В большинстве случаев последовательность {х(n)} рассматривается как случайный процесс в дискретном времени. Для того чтобы передать, эту последовательность отсчетов по цифровому каналу связи, каждый отсчет необходимо проквантовать до конечного множества значений, которые можно описать конечным множеством символов. Этот процесс квантования и кодирования изображен на рис.2.8.


Рис.2.8. Квантование и кодирование

А) Кодер; Б) Декодер
Процесс представления последовательности {х(п)} множеством символов целесообразно разделить на два этапа Рис.2.8а:

-квантование, результатом которого является последовательность величин ;

-кодирование, при котором каждой квантованной величине ставится в соответствие кодовое слово с(п).

Величина на рисунке означает шаг квантования. Декодер преобразует последовательности кодовых слов {с'(п)} в последовательность квантованных отсчетов {х'(п)} Рис.2.8,б. Если последовательность кодовых слов с'(n) точно совпадает с последовательностью кодовых слов с(n), т.е. ошибки отсутствуют, то сигнал на выходе идеального декодера точно совпадает с последовательностью квантованных отсчетов входного сигнала, т.е. . Наиболее распространено применение при кодировании В-разрядной двоичной последовательности, задающей различных уровней квантования. Информационный объем цифрового представления можно подсчитать:
скорость, бит/с, (2.12)

где частота дискретизации (т.е. отсч./с); В – число бит на отсчет сигнала. В общем случае желательно выбирать скорость передачи наиболее низкой, при которой еще сохраняется требуемое качество восприятия сигнала. Для данной полосы частот речевого сигнала минимальная частота дискретизации определяется теоремой о дискретизации. Таким образом, единственный путь уменьшения скорости передачи состоит в сокращении числа двоичных единиц на отсчет сигнала, что и привело к появлению различных способов кванотования квантования сигнала.

В общем случае целесообразно предполагать, что отсчеты сигнала будут попадать в конечный интервал значений, при котором
(2.13)
Для удобства следует предположить, что величина бесконечно велика, однако на практике диапазон конечен, что весьма важно.

Таким образом, целесообразно считать, что полный размах сигнала пропорционален среднему квадратическому отклонению.

Диапазон изменения входного сигнала делится на интервалы, и операция квантования сводится к тому, что всем отсчетам входного сигнала, попавшим в некоторый интервал, приписывается одно и то же заданное значение. Этот процесс иллюстрирует Рис.2.9 для восьмиуровневого квантователя. Например, для всех значений входного сигнала х(п), расположенных между и , значение сигнала на выходе будет Каждому уровню поставлено в соответствие трехразрядное слово, которым кодируется значение соответствующего уровня.



Рис.2.9 Характеристика трехразрядного квантователя
^ 2. Равномерное квантование
Уровни квантования выбирают исходя из условий применения того или иного квантователя. Самым простым является равномерный квантователь (рис.2.10) для которого

(2.14)

где – шаг квантования. Для случая восьми уровней квантования на рис.2.10 приведены характеристики двух обычно используемых квантователей. На рис.2.10,а изображен случай, когда начало отсчета приходится на середину вертикального участка ступенчатой функции - квантователь с усечением. На рис.2.10,б приведён квантователь с округлением. Когда число уровней равно степени 2, квантователь с усечением имеет одинаковое количество положительных и отрицательных уровней, расположенных симметрично относительно начала координат, квантователь с округлением имеет на один отрицательный уровень больше, но при этом обладает нулевым уровнем, который отсутствует у квантователя с усечением.



Рис.2.10. Характеристики равномерных квантователей:

а) с усечением; б) с округлением.
Для описания равномерных квантователей (рис.2.10) достаточно задать два параметра: число уровней и шаг квантования. Число уровней выбирается обычно в виде с тем, чтобы использовать все В-разрядные кодовые слова. Параметры и В выбираются таким образом, чтобы охватить весь диапазон сигнала. Если предположить, что , то (полагая симметричной функцию плотности вероятности х(п)) имеем
(2.15)
При изучении эффектов квантования полезно представить квантованный сигнал в виде

(2.16)
где х(п) – непрерывный отсчет, а е(п) – ошибка, или шум квантования. Из рис.2.10а и 2.10б легко установить, что если и В выбирать в соответствии с (2.15), то
(2.17)
В качестве размах сигнала закономерно принять уровень в , тогда приблизительно 0,35% отсчетов окажутся вне диапазона квантователя. Квантование этих отсчетов будет сопровождаться ошибкой, большей ,. но их число крайне мало, чем можно пренебречь.

Очевидно, что нам известен только , а х(п) и е(п) неизвестны. Для изучения эффектов квантования удобно и полезно предположить простую статистическую модель шума квантования. Эта модель основана на следующих предположениях:

1. Шум квантования является стационарным белым шумом, т.е.
(2.18)
2. Шум квантования не коррелирован с входным сигналом, т. е.
, для всех m (2.19)
3. Распределение шума равномерно в любом интервале квантования и поскольку все интервалы равны между собой, то
(2.20)
Для некоторых сигналов данные предположения не выполняются, например, если входной сигнал постоянен для всех п. Речевой сигнал, однако, является достаточно сложным и быстроизменяющимся в пределах любого уровня квантования, и если шаг достаточно мал, то вероятность попадания двух последовательных отсчетов в различные далеко отстоящие интервалы достаточно велика.

В рамках введенной статистической модели можно связать мощность шума и сигнала с параметрами квантователя. Для этой цели удобно вычислить отношение сигнал/шум квантования, определяемое выражением
(2.21)
Если предположить, что диапазон непрерывных значений равен , то для В-разрядного квантователя получаем
(2.22)
Если предположить равномерное распределение шума, получим
(2.23)
Подставляя (2.23) в (2.21), имеем
(2.24)
или, выражая отношение сигнал/шум в децибелах
(2.25)
Предполагая диапазон квантования , из (2.25) получим
(2.26)
Соотношение (2.26), из которого следует, что каждое добавление одного разряда в кодовом слове улучшает отношение сигнал/шум на 6 дБ, справедливо при следующих предположениях:

1) входной сигнал изменяется таким образом, что справедлива описанная ранее статистическая модель шума квантования;

2) шаг квантования мал настолько, что шум белый и не коррелирован с сигналом;

3) диапазон квантования установлен таким образом, что он превышает размах сигнала. Следовательно, диапазон квантования используется полностью, и в тоже время количество отсчетов, не попадающих в него, достаточно мало.

Для речевых сигналов первые два предположения выполняются, если количество уровней квантования больше, чем 26. Однако третье предположение менее справедливо, поскольку энергия сигнала может изменяться более чем на 40 дБ в зависимости от диктора и условий передачи. Даже для данного диктора амплитуда речевого сигнала существенно меняется при переходе от вокализованной речи к невокализованной и на протяжении вокализованных сегментов. Соотношение (2.13) предполагает полное использование диапазона квантования, и если размах сигнала очень мал, то это эквивалентно использованию лишь нескольких уровней квантования. Если дисперсия входного сигнала составляет лишь половину той, на которую рассчитан квантователь, то это приведет к ухудшению отношения сигнал/шум на 6дБ. В то же время кратковременное отношение сигнал/шум на невокализованных сегментах может быть значительно меньше, чем на вокализованных.

Для поддержания ошибки квантования на приемлемом уровне необходимо выбирать значительно больше уровней квантования, чем это следует из предварительного анализа. Например, использование соотношения (2.13) позволяет сделать вывод, что значение В=7 обеспечит отношение сигнал/шум, равное 36 дБ, т. е. хорошее качество связи. Но практика показала, что необходимо около 11 разрядов квантователя для получения высококачественного речевого сигнала при равномерном квантовании.

Таким образом, возникла необходимость независимости отношения сигнал/шум от уровня сигнала, т.е, вместо постоянной не зависящей от уровня сигнала ошибки (как это имеет место при равномерном квантовании) хотелось бы получить постоянную относительную ошибку, что достигается использованием неравномерного распределения уровней квантования.

^ Мгновенное командирование. Для того чтобы относительная ошибка была постоянной, уровни квантования должны быть распределены логарифмически. С другой стороны, вместо квантования исходного сигнала для достижения постоянной ошибки можно квантовать его логарифм. Этот процесс изображен на рис.2.11, где входной сигнал компрессируется перед квантованием с помощью логарифмического преобразования, а выходной сигнал после декодирования экспандируется с помощью экспоненциального преобразования.


Рис.2.11. Структурная схема системы логарифмического кодирования
Убедимся, что это приводит к требуемой нечувствительности ошибки квантования от значения сигнала. Предположим, что
Y(n)=ln|x(n)|. (2.27)
Обратное преобразование равно
x(n)=exp[y(n)]sign[x(n)], (2.28)
где sign[x(n)]=+1, если х(п) положительно, и sign[x(n)]=-1, если х{п) отрицательно. Теперь квантованный логарифм имеет вид
(2.29)

где как и ранее предполагается, что не зависит от log|x(n)|.

Применяя к квантованной величине обратное преобразование, получаем
(2.30)

При малом

(2.31)
где . Таким образом, поскольку х(п) и предполагаются некоррелированными, получаем
(2.32)
Следовательно, отношение сигнал/шум не зависит от мощности сигнала, а зависит только от шага квантования. Квантователь такого типа не имеет практического значения, поскольку динамический диапазон (отношение максимального значения к минимальному) бесконечен и, таким образом, требуется бесконечное число уровней квантования. Выполненный анализ, возможно и лишенный практического смысла, позволяет, однако, сделать вывод о том, что характеристика компрессора может быть близкой к логарифмической.

Характеристика компрессора с -законом компандирования имеет вид
(2.33)
На рис.2.12 представлено семейство зависимостей у(п) от х(п) для различных значений . Очевидно, что использование функции (2.33) решает проблему малых амплитуд, поскольку у(п)=0, если . При =0 уравнение (2.33) превращается в равенство y(n)=x(n), т.е. уровни квантования располагаются равномерно.

Таким образом, за исключением очень малых амплитуд, кривые, соответствующие -закону, позволяют получить постоянный процент дисперсии шума от дисперсии сигнала. На рис.2.13 показано распределение уровней квантования при =40 и восьми уровнях.



Рис.2.12 Характеристика компрессии по -закону

Рис.2.13. Распределение уровней квантования для -закона в трехразрядном квантователе при =40


Используя предположения такого же типа, как и в случае анализа равномерного квантователя, формула для отношения сигнал/шум при использовании -закона можно задать в виде
(2.34)
Сравнивая это уравнение с (2.25), можно отметить, что в данном случае отношение сигнал/шум значительно меньше зависит от величины . Эта зависимость уменьшается при возрастании , т.е. хотя член уменьшает отношение сигнал/шум, второе слагаемое с ростом возрастает. На рис.2.14 и 2.15 графически представлены соотношения (2.25) и (2.34) как функции величины при =100 и 500 соответственно. Величина является параметром устройства квантования. Она определяет порог «переполнения», т.е. значение, выше которого все отсчеты ограничиваются. Величина является параметром сигнала, определяющим «среднюю» амплитуду сигнала. Величина показывает, насколько диапазон сигнала согласован с диапазоном квантователя. Пунктирные кривые на рис.3.4 иллюстрируют зависимость отношения сигнал/шум в децибелах от . При заданном значении уменьшение вдвое величины приводит к потере в отношении сигнал/шум на 6 дБ. Для заданного значения отношение сигнал/шум возрастает на 6 дБ при добавлении одного разряда квантователя. Это справедливо как для равномерного квантователя, так и при использовании -закона.



Рис.2.14. SNR для –закона и равномерного квантователя как функция при и различном числе разрядов В

Рис.2.15. SNR для –закона и равномерного квантователя как функция при и В=5;6;7;11


Важное свойство -закона, иллюстрируемое этими кривыми, состоит в том, что отношение сигнал/шум более или менее постоянно в широком диапазоне. Например, из рис.2.14 видно, что при =100 отношение сигнал/шум уменьшается всего на 2 дБ при
(2.35)
а из рис.2.15 видно, что при =500 отношение сигнал/шум - менее чем на 2 дБ в диапазоне
(2.36)
Однако сравнение рис.2.14 и 2.15 показывает, что максимальное отношение сигнал/шум во втором случае уменьшается на 2,6 дБ. Таким образом, используя большие значения коэффициента компрессии, мы получаем выигрыш в динамическом диапазоне ценой проигрыша в отношении сигнал/шум.

Как следует из рис.2.14 и 2.15, при В=7 отношение сигнал/шум, равное 34 дБ, достигается в широком диапазоне уровней входного сигнала. Поэтому семиразрядная ИКМ с компрессией используется как стандарт для получения речевого сигнала с хорошим качеством. При равномерном квантовании для получения такого же динамического диапазона требуется 11 разрядов. Как следует из рис.2.15, 11-разрядное равномерное квантование будет таким же или лучшим, чем семиразрядное квантование при =500 для уровней входного сигнала, составляющих, по крайней мере 1% максимального уровня квантования.
^ 2.3 Векторное квантование речевого сигнала

Известны следующие способы дискретного описания параметров речевых сигналов для их высококачественного среднескоростного (816 Кбит/с) и низкоскоростного (2400 Кбит/с и менее) кодирования.

1. Скалярное квантование (способ независимого квантования каждого значения отсчета сигнала или параметра) - сравнительно простая процедура, при ее использовании удовлетворительное качество синтезированной речи достигается только при скоростях более 2400 бит/с.

2. Векторное или блочное квантование (способ совместного квантования блока параметров (или отсчетов)) позволяет снизить скорость передачи речевого сигнала не ниже 800 бит/с.

3. Сегментное кодирование (способ, охватывающий большой сегмент речи) является обобщением векторного квантования. В этом случае производится векторное квантование большого вектора, где - вектор i-го кадра дискретного речевого сигнала, Т- символ операции транспонирования, содержащего в качестве М элементов следующих друг за другом кадровых векторов. Таким образом, зависимости между последовательными кадрами косвенно включается в векторы большой размерности. Длительность сегмента М может быть либо фиксированной, либо переменной. При фиксированном М задача квантования упрощается, а использование сегментов переменной длительности приводит к лучшему качеству речи. Таким образом, сегментное квантование – это просто векторное квантование, применимое к вектору большей размерности, содержащему больший сегмент речи. Такой подход позволяет снизить скорость передачи речевого сигнала до 300 бит/с.

Основной целью введения векторного квантование при кодировании речи было сокращение скорости работы вокодеров с 2400 бит/с до значительно меньших значений при сохранении приемной разборчивости и качества речи.

На рис. 2.16 представлена структурная схема L- уровневого векторного квантователя. При векторном квантовании исходный дискретный сигнал разбивается на блоки, каждый их которых представляется в виде N-мерного вектора , где N число квантуемых отсчетов сигнала в блоке, и отображается в N-мерный действительный вектор с квантованными значениями амплитуд:

, (2.37)

где q(x) – оператор векторного квантования.






Рис.2.16. L- уровневый векторный квантователь
Вектор принимает одно значение из ограниченного множества , где , L – размер кодовой книги,  множество кодовых векторов с размерностью N. Размер кодовой книги называют также числом уровней. Следовательно, множество Y можно назвать L-уровневым квантователем или кодовой книгой с L уровнями. Процесс векторизации состоит в том, что каждому входному вектору по некоторому решающему правилу ставится в соответствие вектор кодовой книги L и номер этого кодового вектора, то есть векторное квантование преобразует исходный сигнал в совокупность кодовая книга и множество индексов кодовых векторов. При этом осуществляется компрессия сигнала с коэффициентом сжатия, равным размерности векторов и .

При квантовании в возникает ошибка квантования. Отклонения от может быть определено мерой искажения , называемой также мерой расхождения или мерой расстояния. Различия в величинах искажений характеризует соответствующие различия в качестве речи. Наиболее часто в качестве меры искажения используется среднеквадратическая ошибка (СКО)

(2.38)

Из выражения (2.38) видно, что искажения определяются по каждой координате и учитываются с одинаковым весом.

Для осуществления векторного квантования необходимо сформировать кодовую книгу. Для построения такой книги N-мерное пространство вектора разделяется на L непересекающихся ячеек и с каждой ячейкой сi связывается вектор . Квантование вектора производится на основе вычисления СКО, связанной с заменой на каждый из кодовых векторов, и выбора кодового вектора, обеспечивающего минимальную СКО, в качестве квантованного значения вектора:

, если . (2.39)

Этот метод квантования известен как метод полного перебора, так как при квантовании каждого входного вектора проверяются все кодовые векторы. Общим недостатком данного метода является то, что для осуществления векторного квантования необходимо выполнить большое количество вычислений. Если предположить, что каждый расчет искажений требует N операций умножения-сложения (это справедливо для меры СКО), то вычислительные затраты на квантование каждого входного вектора составят NL. Если на каждый кодовый вектор при передаче отводится бит, где ^ R  количество бит, используемых для кодирования каждой координаты, B количество бит, используемых для кодирования каждого вектора, то вычислительные затраты составят бит.

Векторное квантование в отличие от скалярного квантования может осуществлять выбор расположения кодовых векторов и форм ячеек, обеспечивающий минимизации искажений и исключение избыточности исходного сигнала. Кроме того, при L<<M, где М  множество возможных входных векторов векторное квантование может дать очень высокий коэффициент сжатия данных.

На рис. 2.17 представлена блок-схема системы векторного (блочного) квантования. Кодовая книга состоит из L кодовых векторов, которые хранятся в памяти кодера и декодера. Множество векторов образуют кодовую книгу. Входной вектор , представляющий собой образец речевого сигнала, сравнивается со всеми векторами, находящимися в кодовой книге, и находится вектор, наиболее близкий к входному вектору.



Р

2Рис.17. Структурная схема системы низкоскоростного кодирования речевого сигнала на основе векторного квантования

Номер или индекс этого вектора , где , посылается по каналу связи. На приемной стороне по этому индексу определяется соответствующий вектор в кодовой книге, и в декодере восстанавливается оригинал речевого сигнала. Снижение скорости передачи в результате использования векторного квантования достигается путем передачи на прием только индекса вектора. Для более эффективного сжатия речевых сигналов векторному квантованию следует подвергать параметры сигнала, например, коэффициенты его дискретного косинусного преобразования.

Процесс образования кодовой книги подобен процессу обучения, который используется при распознавании образов. Векторы параметров в процессе обучения извлекаются из случайной разговорной речи достаточно большой длительности (30 –40 мин). Время поиска вектора в кодовой книге может быть сокращено, если использовать быстрые алгоритмы поиска, например, древовидные, требующие большого объема памяти.







Скачать файл (5335.1 kb.)

Поиск по сайту:  

© gendocs.ru
При копировании укажите ссылку.
обратиться к администрации