Logo GenDocs.ru

Поиск по сайту:  

Загрузка...

Борискевич А.А. Цифровая обработка речи и изображений - файл Тема 7.doc


Борискевич А.А. Цифровая обработка речи и изображений
скачать (5335.1 kb.)

Доступные файлы (16):

Литература.doc34kb.28.04.2007 17:48скачать
Содержание.doc68kb.28.04.2007 17:09скачать
тема10.doc1416kb.28.04.2007 17:42скачать
тема11.doc917kb.28.04.2007 17:47скачать
тема12.doc1926kb.28.04.2007 17:45скачать
Тема 13.doc5561kb.28.04.2007 17:46скачать
тема14.doc177kb.28.04.2007 17:46скачать
Тема 1.doc182kb.28.04.2007 17:34скачать
Тема 2.doc549kb.28.04.2007 17:41скачать
Тема 3.doc243kb.28.04.2007 17:33скачать
тема 4.doc297kb.28.04.2007 17:34скачать
Тема 5.doc1150kb.28.04.2007 17:35скачать
Тема 6.doc3287kb.28.04.2007 17:41скачать
Тема 7.doc529kb.28.04.2007 17:38скачать
Тема 8.doc985kb.28.04.2007 17:39скачать
тема 9.doc1022kb.28.04.2007 17:42скачать

Тема 7.doc

Тема 7. Методы и средства восстановления разборчивости зашумленной речи (2 часа) [2, 8, 10].

7.1. Классификация цифровых методов повышения качества и разборчивости речи

Речевые сигналы, с которыми приходится иметь дело на практике, всегда в той или иной степени зашумлены. В тех случаях, когда шум имеет значительную интенсивность, его наличие может существенно исказить результаты обработки, анализа или распознавания речи. В целом ряде других случаев, например, при анализе зашумленных записей в криминалистических целях или восстановлении аудиозаписей в архивах, задача очистки сигнала от шума носит самостоятельный характер и является единственной целью работы. Поэтому разработка методов очистки сигнала от шума является весьма актуальным направлением исследований. К настоящему времени разработано очень большое количество различных методов цифровой обработки зашумленных речевых сигналов.

Основным типом шумов, для методов, представленных в обзоре, является аддитивный шум. В целях упорядочения рассмотрения методов очистки сигнала от шума целесообразно произвести их классификацию. Основным признаком, по которому будут классифицироваться алгоритмы, является характер или тип тех закономерностей, которые служат основой для выделения речевого сигнала из смеси с шумом. В качестве вспомогательного признака будет использоваться классификация по типу того математического или алгоритмического аппарата, который использован для фильтрации. Подобная классификация, конечно, весьма условна, так как многие из рассматриваемых методов нельзя безоговорочно отнести к какой-либо одной категории. Как правило, одни и те же методы используют одновременно различные принципы, и в этом случае можно говорить лишь о преимущественном влиянии какой-либо концепции.

С учетом сделанного замечания можно выделить следующие группы:

- методов цифровой обработки зашумленных речевых сигналов:

- методы адаптивной компенсации помех;

- методы, основанные на использовании математических моделей речевых сигналов во временной области (например, авторегресионная модель речевого сигнала и рекуррентные алгоритмы оценки параметров и речевого сигнала);

- методы, основанные на использовании математических моделей речевых сигналов в частотной области (оценивание минимальной среднеквадратической ошибки, марковские модели сигнала и шума);

- методы, основанные на использовании спектральных характеристик шума (вычитание амплитудных спектров, Винеровская фильтрация);

- методы, основанные на использовании моделей искусственных нейронных сетей;

- методы, основанные на моделях восприятия речи человеком;
^ Адаптивные компенсаторы помех

Этот класс методов цифровой обработки зашумленных сигналов основан на использовании, помимо собственно зашумленного сигнала, который подлежит очистке, также одного или нескольких опорных сигналов – сигналов, которые коррелированны с шумовым сигналом и некоррелированные (или слабо коррелированные) с полезным сигналом, подлежащим выделению. С помощью опорных сигналов формируется сигнал, который является оценкой помехи. Этот сигнал затем вычитается из зашумленного сигнала и результат этой операции рассматривается как оценка не зашумленного сигнала.

На рис. 7.1 представлена схема адаптивного компенсатора помех, который использует один опорный сигнал.


Рис 7.1. Схема адаптивного компенсатора помех.
Здесь u(n) – дискретный отсчет полезного сигнала в момент времени n; n=0,1,2…; e(n) – шумовой сигнал; e1(n) – опорный сигнал; ε(n) – сигнал ошибки; u1(n) – выходной сигнал компенсатора; УУВК – устройство управления весовыми коэффициентами.

Наиболее важной частью адаптивного компенсатора помех является устройство управления весовыми коэффициентами – линейный фильтр, через который пропускается опорный сигнал e1(n). Задача адаптивной компенсации помехи e(n) сводится к подбору коэффициентов фильтра таким образом, чтобы минимизировать энергию сигнала на выходе компенсатора u1(n). В этом случае будет максимизировано выходное отношение сигнал/шум. Минимизация энергии обычно осуществляется на основе градиентных методов поиска экстремума функций многих переменных. Известно, что адаптивные компенсаторы помех позволяют значительно улучшить качество зашумленных сигналов – на несколько десятков децибел, но требование наличия опорного сигнала существенно сужает их область применения. Во многих приложениях цифровой обработки речевых сигналов (например, при реставрации архивных записей или в криминалистике), опорного сигнала, по крайней мере, в явном виде, не имеется. Поэтому для применения методов адаптивной компенсации помех опорный сигнал в таких случаях приходится получать на основе косвенных соображений, связанных с особенностями речевого сигнала, а сам адаптивный компенсатор в этом случае будет являться одной из составных частей более сложного алгоритма выделения речевого сигнала.
^ Методы, основанные на использовании статистических моделей речевых сигналов во временной области

Класс методов цифровой обработки зашумленных речевых сигналов, который основан на построении математических моделей речевых сигналов и обработке речевых сигналов с использованием этих моделей быстро развивается и в настоящее время эти методы приводят к самым успешным результатам. Задача выделения речевого сигнала из смеси с шумом в случае использования достаточно адекватной модели сводится к оценке каким-либо образом параметров этой модели и последующим синтезом или фильтрации речевого сигнала фильтром, построенным на основе или с помощью оцененных параметров.

Одними из наиболее перспективных методов в этом классе являются методы статистической фильтрации во временной области. Фильтрация речевого сигнала, моделируемого авторегрессией, осуществляется при этом методами теории оптимального оценивания, например, с помощью построения оптимального линейного фильтра (фильтра Калмана).

Вычислительно эффективная (но с менее удачным результатом обработки) реализация алгоритма фильтрации речевого сигнала, моделируемого авторегрессионной моделью с параметрами, связанными в марковскую цепь. Совместная оценка сигнала и параметров марковской цепи вычисляются рекуррентным способом с помощью алгоритма максимизации математического ожидания (expectation maximization – EM), причем для вычисления условного ожидания (expectation step) сигнала относительно наблюдений использован фильтра Калмана-Бьюси. Экспериментальные испытания на речевом сигнале в смеси с некоррелированным аддитивным белом шумом с отношениями сигнал/шум 0, 10 и 20 дб показали увеличение отношения сигнал/шум в среднем на 4 дб. Собственно фильтрация осуществляется модифицированным фильтром Винера в частотной области. Предварительные измерения (смесь речи с белым шумом) показали значительное увеличение отношения сигнал/шум: на +15 дб при начальном отношении -5 дб (соответственно, при начальном SNR +5 дб улучшение составило 11 дб).
^ Методы, основанные на обработке речевого сигнала с использованием аппарата скрытых марковских моделей

Другим классом методов обработки зашумленных речевых сигналов основанных на использовании статистических моделей речевого сигнала являются методы, в которых речевой сигнал моделируется скрытой Марковской цепью. То есть для моделирования речевого сигнала использован наиболее эффективный для распознавания речи подход. Известно, что традиционно используемые методы фильтрации (вычитание спектров или фильтр Винера) не используют фонетическую информацию, переносимую речевым сигналом. Недавние исследования показали, что знание и применение в процессе обработки фонетической структуры сигнала приводит к улучшению качества фильтрации. Поэтому вполне естественным является применение в процессе очистки речевого сигнала от шумов его статистической модели в виде скрытой марковской цепи, которая связана с фонетической структурой сигнала.

Для эффективной обработки нестационарных сегментов отдельно оценивалась Марковская модель шума. В отличие от простых моделей состояний полезного сигнала шум моделировался набором состояний, каждое из которых содержало несколько гауссовских компонент. Во время обработки зашумленного сигнала при определении отсутствия полезного сигнала выполнялось декодирование сегмента паузы процедурой Витерби для выбора оптимальной модели шума. Модель шума, обеспечивающая максимальное правдоподобие наблюдаемой последовательности использовалась далее для обработки сигнала. Для сохранения ”преемственности” между итерациями применялись инерционная схема фильтра Винера.
^ Методы, основанные на использовании, отдельных характерных свойств речевого сигнала

К методам этого типа относятся прежде всего класс методов обработки зашумленных речевых сигналов, которые используют квазипериодичность речевого сигнала. Первая группа методов использует периодичность речевых сигналов для построения адаптивного компенсатора помех, с помощью которого обрабатывается зашумленный речевой сигнал. Предполагается, что исходный речевой сигнал s(n) строго периодичен с периодом T, кратным частоте дискретизации, а случайный аддитивный шум v(n) некоррелирован с s(n). В качестве опорного сигнала для адаптивной компенсации помехи используется:
(7.1)

где

Отношение сигнал/шум может быть увеличено на 7 – 10 дб., однако разборчивость отфильтрованной речи при этом несколько понижается. Вторая группа методов, использующих периодичность звонких звуков основана на представлении сигнала в кепстральной области. В этом случае периодический характер речевого сигнала используется для синтеза адаптивной гребенки фильтров.

Исследования проведенные на синтетических гласных звуках показали, что при надлежащем выборе взвешивающих коэффициентов можно добиться значительного эффекта для улучшения восприятия речи в тех случаях, когда помеха или шум являются структурированными.

Исследования проведенные на синтетических гласных звуках показали, что при надлежащем выборе взвешивающих коэффициентов можно добиться значительного эффекта для улучшения восприятия речи в тех случаях, когда помеха или шум являются структурированными.

^ Методы, основанные на оценке спектральных характеристик шума

Наиболее часто используемыми методами, основанными на использовании спектральных характеристик шума, являются методы, реализующие различные модификации алгоритма вычитания амплитудных спектров. Блок-схема алгоритма вычитания амплитудных спектров приведена на следующем рисунке.

Рис.7.3. Блок-схема алгоритма вычитания амплитудных спектров
Исследования качества и разборчивости речи, получаемой в результате применения описанной методики, показали, что в тех случаях, когда шум или помеха имеют стационарный (или квазистационарный) характер и их спектр имеет гармоническую структуру, достигается значительное на слух повышение как качества так и разборчивости речи. Однако, в случае шумов с быстроизменяющимися спектральными характеристиками такая обработка малоэффективна.
^ Метод оценивания минимальной среднеквадратической ошибки

Описываемый алгоритм (оригинальное название Minimum Mean-Square Error estimation) впервые был предложен в работе. Как и вычитание спектров алгоритм основан на оценке амплитудного спектра сигнала и общая блок-схема алгоритма в целом соответствует рис. 7.3. Среди других методов фильтрации, предполагающих наличие только одного микрофона, алгоритмы, основанные на минимуме среднеквадратической ошибки являются одними из наиболее полезных. Их использование приводит к значительному сокращению уровня шума в сигнале без внесения остаточных искажений типа музыкальных тонов. В недавно проведенных исследованиях утверждается, что в значительной мере превосходство метода оценивания минимальной среднеквадратической ошибки над методиками типа Винеровской фильтрации или вычитания амплитудных спектров связано именно с введением априорной оценки сигнал/шум в каждой спектральной полосе. В связи с этим, были предложены модификации стандартных подходов (винеровской фильтрации, вычитания амплитудных спектров и оценок максимального правдоподобия) использующие априорные отношения сигнал/шум, что привело к существенному улучшению результатов фильтрации.
^ 7.8. Подавление аддитивного квазистационарного шума методом вычитания амплитудных спектров

В качестве типичного примера можно привести шумы кондиционеров, видеокамеры, автотрансформаторов и усилителей. Поведение алгоритма контролируется набором параметров, включая предварительно измеренные характеристики шума. Для того, чтобы пользователь смог полностью использовать все возможности, заложенные в алгоритме, предусмотрен аналоговый режим работы, когда выбор и изменение параметров и режимов обработки выполняется в ходе обработки, причем оператор контролирует качество работы метода прослушиванием обработанного сигнала.



Рис.7.4. Блок-схема алгоритма вычитания амплитудных спектров
^ 7.2. Алгоритм амплитудного спектрального вычитания
Для повышения разборчивости речи применяется алгоритм спектрального вычитания. Спектральное вычитание оценивает спектр мощности очищенного сигнала путем вычитания спектра шума из зашумленного сигнала.


Рис.7.5. Обобщенная схема алгоритма спектрального вычитания
Алгоритм спектрального вычитания состоит из следующих этапов.

Этап 1. Исходный зашумленный сигнал x(l), состоящий из чистого речевого сигнала s(l) и некоррелированного аддитивного шума d(l)
, (7.2)

где – индекс дискретизации.

Этап 2. Деление сигнала на перекрывающиеся кадры длиной .

Применение оконной функции w(l) для точного вычисления коэффициентов Фурье. Окна подавляют просачивание спектральных составляющих, которое может привести к смещению оценок амплитуд и положений гармонических составляющих сигнала.

, (7.3)

где – индекс кадра, – сдвиг от кадра к кадру, – длина кадра.

Этап 3. Дискретное преобразование Фурье

, (7.4)

где – значение k-й спектральной компоненты -го кадра зашумленного сигнала, – фазовый спектр -го кадра зашумленного сигнала, – амплитудный спектр -го кадра зашумленного сигнала, .

Этап 4. Сглаживание спектра мощности -го кадра зашумленного сигнала

(7.5)

где – значение k-й спектральной компоненты спектра мощности -го кадра зашумленного сигнала, – коэффициент сглаживания или забывания, выбираемый для предотвращения как музыкального шума, так и слишком большого искажения сигнала. Обычно лежит в пределах .

Этап 5. Оценка шума на основе отслеживания минимумов в области спеткра мощности от кадра к кадру:

(7.6)

где k-й локальный минимум спектра мощности -го кадра зашумленного сигнала

– коэффициент адаптации к локальному минимуму.

Этап 6. Спектральное вычитание шума в области амплитудного спектра:

(7.7)

где – передаточная функция фильтра подавления шума,

– улучшенный кратковременный амплитудный спектр m-го кадра,

subf – постоянная спектрального минимального уровня для ограничения максимального вычитания,

– коэффициент избыточного спектрального вычитания как функция отношения сигнал-шум кадра и частотного индекса.

Этап 7. Аппроксимационные SNR или частотное расстояние в качестве критерия качества фильтрации зашумленного сигнала для оценки параметров алгоритма спектрального вычитания:
(7.8)

(7.9)

^

7.3. Фильтрация зашумленного речевого сигнала в вейвлет области


Жесткий порог фильтрации речевого сигнала.

Жесткий порог фильтрации устанавливается для каждого уровня вейвлет разложения.

Данный порог реализуется следующим образом:

- на i-м уровне разложения вычисляется уровень порога по формуле

, (7.10)

где – значение вейвлет-отсчета с максимальной амплитудой; –количество ненулевых вейвлет-отсчетов.

В процентном соотношении данное выражение имеет вид

, (7.11)

где – величина порога в процентах;

- поэлементное сравнение всех ненулевых элементов N-го уровня с заданным порогом и обнуления всех отчетов, равных или меньше данного уровня.

Достоинства данного метода пороговой обработки:

- самая маленькая вычислительная сложность из рассмотренных методов.

Недостатки данного метода пороговой обработки:

- возможность полной потери полезного сигнала при высоком уровне

шума;

- возможность потери полезного сигнала также и при малом уровне шума.

Блок схема алгоритма фильтрации с жестким порогом представлена на рис. 7.6.


Рис. 7.6. Блок схема алгоритма фильтрации с жестким порогом
На рис. 7.7 слева представлены графики двух уровней вейвлет-разложения речевого сигнала (первого и второго детализирующего уровня и второго аппроксимационного уровня), а справа – графики вейлет-коэффициентов после пороговой обработки.





^

Рис. 7.7 Графики двух уровней вейвлет-разложения речевого сигнала и вейлет-коэффициентов после пороговой обработки



Гибкий порог фильтрации речевого сигнала.

При данном виде фильтрации для задания порога используется количественная оценка вейвлет-коэффициентов на каждом уровне разложения.

Данный метод заключается в следующем:

- на i-м уровне разложения вычисляется количество ненулевых вейвлет-коэффициентов ;

- вычисляется количество обнуляемых вейвлет-коэффициентов на i-м уровне по следующей формуле
, (7.12)

где – количество уровней вейвлет-разложения; – номер уровня разложения;

- устанавливается порядок обнуления вейвлет-коэффициентов: удаление элементов с минимальной или максимальной амплитудой.

Достоинства данного метода пороговой обработки:

- возможность достижения компромисса между качеством речевого сигнала и вычислительной сложностью;

- гибкость фильтрации зашумленного речевого сигнала.

Недостатки данного метода пороговой обработки:

- невозможность точно определить границы сигнала и шума.

Блок схема алгоритма фильтрации с гибким порогом представлена на рис. 7.8.



Рис. 7.8. Блок схема алгоритма фильтрации с гибким порогом
На рисунке 7.9 слева представлены графики двух уровней вейвлет-разложения речевого сигнала (первого и второго детализирующего уровня и второго аппроксимационного уровня), а справа – графики вейлет-коэффициентов после пороговой обработки.

^

Рис. 7.9 Графики двух уровней вейвлет-разложения речевого сигнала и вейлет-коэффициентов после пороговой обработки



Статистический метод фильтрации речевого сигнала.

Предложен эффективный метод фильтрации речевого сигнала, использующий статистику распределения амплитуды вейвлет-коэффициентов на каждом i-м уровне разложения.

Суть реализация метода заключается в следующем:

- определение на i-м уровне вейвлет-коэффициента с одинаковой амплитудой (с или без учета знака) и максимальной частотой повторения;

- обнуление данных коэффициентов на каждом i-м уровне разложения;

- повторение предыдущих шагов с учетом достижения требуемого коэффициента сжатия при сохранении приемлемого качества восстановленного речевого сигнала.

Достоинства данного метода пороговой обработки:

- улучшение коэффициента сжатия и качества восстановленного речевого сигнала;

- наименьшая потеря полезного сигнала;

- возможность эффективного устранения избыточности в частотной области;

- эффективность фильтрации шумов, с большой длительностью.

Недостатки данного метода пороговой обработки:

- высокая вычислительная сложность.

Блок схема алгоритма фильтрации статистическим методом представлена на рис. 7.10.



Рис. 7.10. Блок схема алгоритма фильтрации статистическим методом

На рис. 7.11 слева представлены графики двух уровней вейвлет-разложения речевого сигнала (первого и второго детализирующего уровня и второго аппроксимационного уровня), а справа – графики вейлет-коэффициентов после пороговой обработки.

^

Рис. 7.11 Графики двух уровней вейвлет-разложения речевого сигнала и вейлет-коэффициентов после пороговой обработки



Оценка качества восстановленного речевого сигнала.

Оценка качества речевого сигнала является важной задачей. Отношение сигнал/шум (ОСШ), являющееся одной из наиболее распространенных объективных мер для оценки качества фильтрации зашумленного речевого сигнала, задается выражением
, (7.13)
где s(n) и – выборочные значения исходного и восстановленного речевого сигнала соответственно; M – общее число выборок в пределах речевого сигнала.

Данное ОСШ является интегральной мерой качества восстановления речи. Более точной мерой, учитывающей присутствие в речевом сигнале низко амплитудных компонент, является сегментное ^ ОСШ (СЕГОСШ), основанное на вычислении кратковременного ОСШ для каждого N-точечного сегмента речи
, (7.14)

где L и N – число сегментов и отсчетов в сегменте речевого сигнала соответственно; i – номер сегмента речевого сигнала;M=LN – число отсчетов речевого сигнала, состоящего из L сегментов с N отсчетами.

Так как операция усреднения в (7.14) осуществляется после логарифмирования, то ^ СЕГОСШ более точно оценивает качество фильтрации нестационарного речевого сигнала.

На рис. 7.12 представлен график зависимости ОСШ сигнала и коэффициента сжатия при фильтрации речевого сигнала статистическим методом.

Из рис. 7.12 видно что ОСШ экспоненциально убывает с увеличением коэффициента сжатия. Например при коэффициенте сжатия 3 ОСШ равно 3,2.


Рис. 7.12. График зависимости ОСШ сигнала и коэффициента сжатия при фильтрации речевого сигнала статистическим методом
Обзор методов повышения качества и разборчивости зашумленных речевых сигналов показывает, что существует много различных подходов к обработке зашумленной речи. Такое разнообразие методов обусловлено как важностью проблемы так и отсутствием достаточно надежных методов ее решения. Объективное сравнение этих методов и выбор наиболее приемлемых сделать весьма затруднительно, так как перед системами коррекции речевых сигналов ставятся различные задачи. Например, можно в качестве главного критерия использовать повышение разборчивости речи, допуская при этом возможность искажений в тембре голоса или появление артефактов в виде структурированного шума. Можно поставить целью понижение утомляемости аудитора или сохранение натуральности голоса диктора, что достигается в основном за счет повышения качества речевого сигнала. Наконец, могут быть известны заранее важные априорные сведения, например тип или параметры шума, характеристики голоса диктора, наконец, гипотезы о произносимом тексте, что также может определяющим образом повлиять на выбор метода фильтрации. Важно отметить, что универсальных методов обработки, которые одинаково хорошо боролись бы с существенно нестационарными и стационарными, аддитивными и мультипликативными шумами, существенно повышали бы качество и одновременно разборчивость речи, сейчас нет, и возможно не будет. Как типичная (за редкими, указанными в обзоре исключениями, наблюдается обратная тенденция: если сравнивать системы обработки зашумленной речи по двум показателям - повышению качества звучания речевых сигналов и повышению разборчивости, то системы, повышающие качество и натуральность звучания, скорее всего снижают разборчивость и наоборот, повышение разборчивости приводит к понижению качества и натуральности звучания. Поэтому, многие из названных методов фильтрации нужно рассматривать как взаимодополняющие, и в идеальном случае нужно иметь библиотеку из нескольких методов фильтрации. Рассматривая последние тенденции в области обработки зашумленных сигналов, следует особенно выделить высокие результаты, полученные за счет использования математических моделей речевых сигналов, а также использование нейроподобных структур для фильтрации аддитивных стационарных шумов, хотя первые результаты в этом направлении проигрывают более традиционным методам типа минимальной среднеквадратической оценки.







Скачать файл (5335.1 kb.)

Поиск по сайту:  

© gendocs.ru
При копировании укажите ссылку.
обратиться к администрации