Logo GenDocs.ru

Поиск по сайту:  


Загрузка...

Лекции по ВМСС - файл Глава 9.doc


Загрузка...
Лекции по ВМСС
скачать (35218.7 kb.)

Доступные файлы (18):

Глава 10.doc8030kb.25.01.2005 11:05скачать
Глава 11 ВЫЧИСЛИТЕЛЬНЫЕ СИСТЕМЫ.doc2232kb.28.01.2005 20:28скачать
Глава 12.doc4356kb.29.01.2005 18:29скачать
Глава 13.doc745kb.09.03.2005 15:11скачать
Глава 14.doc605kb.11.03.2005 15:19скачать
Глава 15.doc243kb.11.03.2005 15:35скачать
Глава 16.doc498kb.11.03.2005 15:43скачать
Глава 2.doc2062kb.24.02.2005 19:16скачать
Глава 3 ЭЛЕМЕНТНАЯ БАЗА ЭВМ.doc2589kb.24.02.2005 20:00скачать
Глава 4.doc1726kb.02.03.2005 20:36скачать
Глава 5 ЦЕНТРАЛЬНЫЕ УСТРОЙСТВА ЭВМ.doc1113kb.04.03.2005 13:56скачать
Глава 6.doc1177kb.04.03.2005 18:09скачать
Глава 7 ВНЕШНИЕ УСТРОЙСТВА ЭВМ.doc918kb.09.03.2005 14:44скачать
Глава 8.doc6796kb.25.01.2005 19:33скачать
Глава 9.doc4463kb.25.01.2005 18:23скачать
ОГЛАВЛЕНИЕ.doc45kb.11.03.2005 19:02скачать
УСЛОВНЫЕ ОБОЗНАЧЕНИЯ.doc41kb.04.03.2005 14:10скачать
учебник_введение.doc53kb.25.01.2005 11:37скачать

Глава 9.doc

Реклама MarketGid:
Загрузка...
Глава 9 СИСТЕМЫ МУЛЬТИМЕДИА

9.1.Назначение и состав систем мультимедиа
В технической литературе часто встречаются различные опреде­ления понятия «мультимедиа». Наиболее полно отражает существо вопроса следующее: мультимедиа — это компьютерная информаци­онная технология, позволяющая объединять в компьютерной системе текст, звук, графические изображения и анимацию.

Согласно этому определению, основными отличительными при­знаками систем мультимедиа являются: интеграция в одном про­граммном продукте многообразных видов информации: традицион­ных (текст, таблицы, иллюстрации) и оригинальных (речь, музыка, фрагменты видеофильмов и др.) и наличие в составе компьютера спе­цифических устройств, предназначенных для работы с различными видами информации (микрофона, аудиосистемы, проигрывателя оп­тических компакт-дисков, телевизора, видеомагнитофона, цифровой видеокамеры, электронных музыкальных инструментов и др.).

Появление возможности работы с новыми видами информации при­вело к тому, что компьютер в мультимедийном исполнении стал уни­версальным устройством, перерабатывающим различные виды инфор­мации.

Числовая информация: целые со знаком, целые без знака, числа с фиксированной и плавающей точкой, двоично-десятичные числа.

Логическая информация, представляемая в виде логических пере­менных True и False (которые кодируются как 1 и 0).

Символьная информация, представленная в виде скэн-кодов кла­виатуры, кодов ASCII, Windows 1252, ANSI, кодов формы симво­лов и полей переменной длины.

Аудиоинформация (монотонный звуковой сигнал (меандр) — рав­номерный и затухающий; мелодия — гармоническая последова­тельность монотонных звуковых сигналов различной частоты и длительности; аккорд — совмещенная во времени смесь монотон­ных звуковых сигналов; звуковые эффекты; речь). Вся аудиоин­формация (в отличие от предыдущих типов) имеет динамический характер. Она существует только в режиме реального времени; ее нельзя остановить для более подробного изучения. Если изменить масштаб времени, аудиоинформация искажается. Это свойство иногда используется для получения звуковых эффектов.

Видеоинформация: статическая и динамическая. Статическая ви­деоинформация включает штриховые рисунки (к которым относятся графики, чертежи, таблицы) и полутоновые рисунки, в ко­торых форма предметов передается яркостью, освещенностью, цветом. Рисунки делятся на плоские (двухмерные) и объемные (трехмерные) и могут быть монохромными или цветными. Штриховое изображение (рисунок, текст) состоит из темных ли­ний на светлом фоне. По яркости элементы рисунка могут быть либо темными, либо светлыми — промежуточных значений в штриховом рисунке нет.

Полутоновое изображение (рисунок, фотография) состоит из эле­ментов, различающихся яркостью. Для монохромных изображений степень светлоты элементов изображения оценивается интенсивнос­тью оттенков серого. Технические средства способны различать ог­раниченное количество оттенков серого, поэтому аналоговая вели­чина — степень светлоты элемента изображения — подвергается дис­кретизации и оценивается числом по дискретной шкале серого. (Шкала серого представляет собой набор полей с оттенками серого, с одной стороны которой находится белый цвет, а с другой — черный).

Для точности передачи изображения существенное значение име­ет разрешающая способность считывающей или воспроизводящей аппаратуры, которая оценивается количеством наименьших элемен­тов изображения (пиксел или точек) на единицу длины (сантиметр или дюйм).

При считывании и отображении полутоновых изображений суще­ственное место занимает вопрос: какое количество уровней серого должна обеспечивать (воспринимать или отображать) аппаратура?

Глаз человека способен различать около 200 оттенков серого. Поэтому требовать от аппаратуры большего разрешения не следует. Для оцифровки такого количества оттенков необходимо 8 бит на каждый пиксел. Для хранения оцифрованного изображения размером 9x12 см при разрешающей способности 300 пиксел на дюйм необходи­мо около 1 Мбайта памяти.

Динамическая видеоинформация — это фильмы (видео-, мульт- и слайд-фильмы). В их основе лежит последовательное экспонирование на экране отдельных кадров вывода в соответствии со сценарием. Поэтому процесс обработки динамической видеоинформации часто называют «редактированием сценариев». Динамическая видеоинфор­мация используется либо для передачи движущихся изображений (ани­мация), либо для последовательной демонстрации отдельных кадров вывода (слайд-фильмы).

Для демонстрации анимационных и слайд-фильмов используются различные принципы. Анимационные фильмы демонстрируются так, чтобы зрительный аппарат человека не мог зафиксировать отдель­ные кадры вывода. Для этого они должны достаточно быстро сме­нять друг друга. Поскольку время экспонирования каждого кадра мало, появление на экране каждого кадра не только не фиксируетсясознанием воспринимающего их человека, но остается незамеченной даже их смена. При демонстрации более 16 кадров в секунду незамет­но даже мелькание. Если кадры содержат различные фазы движения объекта, то такая демонстрация создает впечатление перемещения объекта.

При демонстрации слайд-фильмов каждый кадр должен экспони­роваться на экране столько времени, сколько необходимо для воспри­ятия его человеком (в среднем от 30 с до 1,5 мин.).

Семантическая (смысловая) информация это информация, не имеющая ярко выраженного носителя. Считается, что носителем ее являются знаковые системы, изучаемые семиотикой. Смысл свя­зан с такими понятиями, как ум, разум, рассудок, смышленость, догадливость, понимание, постижение. Это — идеальное содержа­ние, идея, сущность, целостное содержание какого-либо высказы­вания, несводимое к значениям составляющих его частей и эле­ментов. Смысл бывает здравый, обиходный, иносказательный, переносный, скрытый, непрямой. Смышленность связана с изво­ротливостью, находчивостью, догадливостью, понятливостью.

Электронные вычислительные машины предназначены для рабо­ты со знаковыми системами. Поэтому одной из задач является обра­ботка смысла, особенно актуальная при создании систем человеко-машинного общения. При общении на естественном для человека языке от машины требуется понимание смысла высказывания человека — оператора или пользователя. Без этого невозможна адекватная реак­ция машины на даваемые ей запросы.

Поскольку в общем виде проблема машинной обработки смысла не решена, приходится применять упрощенные средства человеко-машинного общения, далекие от привычного для человека естествен­ного языка.

Эмоции это особая разновидность информации, характеризую­щая отношение субъекта (одушевленного лица) к наблюдаемым объектам, явлениям или процессам. У людей эмоции проявляются в интонациях, мимике, движениях, которые «накладываются» на язык общения и придают ему эмоциональную окраску. Эмоцио­нальная окраска сообщений может влиять на передаваемый ими смысл и в ряде случаев изменять его до противоположного. Эмо­ции запоминаются и могут возникать по ассоциации, вызывая при этом определенную настройку субъекта, формируя его отноше­ние к наблюдаемым объектам, явлениям, процессам. Эмоции мо­гут передаваться от одного субъекта к другому. Это особый вид знаний, который имеет огромное значение для живых существ.
Одна из попыток передавать эмоции нашла выражение в специ­альном языке «рожиц», применяемом при телекоммуникационном общении. В этом языке разработаны специальные символы, вставля­емые в текстовое сообщение. Например, символ «:)» обозначает улыб-ку; символ «:-)» — сарказм; символ «:(« — огорчение; символ «:-(« — не­довольство; символ «;)» — намек (подмигивание); символ «;-)» — шутку; символ «:О» — удивление, неожиданность; символ «:Q» — упрек и т.д.
Для обработки каждого вида информации существуют свои пра­вила, свои операции, своя технология и свои программно-аппаратные средства. А поскольку разные виды информации могут использоваться совместно, го возникает проблема их сопряжения и преобразования из одного вида в другой.

При работе с цифровой информацией применяются арифметические операции, операции пересылки, организации циклических вычислений.

При работе с логической информацией используются дизъюнкция, конъюнкция, отрицание равнозначности и др.

При работе с видеоинформацией необходимы такие операции, как захват изображения с экрана с загрузкой его в файл; сжатие изобра­жения и его восстановление; конструирование видеоэффектов; запись компьютерных изображений на видеомагнитофон и т.д.

При работе с семантической информацией используются такие операции, как узнавание, классификация, прогнозирование, выделе­ние существенных признаков и др.

Технология мультимедиа создает новый уровень интерактивного общения «человек — ЭВМ», когда в процессе диалога пользователь получает более обширную и разностороннюю информацию, что спо­собствует повышению эффективности профессиональной деятельно­сти, обучения и отдыха.

Применение мультимедиа привело к появлению новых источни­ков информации — электронных книг, музейных и туристических путеводителей, обучающих, консультирующих, диагностических си­стем, рекламных роликов и др.

Электронные книги это информационная интерактивная систе­ма, обеспечивающая пользователям доступ к постранично организо­ванной информации. Такие книги обычно заносятся на оптический компакт-диск. При емкости 650 Мбайт на него может быть записано около 200 000 страниц формата А4.

Электронные книги бывают следующих видов:

• мультимедиа-книги, использующие текст, аудио, статическое изоб­ражение и видео, записанные на одном носителе и организованные линейно (т.е. для последовательного воспроизведения);

• полимедиа-книги отличаются от мультимедиа-книг тем, что исполь­зуют комбинацию нескольких различных носителей ^ (CD-ROM, MD, бумага) для представления информации пользователю;

• гипермедиа-книги отличаются от мультимедиа-книг нелинейной организацией содержащейся информации, т.е. когда читателю пре­доставляется возможность, оставив основной материал, обратить­ся к уточнениям, пояснениям, комментариям и т.д.;

• телемедиа-книги, использующие возможности телекоммуникаций для поддержки распределенной интерактивной системы дистанци­онного обучения.

Специальным построением программного обеспечения в системах мультимедиа достигается эффект, который получил название вирту­альная реальность. Этот эффект воздействует на психику человека, он направлен на замену имеющейся у человека модели мира несуществующей, виртуальной моделью, в которой живут и действуют не­существующие или невоспринимаемые в реальном мире персонажи (космические монстры, привидения и др.).

Системы мультимедиа работают в реальном режиме времени, что связано с использованием в них аудио- и видеоинформации. Посколь­ку аудио- и видеоинформация имеют аналоговую природу, ввод этих видов информации в ЭВМ и их вывод требуют применения специаль­ных устройств, типы которых приведены на рис. 9.1. Как видно из рисунка, состав устройств весьма разнообразен.

^ К устройствам ввода относятся клавиатура, различные устрой­ства управления курсором (мышь, джойстик, трекбол и др.), системы ввода с машиночитаемых документов, системы ввода штриховых кодов, сканеры, цифровые фото- и видеокамеры, TV-устройства вво­да, устройства ввода акустических сигналов.

^ К устройствам вывода относятся принтеры, плоттеры, электронные экраны и панели, системы аудиовывода, устройства видеовывода.

К устройствам ввода-вывода относятся абонентские пункты, мо­демы, сенсорные дисплеи, пишущие CD (CD-R и CD-RW).

Кроме того, в состав специальных устройств систем мультиме­диа входят преобразователи информации: аналого-цифровые и циф-роаналоговые, системы распознавания, преобразователи форматов (конвертеры), системы сжатия и восстановления аудио- и видеосиг­налов, преобразователи TV-сигналов в компьютерные и обратно.



Рис. 9.1. Устройства ввода-вывода систем мультимедиа

^ 9.2. Анимационные устройства ввода-вывода
Необходимость использования специализированных технических средств для компьютерной графики и анимации (т.е. воспроизведения движущихся изображений) объясняется высокими требованиями к си­стемам отображения информации, к качеству воспроизводимого изоб­ражения. При воспроизведении статических изображений повышение качества связано с увеличением разрешающей способности экрана и улучшением цветопередачи, что, в свою очередь, требует значитель­ного увеличения видеопамяти и емкости внешних ЗУ. Необходимость работы в реальном масштабе времени при демонстрации фильмов (т.е. динамических изображений) предъявляет высокие требования к производительности ЭВМ, причем не только к производительности цен­трального процессора, но и к скорости обмена с внешними устрой­ствами. Дополнительные трудности возникают и вследствие того, что в качестве внешних устройств приходится использовать видео- и аудиоаппаратуру, в которой реализованы иные принципы представ­ления информации: информацию приходится перекодировать, что так­же требует дополнительных временных, аппаратных и программных ресурсов. Кроме того, редактирование видеоинформации, переко­дирование ее, создание видеоэффектов часто связаны с вычислитель­ной обработкой, а следовательно, с дополнительными затратами времени.

Таким образом, при использовании ЭВМ для создания и демонст­рации компьютерной графики и анимации требуются: высокая произ­водительность всего технического комплекса, специализированные преобразователи информации, технические средства для высокока­чественного отображения, ввода-вывода и хранения больших объе­мов информации.

Производительность технического комплекса определяется, с од­ной стороны, производительностью его составных частей, а с дру­гой — согласованностью составных частей, отсутствием их просто­ев из-за ожидания друг друга, совмещением во времени различных операций.

Технический комплекс (микропроцессорный комплект + интерфейс ввода-вывода + устройства ввода-вывода) представляет собой пос­ледовательно соединенную систему с параллельными ветвями со сто­роны УВВ. Производительность такой системы зависит от быстро­действия микропроцессорного комплекта, пропускной способности интерфейса ввода-вывода, производительности и способа подклю­чения УВВ, наличия специальных «ускорителей» в различных уст­ройствах, а также от принятой в системе технологии обмена инфор­мацией между отдельными частями технического комплекса (при этом нужно учитывать, что одним из элементов этого комплекса может являться человек — оператор, воспринимающий выводимую информацию и обладающий определенными параметрами, напри­мер, такими, как «время реакции» — величиной, несопоставимой с временем выполнения операций электронной частью комплекса, или «время восприятия информации», «инерционность зрения», к которым приходится подстраивать программно-технические комп­лексы.

Поскольку высококачественное изображение требует очень боль­ших объемов памяти для хранения каждого кадра изображения, для воспроизведения фильмов необходимо выводить на экран не менее 24 кадров в секунду (чтобы устранить мелькание изображения), а чело­веку необходимо для восприятия изображения не менее 30 с, для хра­нения фильмов реальной длительности в цифровом виде нужны запо­минающие устройства очень большого объема. Это удорожает такие системы и приводит к поиску способов сжатия информации, для чего нашли широкое распространение как программные, так и аппарат­ные преобразователи.

Обилие разновидностей обрабатываемой в системах компьютер­ной графики и анимации информации приводит к необходимости ис­пользования различных устройств ввода: клавиатур, систем координатного ввода, оптических читающих устройств, устройств ввода акустической информации, анимационных устройств ввода и др. и соответствующих устройств вывода информации: дисплеев, графи­ческих экранных станций, синтезаторов речи, акустических систем, анимационных устройств вывода и др.

В состав анимационных устройств ввода-вывода входят: цифро­вая фотокамера, видеокамера, видеомагнитофон и телевизор, а так­же преобразователи видеосигналов.

Основой цифровой фотокамеры обычно является ПЗС — прибор с зарядовой связью (CCD — Charge Coupled Device), преобразующий световые волны в электрические сигналы. Приборы с зарядовой свя­зью выполнены в виде матриц, содержащих от 300 до 900 тыс. эле­ментов. От количества элементов зависит разрешающая способность (так, в камерах с разрешением 640x480 используется 350 тыс. ПЗС, в камерах с разрешением 1024x768 — 810 тыс. ПЗС).

Большинство современных цифровых фотокамер имеет жидкокри­сталлический дисплей, выполняющий две функции: просмотр содер­жимого памяти и дублирование оптического видоискателя. Кроме того, на дисплей выводится экранное меню, с помощью которого выбира­ются опции работы с изображением.

Цифровая фотокамера имеет запоминающее устройство для хра­нения отснятых изображений (фотографий). В качестве ЗУ использу­ются различные типы устройств, в том числе сменные Smart-Media-карты, объем которых составляет от 2 до 8 Мбайт. В среднем на та­кую карту емкостью 2 Мбайта умещается до 10 кадров с разрешением 1024x768 или до 40 кадров с разрешением 640x480. Количество от­снятых кадров зависит не только от разрешающей способности, но и от выбора - монохромное или цветное изображение, а также от пара­метров цветного изображения (количества одновременно отображае­мых цветов). Кроме того, отснятое изображение перед записью в ЗУ сжимается. Степень сжатия также оказывает влияние на количество размещаемых в памяти кадров.

С помощью меню можно просматривать на дисплее отснятые кадры, стирать их и воспроизводить на освободившееся место новую съемку.

Большинство цифровых фотокамер используют последователь­ный порт ЭВМ для переписи отснятых изображений в компьютер.

В основе цветного телевидения лежат особенности человеческого зрения: глаз имеет ограниченную разрешающую способность — две точки, угловое расстояние между которыми меньше одной минуты, воспринимаются глазом слитно; цветовое восприятие человека субъек­тивно: слабый фиолетовый сигнал воспринимается как к расный; силь­ный (яркий) фиолетовый имеет серый оттенок.

Три цветные элементарные точки на экране образуют триаду. Для того чтобы триада воспринималась как одна точка, угловое расстояние между отдельными точками должно быть меньше одной минуты. При расстоянии от глаза до экрана в 1 м линейные размеры точек должны составлять доли миллиметра. При диагонали экрана 61 см общее число триад на экране должно быть около 500 000 (это эквива­лентно 1000 пиксел при 500 пикселных строках).

Стандарт телевидения — 525 строк на экране. При чересстрочной развертке частота смены полукадров — 50 герц. Для того чтобы ви­деосигнал мог перенести каждый элемент кадра (триаду), он должен иметь частоту (f):

f=N/2T,

где: N — число элементов изображения (триад) на экране;

Т — время передачи одного кадра (1/25 с).

Тогда

f=500 000 / (2/25)=6 250 000=6,25 МГц.

Это достаточно большая частота, но для передачи видеосигнала от телецентра к телевизионному приемнику необходима радиочасто­та примерно в 10 раз большая. Поэтому диапазон частот телевеща­ния охватывает частоты от 48,5 до 230 МГц.

Несущая частота используется как энергия для переноса инфор­мации, когда на нее накладывается видеосигнал, образуются моду­лированные радиочастотные колебания. Сам процесс наложения ви­деосигнала на несущую частоту называется модуляцией.

Полный телевизионный сигнал должен нести информацию о яр­кости, цвете изображения и звуке. Для получения устойчивого изоб­ражения на экране прорисовка каждого кадра на передающей каме­ре в телецентре и в телевизионном приемнике должна начинаться в одно и то же время, т.е. синхронно. Поэтому полный телевизион­ный сигнал включает и синхроимпульсы кадровой и строчной раз­вертки.

Видеокамера представляет собой устройство, преобразующее визуальное изображение в аналоговые электрические сигналы.

Основным блоком, воспринимающим изображение в видеокамере, является электронно-лучевой прибор, который по своему устройству напоминает электронно-лучевую трубку: в нем также имеются ка­тод, анод, сетка, отклоняющая и фокусирующая системы. Электрон­ный луч постоянно перемещается, формируя растровую развертку на специальном экране — мишени. Мишень выполнена из диэлектричес­кой пластинки (например, слюды), с одной стороны которой наклеена металлическая фольга, а с другой — напылен серебряно-цезиевый состав. Напыление производится так, что серебряно-цезиевый состав образует отдельные, электрически не связанные между собой пятна очень маленьких размеров (примерно 1000 пятен в строке и 625 строк на пластинке). Каждое такое пятно образует пиксел, т.е. наименьший элемент изображения.

В отличие от ЭЛТ мишень установлена под углом 45° к падающе­му на нее потоку электронов. Поток электронов формирует растр на поверхности мишени, покрытой серебряно-цезиевым составом. На ту же поверхность через оптическую систему проецируется изобра­жение.

Пятна серебряно-цезиевого состава с одной стороны мишени и фольга с противоположной ее стороны образуют электрические кон­денсаторы. При отсутствии изображения (вся мишень затемнена) элек­тронный луч заряжает эти конденсаторы. Когда на мишень попадает изображение, часть серебряно-цезиевых пятен засвечивается. Свет имеет электромагнитную природу: попадая на серебряно-цезиевые вкрапления, он способствует уходу из них электронов, вследствие чего соответствующие конденсаторы разряжаются, причем сила разряда пропорциональна яркости света. При повторном сканировании мишени электронный луч дозаряжает разряженные конденсаторы, в резуль­тате чего на противоположной обкладке конденсатора фиксируется возникновение электрического тока, величина которого пропорцио­нальна степени разряда элементарного конденсатора (которая, в свою очередь, зависит от яркости изображения, попавшего на этот пиксел). Сигнал, снятый с фольги на мишени, после усиления является носите­лем изображения и может быть записан на магнитный носитель или передан на приемник телевизионного изображения.

Если в таком приборе производится однократное считывание ин­формации, которое после оцифровки запоминается на магнитном но­сителе, то прибор является видеофотокамерой.

Видеомагнитофон это устройство, воспринимающее высоко­частотный телевизионный сигнал для записи его на магнитную лен­ту. После окончания записи телевизионный сигнал (хранящийся на видеокассете) может быть считан с магнитной ленты и воспроизве­ден на телевизионном устройстве.

Таким образом, видеомагнитофон — это запоминающее устрой­ство, специализирующееся на приеме, записи и воспроизведении дина­мической видеоинформации. Структурная схема видеомагнитофона приведена на рис. 9.2.

Для приема высокочастотного телевизионного сигнала служит тюнер приемник телевизионных сигналов.

Видеомагнитофон — устройство сложное и дорогое. Поэтому среди бытовой телевизионной аппаратуры появились специализированные устройства, выполняющие отдельные функции:

плеер устройство, позволяющее считывать информацию с ви­деокассеты для воспроизведения на телевизоре;

пишущий плеер устройство, позволяющее записывать видео­изображение с телевизора (который выполняет функцию тюнера) на видеокассету и считывать информацию с видеокассеты для вос­произведения ее на телевизоре.


Рис. 9.2. Структурная схема видеомагнитофона


Рис. 9.3. Принцип действия вращающихся магнитных головок
При записи на магнитную ленту осуществляется преобразование приходящего видеосигнала из временной формы в пространственную. Частотные характеристики сигнала при таком преобразовании долж­ны оставаться прежними. При ширине рабочего зазора магнитной го­ловки 0,4 микрона для записи видеосигнала с верхней граничной час­тотой 6 МГц скорость движения ленты относительно головки должна составлять 2,4 м/с. Видеокассеты с 250 м ленты при такой скорости хватит лишь на несколько минут.

Для уплотнения информации на ленте и для более полного исполь­зования ее поверхности применяются вращающиеся магнитные голов­ки. Принцип действия вращающихся магнитных головок приведен на рис. 9.3, а.

На диаметрально противоположных сторонах вращающегося ба­рабана располагаются две магнитные головки, работающие по оче­реди. Барабан имеет направление вращения под углом 6° к магнит­ной ленте (рис. 9.3, б). Благодаря этому видеодорожки на магнитной ленте наносятся под углом (штрихами). Каждый штрих соответству­ет полукадру экрана. За один полный оборот барабана записывает­ся весь кадр. Вращение барабана синхронизировано с принимаемым сигналом. Такая система позволяет сократить линейную скорость движения ленты до 2,34 см/с. Барабан вращается со скоростью 1500 об./мин. Скорость ленты относительно головок на барабане состав­ляет 5 м/с.

Помимо приема, записи и считывания видеоинформации, видео­магнитофоны могут выполнять дополнительные функции, что рас­ширяет возможности их использования и позволяет реализовать раз­личные видеоэффекты.

К дополнительным функциям относятся:

1. Регулировка скорости и направления протяжки магнитной ленты:

• стандартная скорость — 2,34 см/с;

• половинная скорость (long play) — 1,17 см/с (позволяет при записи увеличить емкость кассеты в 2 раза (для кассеты Е-240 — до 8 ч), при воспроизведении — реализовать эффект замедленного движе­ния — slow motion);

• ускоренное воспроизведение (fast motion), которое может быть реализовано за счет записи на половинной скорости, а воспроизве­дения — на стандартной;

• стоп-кадр, который реализуется за счет остановки двигателя перемотки ленты: вращающиеся магнитные головки многократ­но считывают один и тот же кадр (этот режим называется супер-паузой);

• обратное воспроизведение (reverse play).

2. Цифровые эффекты. В видеомагнитофоне может использовать­ся микропроцессорное управление, производиться оцифровка видео­сигнала, использоваться цифровая память для хранения в ней несколь­ких кадров. Это позволяет реализовать следующие эффекты:

• картинка в картинке — на экране телевизора кроме основного вы­водится один или несколько фоновых кадров. В фоновом кадре может находиться меню для управления видеомагнитофоном либо телевизором или сжатые примерно в 9 раз кадры из других теле­визионных программ. Фоновый кадр, называемый также кадром врезки, может быть выведен в любой части экрана. Есть возмож­ность быстро поменять местами фоновый и основной кадры (этафункция характерна только для видеомагнитофона и не может быть реализована в плеерах);

• воспроизведение стоп-кадров из цифровой видеопамяти (функция удобна для изучения движения, например, в спорте). Экран при этом может быть разбит на несколько частей, в каждой из которых де­монстрируется один из последовательных кадров;

• экстраэффекты — мозаика (изменение числа элементов изображе­ния на экране, например, укрупнение пиксел); соляризация (огра­ничение числа градаций уровня серого);

• цифровое шумоподавление — сопоставляются кадры, записанные на разных страницах цифровой памяти: полезные видеосигналы последовательных кадров коррелируют между собой, тогда как помехи — нет. Это позволяет очищать изображение от помех.

3. Наложение звука (audio dubbing) позволяет дублировать видео­информацию, накладывая на нее дополнительное звуковое сопровож­дение.

4. Поиск по индексу (index search) позволяет наносить на ленту специальные метки и легко находить их в режиме поиска или пере­мотки.

5. Таймер позволяет программировать видеомагнитофон на запись телепередачи в определенный момент времени (программируется мо­мент начала записи и ее продолжительность).

6. Редактирование вставкой (insert edit) позволяет сделать встав­ку в ранее записанный сюжет без образования шумов в местах сты­ков.

В телевидении используется только динамическая видеоинформа­ция. Поскольку зрение человека обладает определенной инерционно­стью, передаваемое изображение не обязательно должно быть непре­рывным, оно может состоять из отдельных кадров, сменяющих друг друга не реже 16 раз в секунду (телевизионный стандарт — 25 кад­ров/с). Воспринимается такое изображение как непрерывное. Но по­скольку телевизионное изображение для долгого хранения не предназ­начено, в телевизорах отсутствует видеопамять. Принимаемый сиг­нал направляется непосредственно на электронно-лучевую трубку, высвечивая необходимые точки экрана.

На передаваемый по радиочастотному каналу телевизионный сиг­нал действуют гораздо более сильные помехи, чем в видеотракте ПЭВМ. Поэтому при кодировании телевизионного сигнала применя­ются методы, отличные от методов кодирования сигнала изображе­ния в ЭВМ.

Для пересылки цветного изображения необходимо передавать три сигнала: R (red); G (green); В (blue). Они определяют яркость и цвет изображения. Но зрение человека более чувствительно к яркости, чем к цвету, а мелкие детали изображения по цвету почти не разли­чаются. Яркость (Y) образуется из яркостей трех основных цветов:

Y=R+G+B.

Незначительное искажение хотя бы одного из сигналов — R, G или В — приведет к изменению яркости, к которой глаз особенно чув­ствителен, а проверить, был ли искажен принятый сигнал при переда­че основных цветов, невозможно.

В телевидении с целью совместимости черно-белого и цветного изображений вместо сигналов R, G и В передаются другие три сигна­ла Y — яркость и цветоразностные сигналы — синий (В — Y) и крас­ный (R — Y). Причем эти сигналы передаются с помощью различных видов модуляции: Y — с помощью амплитудной модуляции, цвето­разностные сигналы — с помощью частотной модуляции.

В зависимости от того, как именно передаются цветоразностные сигналы, различаются две системы цветного телевидения — СЕКАМ (советско-французская) и ПАЛ (германская).

В системе СЕКАМ цветоразностные сигналы передаются через строку, поочередно, на разных несущих частотах. Причем полная информация о цвете передается в двух строках. В результате этого каждая пара строк оказывается одноцветной (но из-за чересстрочной развертки одноцветные строки не находятся рядом).

В системе ПАЛ цветоразностные сигналы передаются одновре­менно на одной поднесущей частоте со сдвигом фаз на 90°.

Преобразование телевизионных сигналов в компьютерные заклю­чается в выделении сигналов Y, B-Y, R-Y и синхроимпульсов, их очи­стке от сигналов звукового сопровождения и вычислении по ним сиг­налов R, G, В и адресов пиксел на экране. Преобразование осуществ­ляется видеоплатами (Video Blaster, Video Recorder, Video Converter), работающими с адаптером VGA или SVGA (адаптер дисплея должен иметь дополнительный внутренний разъем, к которому видеоплата подключается с помощью ленточного кабеля). Иногда видеоплаты (как, например, Tuner Blaster) имеют антенный вход, что позволяет обходиться без телевизионной аппаратуры.

Фирма Micro Computer AG выпускает полный набор аппаратно-программных средств для обработки телевизионных изображений, позволяющих записывать видеоизображение с ЭВМ на видеомагни­тофон (и считывать в память ЭВМ видеозаписи с магнитофона), вос­производить изображение из ЭВМ на телеэкране. Видеоконвертер Micro Movie позволяет оцифровывать телевизионные изображения, сохранять их в ЗУ ЭВМ для обработки графическим редактором, ис­пользования в публикациях, вставки их после редактирования и т.д.

Аппаратный набор видеоконвертера состоит из платы адаптера дисплея для IBM PC, которая объединяет возможности адаптера SVGA и адаптера Frame Grubber, оцифровывающего видеоизображение в реальном масштабе времени.
^ 9.3. Устройства ввода-вывода звуковых сигналов
Системы мультимедиа начинались со звука, который восприни­мается независимо от изображения, не наносит ущерба восприятию выводимой на экран информации, а при хорошем качестве даже дополняет ее и повышает восприимчивость пользователя, оказывает сильное психологическое воздействие на оператора, создает настрое­ние. Звуковое сопровождение служит дополнительным способом пе­редачи информации об основном и фоновом процессах, например, вос­произведение речи дает представление об индивидуальности говорящего, помогает разобраться в произношении слов; сопровождение фонового процесса звуковыми эффектами способствует возникнове­нию образного представления об особенностях их протекания, инфор­мирует пользователя о наступлении ожидаемого события, привлека­ет к себе внимание и др. (так, о появлении сообщения в электронной почте может информировать звук падающей газеты или защелкива­ние крышки почтового ящика; перекачка информации может сопро­вождаться журчанием ручейка и т.д.).

Однако звуковая (аудио или акустическая) информация имеет и самостоятельное значение. Можно выделить три направления в ис­пользовании звуковых возможностей систем мультимедиа:

бытовые системы мультимедиа используют звуковые возможно­сти ПЭВМ в обучающих, развивающих программах (обучение чте­нию, произношению, музыке); в энциклопедиях и справочниках (бы­товых — медицина, расписания движения автобусов, поездов, са­молетов, прогноз погоды, репертуар театров). В бытовых системах использование таких музыкальных редакторов, как Skream Tracker, позволяет перейти на качественно новый уровень использования аудиосистем — от пассивного восприятия музыки к активной ра­боте с музыкальными произведениями без музыкального образо­вания; к реализации цветомузыки на экране ПЭВМ;

мультимедиа бизнес-приложения используют звук в следующих целях: тренинг (профессиональные обучающие системы: иностран­ному языку, распознаванию голосов птиц, распознаванию шумов в сердце и других органах, при обучении радиотелеграфистов); презентации (например, демонстрация товара с помощью ЭВМ); проведение озвученных видеотелеконференций; голосовая почта; автоматическое стенографирование (восприятие речи и перевод ее в текстовый вид); использование голоса пользователя в целях защиты (электронные замки, доступ к программному обеспечению и информации в ЭВМ, к банковским сейфам и др.);

профессиональные мультимедиасистемы это средства произ­водства озвученных видеофильмов, домашние музыкальные студии (музыкальные редакторы типа Skream Tracker, Whacker Tracker, Ezpno и др. позволяют наиграть мелодию, выполнить ее программную обработку (изменить высоту тона, длительность звучания, тип инструмента, скорость нажатия-отпускания клави­ши, синтезировать звуковые эффекты), воспроизвести или запи­сать на стандартную звукозаписывающую аппаратуру).
^ 9.3.1. Физические основы генерации компьютерного звука
Звук — это механические колебания (вибрация) упругой среды (газ, жидкость, твердое тело).

Чистый звуковой тон представляет собой звуковую волну, под­чиняющуюся синусоидальному закону:

у = ат х sin(t)0=am x sin(2ft),
где: атмаксимальная амплитуда синусоиды;

— частота ()=2f);

f — количество колебаний упругой среды в секунду (f=1/T);

Т период;

t — время (параметрическая переменная).

Звук характеризуется частотой (f), обычно измеряемой в герцах, т.е. количеством колебаний в секунду, и амплитудой (у). Амплитуда звуковых колебаний определяет громкость звука.

Для монотонного звука (меандр) характерно постоянство ампли­туды во времени.

Затухающие звуковые колебания характеризуются уменьшением амплитуды с течением времени.

Человек воспринимает механические колебания частотой 20 Гц — 20 КГц (дети — до 30 КГц) как звуковые. Колебания с частотой менее 20 Гц называются инфразвуком, колебания с частотой более 20 КГц — ультразвуком.

Для передачи разборчивой речи достаточен диапазон частот от 300 до 3000 Гц.

Если несколько чистых синусоидальных колебаний смешать, то вид колебаний изменится — колебания станут несинусоидальными.

Особый случай, когда смешиваются не любые синусоидальные колебания, а строго определенные, частота которых отличается в 2 раза (гармоники).

Основная гармоника имеет частоту f1 и амплитуду а1 вторая гар­моника — частоту f2 и амплитуду а2 и третья гармоника — соответ­ственно f3 и а3

Причем f1,<f2<f3, а123



Р


ис. 9.4.
Последовательность прямоугольных импульсов

.

Рис. 9.5. Цифроаналоговый преобразователь

При бесконечном количестве таких гармоник образуется перио­дический сигнал, состоящий из прямоугольных импульсов (рис. 9.4).

На слух всякое отклонение от синусоиды приводит к изменению звучания


Рис. 9.6. Принцип действия измерительного АЦП
В IBM PC источником звуковых колебаний является динамик (PC Speaker), воспроизводящий частоты приблизительно от 2 до 8 КГц. Для генерации звука в PC Speaker используются прямоугольные импульсы.

Синусоидальные сигналы в ЭВМ можно получить только с помо­щью специальных устройств — аудиоплат. Без таких устройств хо­рошего качества звучания добиться не удается.

Для улучшения качества звучания необходимо к ЭВМ подключить внешнюю аппаратуру. При этом следует преобразовать дискретные сигналы ЭВМ в аналоговые сигналы аудиоаппаратуры. Такое преоб­разование можно выполнить с помощью схемы цифроаналогового преобразования (ЦАП), например, реализованной на аналоговом сум­маторе (рис. 9.5), подключаемом к параллельному интерфейсу Centronics (LPT1 или LPT2).

Поскольку ЭВМ работает с дискретными сигналами-импульсами, а звук представляет собой аналоговый (т. е. непрерывно изменяющийся) сигнал, для ввода звуковых сигналов необходимо их оцифровывать.

Способов оцифровки аналогового сигнала существует много. Рас­смотрим три из них.

1. Аналого-цифровой преобразователь (АЦП), работающий по принципу измерения напряжения.

2. Время-импульсное кодирование аналогового сигнала (клиппирование).

3. Спектральный анализатор.


Рис. 9.7. Клиппирование аналогового сигнала

Измерительные АЦП имеют принцип действия, понятный из рис. 9.6. Амплитуда аналогового сигнала измеряется через определенные проме­жутки времени — кванты. Полученные числовые значения являются цифровыми величинами, характеризующими аудиосигнал. Величина промежутков времени, через которые производится измерение амплиту­ды аудиосигнала, называется шагом квантования, а сам процесс — оциф­ровкой звука.

Клиппирование аналоговых сигналов заключается в фиксации моментов времени, когда акустический сигнал, увеличиваясь, дости­гает верхней критической (заранее определенной) амплитуды (ВКА) и, уменьшаясь, — нижней критической амплитуды (НКА).

Значения верхней и нижней критических амплитуд подбираются экспериментально. Весь остальной процесс клиппирования выполня­ется по строгому алгоритму:

• при достижении увеличивающимся аналоговым сигналом уровня верхней критической амплитуды фиксируется время, и цифровой выход включается в 1;

• при достижении уменьшающимся аналоговым сигналом НКА фик­сируется время, а цифровой выход переключается в 0. Графически этот процесс представлен на рис. 9.7.

По накопленным значениям ti. и соответствующим им значениям цифрового выхода определяются временные параметры аналогового сигнала: длительность импульсов и длительность пауз, которые и яв­ляются цифровыми значениями аналогового сигнала.

Аналого-цифровое преобразование на основе спектрального ана­лиза заключается в том, что звуковые колебания сложной формы рас­кладываются на ряд гармоник. Частоты и амплитуды, характеризу­ющие гармонические составляющие аудиосигнала, и являются оциф­рованным звуком.

Для преобразования звукового сигнала в цифровой код использу­ются специальные устройства ввода (рис. 9.8), расположенные на зву­ковой плате (аудиоплате).



Рис. 9.8. Преобразователь акустического сигнала в цифровой код

Обычно звуковая плата состоит из трех модулей: модуля оцифро­ванного звука, многоголосного частотного синтезатора (Freguency Modulation Synthesizer) и модуля интерфейсов внешних устройств.

Модуль оцифрованного звука предназначен для цифровой записи, воспроизведения и обработки оцифрованного звука.

В его состав входят аналого-цифровой и цифроаналоговый пре­образователи и усилитель. Модуль позволяет преобразовывать вво­димый аналоговый сигнал в цифровую форму, записывать его в опе­ративную память ЭВМ, проводить обратное преобразование оцифро­ванного звука из памяти ЭВМ в аналоговую форму, усиливать его по мощности для последующего вывода на внешний динамик или голов­ные телефоны. В состав модуля часто входит микшер для смешива­ния сигналов с линейного входа и с микрофона.

Многоголосный частотный синтезатор предназначен для гене­рации звуковых сигналов сложной формы. Существуют два принци­пиально различных способа синтеза звуковых сигналов:

• частотный синтез (FM — Freguency Modulation);

• волновой синтез (WS — Wave Synthesys).

Частотные синтезаторы генерируют звуковые колебания сину­соидальной формы заданной частоты и амплитуды, благодаря чему значительно улучшается качество звука (по сравнению с попытками генерировать звук с помощью прямоугольных колебаний). Наличие нескольких генераторов позволяет использовать эти устройства для синтеза сложных звуковых сигналов, в том числе речи.

Волновой синтезатор имеет запоминающее устройство, в кото­рое записаны образцы звучания различных музыкальных инструмен­тов в виде волновых таблиц или алгоритмов. Генерация звука заклю­чается в воспроизведении оцифрованной записи звука, полученной при игре на соответствующем инструменте. Волновые таблицы позволя­ют учесть особенности звучания различных инструментов, но набор их не является исчерпывающе полным. При работе под Windows ре­зультат волнового синтеза оформляется в файлы с расширением Wav.

Сопряжение ЭВМ с электромузыкальными инструментами осу­ществляется с помощью интерфейса электромузыкальных инструмен­тов (MIDI — Musical Instruments Digital Interface).

В состав стандарта MIDI входят: стандарт электрический, стандарт на протоколы обмена данными, драйверы устройств и звуковые файлы.

В соответствии со стандартом MIDI ЭВМ передает в звуковую пла­ту номер музыкального инструмента, номер ноты, характеристику игры музыканта (длительность, сила и способ нажатия клавиши). Эти же дан­ные хранятся и в MIDI-файлах. MIDI-файлы не содержат звуков, в связи с чем по размеру они значительно меньше звуковых файлов. Звуки нахо­дятся в звуковых библиотеках. При использовании MIDI-музыки необ­ходимо иметь таблицу музыкальных инструментов (состав таблицы не стандартизован), в которой указываются номера инструментов (исполь­зуемые затем в MIDI-файлах) и их название.

Модуль интерфейсов внешних устройств может включать в себя интерфейс для подключения CD-ROM, игровой порт и др.

Основные характеристики звуковой карты — разрядность, часто­та дискретизации, количество каналов (моно, стерео), функциональ­ные возможности синтезатора и совместимость.

Под разрядностью звуковой карты понимается количество бит, используемых для кодирования цифрового звука. 8-битовые карты обеспечивают качество звука, близкое к телефонному, 16-битовые — обеспечивают звучание, близкое к студийному.

Частота дискретизации определяет, сколько раз в секунду про­изводится измерение амплитуды аналогового сигнала. Чем больше частота дискретизации, тем точнее оцифрованный звук будет соот­ветствовать исходному. Но при каждом измерении формируется 8-или 16-битовый код измеренного значения (1 или 2 байта), в связи с чем этот параметр оказывает сильное влияние на требуемый для хра­нения оцифрованного звука объем памяти. Для записи/воспроизведе­ния речи достаточно иметь частоту дискретизации 6—8 КГц, для му­зыки среднего качества — 20—25 КГц, для высококачественного зву­ка — не менее 44 КГц.

Звуковые карты, обеспечивающие работу со стереофоническим звуком, имеют два одинаковых канала, тогда как для работы с моно­звуком требуется более простая карта. Стереозвук, кроме того, тре­бует вдвое большего объема памяти.

Функциональные возможности карты характеризуют наличие на ней специальных комплектов микросхем: FM-синтезатора, обеспечи­вающего частотный синтез звука; WT-синтезатора, обеспечивающе­го волновой синтез звука (при котором образцы звучания инструмен­тов могут быть записаны в файле вместе с волновыми таблицами (например, формат WAV) или могут находиться в ЗУ звуковой карты (например, формат MID)). Кроме того, большое значение имеют воз­можности синтезаторов по обработке звуков (количество голосов, модуляция, фильтрование и др.), наличие аппаратных ускорителей (спецпроцессоров) и аппаратных средств сжатия/восстановления, воз­можность загрузки новых образцов звучания инструментов и др.

Совместимость обычно оценивается по отношению к моделям Sound Blaster фирмы Creativ Labs: SB Pro и SB 16. SB Pro — это 8-битовая карта, обеспечивающая запись/воспроизведение одного ка­нала с частотой дискретизации 44,1 КГц либо двух каналов с часто­той дискретизации 22,05 КГц; имеет FM- и WT-синтезаторы. SB 16— 16-битовая карта, допускает запись/воспроизведение стереозвука с частотой дискретизации от 8 до 44,1 КГц; имеет автоматическую ре­гулировку уровня записи с микрофона и программную регулировку тембра; в ее состав входят FM- и WT-синтезаторы.

Для сравнения приведем характеристики двух звуковых карт.

Карта AMD Interleave имеет 32 голоса, частоту дискретизации до 48 Кгц, встроенное ПЗУ емкостью 1 Мбайт с инструментами стандар­та General MIDI (GM) и шестью наборами ударных инструментов стан­дарта Roland General Standart (GS). Имеет возможность расширения за счет установки модулей ОЗУ емкостью до 8 Мбайт, эффект — процес­сора. При наличии ОЗУ обеспечивается аппаратная совместимость со звуковыми картами GUS (Gravis Ultrasound Standart).

Звуковая карта A WE32 производства Creative Labs предназначе­на для записи и воспроизведения высококачественного стереозвука, обеспечивает 8- и 16-битовое кодирование оцифрованного звука, ча­стоту дискретизации от 5 до 44 КГц, имеет программируемый сиг­нальный процессор, позволяющий работать со звуком в реальном масштабе времени и осуществляющий в этом режиме сжатие/восста­новление звуковых файлов, 20-голосый FM-стереосинтезатор, WT-синтезатор, работающий в соответствии со стандартами GM, GS и МТ-32 (Sound Canvas Multi-Timbral-32) с ПЗУ емкостью 1 Мбайт, в котором содержится 128 GM-совместимых инструментов и 10 GS-co-вместимых наборов ударных инструментов. Карта обеспечивает од­новременное воспроизведение 32 голосов, имеет цифровой десятика-нальный стереомикшер, оперативное ЗУ емкостью 512 Кбайт для до­полнительных пользовательских библиотек звуков (память может быть расширена до 28 Мбайт). Предусмотрена возможность расши­рения дополнительным табличным синтезатором Wave Blaster II для получения 64-голосовой полифонии и еще 10 наборов ударных. Имеется интерфейс для подключения CD-ROM, встроенный усилитель мощности (4 Вт на канал), разъем для подключения голосового моде­ма, обеспечивается работа в стандарте Plug&Play



Рис. 9.9. Структура задач речевого общения
.

^ 9.3.2. Ввод в ЭВМ и машинный синтез речи
Особое место в системах мультимедиа занимает использование аудиоаппаратуры для речевого общения. Структура задач речевого общения приведена на рис. 9.9.
Для распознавания и понимания речи дикторов необходимо ввес­ти речевые сигналы в ЭВМ с помощью акустических устройств вво­да и проанализировать вводимую речь.

Системы речевого ввода делятся на два типа по характеру рас­познаваемой речи:

• системы, ориентированные на восприятие отдельных слов;

• системы, воспринимающие связную речь.

Разница между ними весьма существенна, так как при слитном произношении слов изменяется их звучание.

При анализе отдельных слов (команд) осуществляется их оциф­ровка, идентификация и инициируется выполнение программы, отра­батывающей принятую команду. Этот же режим используется и для речевого ввода цифровой информации; в этом случае после иденти­фикации введенное слово преобразуется в соответствующий код ASCII (за счет чего достигается существенное сжатие речи). Фирма «Курцвейл» выпускала по этому принципу устройство Voice Writer, которое распознавало около 10000 отдельно произнесенных английс­ких слов и печатало их на принтере.

Сегодня практически отсутствуют устройства для ввода динами­чески развивающихся звуковых сцен. Устройства ввода и програм­мы-анализаторы не позволяют выделить эмоциональную составляю­щую речи, которая значительно корректирует смысл (и может даже изменить его до противоположного). Чаще всего эмоциональная со­ставляющая рассматривается как помеха (за исключением систем контроля эмоционального состояния). Как дополнительный источник информации эмоциональная окраска голоса (и введенного сообщения) в настоящее время не используется.

Системы речевого вывода называются синтезаторами речи.

Существуют три основных технологически различных подхода к проблеме синтеза речи:

• метод сжатия-восстановления формы сигналов;

• аналоговый метод синтеза формантных частот;

• цифровое моделирование голосового тракта.

Первый методсамый простой. ЭВМ в этом случае служит как цифровой магнитофон. Фразы и слова записываются раздельно и вы­бираются для воспроизведения в нужный момент по командам, по­ступающим от соответствующей программы. В такой системе невоз­можно воспроизвести слово, которое не было заранее записано.

Для хранения оцифрованной речи требуется память большого объе­ма, так как хранить необходимо каждое слово из лексикона ЭВМ с учетом различных падежных окончаний, рода («пошел-пошла-пошло»), числа и т.д. Но зато качество воспроизведения речи очень высокое.

Разновидностью синтезаторов этого типа являются автоответчи­ки, построенные из ЭВМ и Voice-модема; речевая телепочта (переда­ча речевого сообщения по вычислительным сетям).

Считается, что этот метод эффективен, когда словарный запас невелик — не превышает 10—15 слов (например, говорящий прибор­ный щиток автомобиля, говорящие часы, калькулятор, календарь).

Второй метод использует принципы акустического моделирова­ния голосового тракта человека. Речь составляется из формантных частотных полос, которые создаются полосовыми фильтрами. Суммар­ный выходной сигнал формантных фильтров достаточно близко соот­ветствует частотному спектру человеческой речи. Но такая речь зву­чит, как голос робота, разборчивость ее оставляет желать лучшего.

Этот метод универсален: с его помощью можно синтезировать любые слова, иметь неограниченный словарь, так как речь создается из отдельно генерируемых звуков. Синтезатор может быть реализо­ван программным путем.

Наиболее распространенный способ возбуждения синтезатора формантных частот состоит в использовании отдельных, поддающихся идентификации звуков речи, называемых фонемами.

Фонемный синтезатор образует последовательность фонем, кото­рая при воспроизведении на акустическом устройстве вывода звучит как речь.

Фонемный синтез речи практически не требует дополнительной аппаратуры; он может быть реализован на ЭВМ стандартной конфи­гурации программным путем.

Речь разделяется на отдельные элементарные части — фонемы. Например, в английском языке выделяются такие фонемы для глас­ных звуков, как ее, i, eh и др. (табл. 9.1).

^ Таблица 9.1 Фонемы гласных звуков английского языка

Фонема


Произношение


F1


F2


fз


ее


feet


250


2300


3000


i


hid


375


2150


2800


eh


head


550


1950


2600


ае


had


700


1800


2550


ah


tot


775


1100


2500


aw


talk


575


900


2450


u


took


425


1000


2400


oo


tool


275


850


2400


F1,F2,F3три основные формантные частоты, наблюдаемые в спектрограм­ме при произношении средним мужским голосом.
Однако кроме гласных в речи человека существуют фрикатив­ные, взрывные и носовые согласные. Помимо этого каждая фонема имеет вариации — аллофоны.

В русском языке согласные фонемы бывают мягкие и твердые, глухие и звонкие (шумные, сонорные, губные, зубные, альвеолярные, велярные).

Третий метод использует словарь, который создается голосом человека, но в память записывается не оцифрованный акустический сигнал, а его частотные параметры, при этом уменьшается объем памяти, занимаемый словарем. Синтез же речи производится интег­ральными микросхемами, генерирующими заданный набор частот с заданными амплитудами и смешивающими их.
^ 9.3.3. Программное обеспечение для работы со звуковой информацией
Для работы со звуковой информацией необходимо соответствую­щее программное обеспечение: музыкальные редакторы, «говорящие машины», речевые и аудиоредакторы.

Музыкальные редакторы служат для:

1) ввода звукового эффекта в ОП ЭВМ:

• с нотного листа (кодированием нотной записи с помощью клавиа­туры);

• подбором мелодии по слуху;

• загрузкой мелодии с внешнего носителя (магнитофона, радиопри­емника, телевизора);

2) воспроизведения мелодии при нажатии клавиш ЭВМ (режим кла­весина);

3) автоматической нотной записи вводимой мелодии;

4) оформления мелодии в виде программы для включения ее в со­став презентации или использования для индикации хода вычислитель­ного процесса;

5) воспроизведения мелодии на акустическом устройстве вывода или на профессиональной аппаратуре, подключенной к ПЭВМ;

6) профессиональной обработки введенной мелодии (оркестровка, аранжировка), вывода нотной записи;

7) машинного синтеза музыки;

8) оформления мелодии видеоэффектами на экране ЭВМ (цвето­музыка, многоканальная индикация громкости).

Простые музыкальные редакторы обеспечивают одноголосое вос­произведение и имеют простое управление, ориентированное на не­подготовленного пользователя (MUSMAKER — МГУ, редактор ме­лодий PIANOMAN).

Более сложные редакторы (Scream Tracker, Whacker Tracker, Ezpno) ориентированы на пользователей, имеющих представление о принци­пах создания музыкальных произведений (в том числе многоголосой музыки).

Задача всякого редактора «Для начинающих» обычно состоит в том, чтобы помочь преодолеть страх новичка перед «чистым листом» и быстро перейти к самостоятельному творчеству. Назначение му­зыкального редактора для домашнего компьютера — помочь челове­ку «услышать свою внутреннюю музыку» (т.е. свое представление о том, что он хочет получить).

Музыкальные редакторы предоставляют для начала работы бло­ки, более крупные, чем отдельные ноты.

Музыкальный редактор Scream Tracker (ST) поддерживает соб­ственный формат цифровой музыки и формат *.Mod, предназначен-

ный для программной имитации частотного синтеза с использовани­ем волновых таблиц и алгоритмов.

ST является freeware-продуктом фирмы PSI. Выпущена третья версия (ST3) этого редактора, но дальнейшую работу по совершенствованию и развитию данной программы фирма не ведет. ST реализован под DOC.

В конце 1995 г. московская фирма «Элекай» (разработчик) совме­стно с фирмой «Русс» (разработчик и издатель) выпустила «развле­кающий и обучающий» программный продукт, предназначенный для сочинения музыки, — «Маэстро». Он может использоваться как лю­бителями, так и профессионалами на достаточно мощном IBM-совме­стимом мультимедийном компьютере.

Музыкальный редактор позволяет работать с ним человеку, ко­торый не имеет понятия о нотах, а свою «внутреннюю» музыку если и слышит, то довольно смутно.

В «Маэстро» реализованы алгоритмы «искусственного интеллек­та», позволяющие создавать гармоничную, порой неожиданную му­зыку. Интеллектуальность компьютера помогает «навести» челове­ка на новую музыкальную тему, оформить ее.

Музыкальный редактор Band-in-a-Box оперирует понятием «стиль», под которым понимается некоторый набор готовых музыкальных фраг­ментов. Создавая свою композицию, пользователь расставляет на каж­дом канале и для каждого отрезка времени свои параметры: какой фраг­мент использовать, каким инструментом, в какой гамме и с какой ско­ростью его играть. В память машины можно ввести мелодию, наигранную на клавиатуре. Можно играть и во время исполнения ком­пьютером композиции, используя возможности ЭВМ как «электронный аккомпанемент»; при этом программа «подыгрывает» человеку (кото­рый является ведущим), пока он активен и импровизирует в паузах.

Говорящие машины и речевые редакторы используются для вос­произведения речи по введенному тексту и для настройки ПЭВМ (громкость, тембр, скорость звучания, мужской-женский голос и т.д.).

Обычно говорящие машины загружаются в операционную систему и остаются резидентами. Обращение к ним осуществляется нажатием «горячих клавиш». При использовании говорящей машины в целях обу­чения (например, произношению) она может «проговаривать» всю тек­стовую информацию, возникающую на экране. Но такое использова­ние говорящей машины значительно снижает производительность ЭВМ.

Речевые редакторы позволяют перенастраивать режимы работы говорящей машины, воспроизводить на экране осциллограмму речи, ставить метки на осциллограмме, воспроизводить речь между постав­ленными метками, вырезать и вставлять речевые фрагменты и т.д.

Аудиоредакторы не специализируются на каком-либо виде звуко­вой информации. Функции у них такие же, как и у речевых редакто­ров, только без настройки говорящей машины. В состав Windows вхо­дят такие аудиоредакторы, как Sound Recorder и Mediapleer.
Контрольные вопросы

1. Назовите отличительные признаки систем мультимедиа.

2. Какие виды информации способен переработать мультимедийный компьютер?

3. Чем различаются штриховой и полутоновой рисунки?

4. Что собой представляет «шкала серого»?

5. Какие виды информации относятся к динамической?

6. Чем различаются принципы демонстрации анимационных и слайд-фильмов?

7. Что характеризует семантическую информацию?

8. В каких случаях возникает необходимость в учете эмоций как раз­новидности информации?

9. Какие операции используются при обработке различных видов ин­формации?

10. Какие черты характеризуют электронные книги как источник ин­формации?

11. Какие устройства позволяют вводить в ЭВМ движущиеся изобра­жения?

12. За счет чего на относительно короткую магнитную ленту удает­ся записывать требующие большого объема памяти анимацион­ные фильмы?

13. Какие способы оцифровки аналоговых сигналов вам известны?

14. Каким образом осуществляется синтез речи в электронных вычис­лительных машинах?








Скачать файл (35218.7 kb.)

Поиск по сайту:  

© gendocs.ru
При копировании укажите ссылку.
обратиться к администрации
Рейтинг@Mail.ru