Logo GenDocs.ru

Поиск по сайту:  


Загрузка...

Лекции по информатике - файл Классификация и кодирование информации.doc


Загрузка...
Лекции по информатике
скачать (1321 kb.)

Доступные файлы (15):

Алгоритм.doc77kb.12.11.2009 00:00скачать
Архитектура ПК.doc239kb.11.11.2009 21:44скачать
Информационная глобальная сеть Интернет.doc95kb.11.11.2009 22:16скачать
Информация и данные.doc52kb.11.11.2009 18:33скачать
Классификация и кодирование информации.doc70kb.11.11.2009 19:09скачать
Компьютерные сети.doc110kb.11.11.2009 22:40скачать
Операционные системы.doc101kb.11.11.2009 22:58скачать
Особенности работы со службами Интернета.doc77kb.12.11.2009 12:53скачать
Программное обеспечение.doc69kb.12.11.2009 00:02скачать
Программное обеспечение работы в Интернет.doc116kb.12.11.2009 12:18скачать
Службы Интернета.doc132kb.12.11.2009 12:46скачать
Текстовый процессор.doc571kb.11.11.2009 21:25скачать
Файл.doc535kb.11.11.2009 21:40скачать
Электронная таблица.doc118kb.11.11.2009 20:39скачать
Язык программирования.doc132kb.12.11.2009 11:55скачать

Классификация и кодирование информации.doc

Реклама MarketGid:
Загрузка...
Классификация и кодирование информации: система классификации (классификатор, реквизит). Методы классификации. Кодирование информации. Формулы Шеннона, Хартли.

Целевая функция информации (ее прагматический аспект) характеризуется способностью влиять на процессы управления, на соответствующее целям управления поведением людей. В этом, по существу, и состоит полезность или ценность информации. Информация охватывает все сферы, все отрасли общественной жизни, прочно входит в жизнь каждого человека, воздействует на его образ мышления и поведение. Она обслуживает общение людей, социальных групп, классов, наций и государств, помогает людям овладеть научным мировоззрением, разбираться в многообразных явлениях и процессах общественной жизни, повышать уровень своей культуры и образованности, усваивать и соблюдать законы и нравственные принципы. Огромную, ничем незаменимую роль выполнят информация в управленческой деятельности. По существу, без информации не может быть и речи о любом виде управления, о целенаправленной деятельности взаимосвязанных объектов и систем.

В настоящее время разнообразная по своему значению информация, зафиксированная на специальных носителях, стала национальным богатством нового типа - информационным ресурсом государства.
В информационных системах выполняются классификация и кодирование информации с целью однозначной идентификации классификационных группировок и сжатия информации.

Классификация – это разделение множества объектов на подмножества по их сходству или различию в соответствии с принятыми методами. Классификация фиксирует закономерные связи между классами объектов. Под объектом понимается любой предмет, процесс, явление материального или нематериального свойства. Система классификации позволяет сгруппировать объекты и выделить определенные классы, которые будут характеризоваться рядом общих свойств. Таким образом, совокупность правил распределения объектов множества на подмножества называется системой классификации.

Свойство или характеристика объекта классификации, которое позволяет установить его сходство или различие с другими объектами классификации, называется признаком классификации. Например, признак "роль предприятия-партнера в отношении деятельности объекта автоматизации" позволяет разделить все предприятия на две группы (на два подмножества): "поставщики" и "потребители". Множество или подмножество, объединяющее часть объектов классификации по одному или нескольким признакам, носит название классификационной группировки.

Классификатор — это документ, с помощью которого осуществляется формализованное описание информации в ИС, содержащей наименования объектов, наименования классификационных группировок и их кодовые обозначения.

По сфере действия выделяют следующие виды классификаторов: международные, общегосударственные (общесистемные), отраслевые и локальные классификаторы.

Международные классификаторы входят в состав Системы международных экономических стандартов (СМЭС) и обязательны для передачи информации между организациями разных стран мирового сообщества.

Общегосударственные (общесистемные) классификаторы, обязательны для организации процессов передачи и обработки информации между экономическими системами государственного уровня внутри страны.

Отраслевые классификаторы используют для выполнения процедур обработки информации и передачи ее между организациями внутри отрасли.

Локальные классификаторы используют в пределах отдельных предприятий.

Каждая система классификации характеризуется следующими свойствами:

  • гибкостью системы;

  • емкостью системы;

  • степенью заполненности системы.

Кодирование текстовой информации.

В традиционных кодировках для кодирования одного символа используется 8 бит. Легко подсчитать по формуле 2.3, что такой 8-разрядный код позволяет закодировать 256 различных символов.

Присвоение символу определенного числового кода - это вопрос соглашения. В качестве международного стандарта принята кодовая таблица ASCII (American Standard Code for Information Interchange), кодирующая первую половину символов с числовыми кодами от 0 до 127 (коды от 0 до 32 отведены не символам, а функциональным клавишам). Данную таблицу можно найти в любом учебном пособии по информатике.

Национальные стандарты кодировочных таблиц включают международную часть кодовой таблицы без изменений, а во второй половине содержат коды национальных алфавитов, символы псевдографики и некоторые математические знаки. К сожалению, в настоящее время существуют пять различных кодировок кириллицы (КОИ8-Р, Windows, MS-DOS, Macintosh и ISO), что вызывает дополнительные трудности при работе с русскоязычными документами.

Хронологически одним из первых стандартов кодирования русских букв на компьютерах был КОИ8 ("Код обмена информацией, 8-битный"). Эта кодировка применялась еще в 70-ые годы на компьютерах серии ЕС ЭВМ, а с середины 80-х стала использоваться в первых русифицированных версиях операционной системы UNIX.

Наиболее распространенной в настоящее время является кодировка Microsoft Windows, обозначаемая сокращением CP1251 ("CP" означает "Code Page", "кодовая страница").

От начала 90-ых годов, времени господства операционной системы MS DOS, остается кодировка ^ CP866. Компьютеры фирмы Apple, работающие под управлением операционной системы Mac OS, используют свою собственную кодировку Mac. Кроме того, Международная организация по стандартизации (International Standards Organization, ISO) утвердила в качестве стандарта для русского языка еще одну кодировку под названием ISO 8859-5.

В конце 90-ых годов появился новый международный стандарт Unicode, который отводит под один символ не один байт, а два, и поэтому с его помощью можно закодировать не 256, а 65536 различных символов. Полная спецификация стандарта Unicode включает в себя все существующие, вымершие и искусственно созданные алфавиты мира, а также множество математических, музыкальных, химических и прочих символов.

Пример. Представьте в форме шестнадцатеричного кода слово "ЭВМ" во всех пяти кодировках. Воспользуйтесь таблицами CP866, Mac и ISO и компьютерным калькулятором для перевода чисел из десятичной в шестнадцатеричную систему счисления.

Последовательности десятичных кодов слова "ЭВМ" в различных кодировках составляем на основе кодировочных таблиц:
КОИ8-Р: 252 247 237

CP1251: 221 194 204

CP866: 157 130 140

Mac: 157 130 140

ISO: 205 178 188

Переводим с помощью калькулятора последовательности кодов из десятичной системы в шестнадцатеричную:

КОИ8-Р: FC F7 ED

CP1251: DD C2 CC

CP866: 9D 82 8C

Mac: 9D 82 8C

ISO: CD B2 BC

^ Кодирование графической информации.

Графические изображения, хранящиеся в аналоговой (непрерывной) форме на бумаге, фото- и кинопленке, могут быть преобразованы в цифровой компьютерный формат путем пространственной дискретизации. Это реализуется путем сканирования, результатом которого является растровое изображение. Растровое изображение состоит из отдельных точек (пикселей - англ. pixel образовано от словосочетания picture element, что означает элемент изображения), каждая из которых может иметь свой цвет.

Качество растрового изображения определяется его разрешением (количеством точек по вертикали и по горизонтали) и используемой палитрой цветов (16, 256, 65536 цветов и более).

Из данной формулы можно определить какое количество бит информации необходимо выделить для хранения цвета точки (глубину цвета I) для каждой палитры цветов (N - количество отображаемых цветов).

N=2I

Пример. Определить объем видеопамяти компьютера, который необходим для реализации графического режима монитора с разрешающей способностью 1024*768 точек и палитрой из 65536 цветов (High Color).

Глубина цвета составляет: I = log265 536 = 16 бит

Количество точек изображения равно: 1024*768 = 786 432

Требуемый объем видеопамяти равен:

16 бит *786 432 = 12 582 912 бит = 1,2 Мбайта

Важнейшими характеристиками монитора являются размеры его экрана, которые задаются величиной его диагонали в дюймах (15", 17", 21" и т.д.) и размером точки экрана (0,25 мм или 0,28 мм), а разрешающая способность экрана монитора задается количеством точек по вертикали и горизонтали (640 на 480, 800 на 600 и т.д.). Следовательно, для каждого монитора существует физически максимально возможная разрешающая способность экрана.

^ Кодирование звуковой информации.

В аналоговой форме звук представляет собой волну с непрерывно меняющейся амплитудой и частотой. При преобразовании звука в цифровую дискретную форму производится временная дискретизация, при которой в определенные моменты времени амплитуда звуковой волны измеряется и квантуется, т.е. ей присваивается определенное значение из некоторого фиксированного набора. Данный метод называется еще импульсно-кодовой модуляцией PCM (Pulse Code Modulation).

Преобразование непрерывной звуковой волны в последовательность звуковых импульсов различной амплитуды производится с помощью аналого-цифрового преобразователя размещенного на звуковой плате. Современные 16-битные звуковые карты обеспечивают возможность кодирования 65536 различных уровней громкости или 16-битную глубину кодирования звука. Качество кодирования звука зависит и от частоты дискретизации - количества измерений уровня сигнала в единицу времени. Эта величина может принимать значения от 8 до 48 кГц.

Пример. Оцените информационный объем высококачественного стереоаудиофайла длительностью звучания 1 секунда, если "глубина" дискретизации 16 бит, а частота 24 кГц.

Информационный объем звукового файла длительностью в 1 секунду равен: 16 бит *24 000 = 384000 бит 47 Кбайт

Соответственно, чтобы узнать информационный объем файла, длительностью 1 минуту, нужно умножить полученное число на 60.

^ Формула Шеннона.

Количество информации как мера уменьшения неопределенности знаний. Информацию, которую получает человек, можно считать мерой уменьшения неопределенности знаний. Если некоторое сообщение приводит к уменьшению неопределенности наших знаний, то можно говорить, что такое сообщение содержит информацию.

Сообщения обычно содержат информацию о каких-либо событиях. Количество информации для событий с различными вероятностями определяется по формуле, которую предложил К.Шеннон в 1948 году:



где I - количество информации, N - количество возможных событий, pi

вероятности отдельных событий.

Если события равновероятны, то количество информации определяется по формуле:



или из показательного уравнения: N = 2I.

^ Единицы измерения количества информации. За единицу количества информации принят 1 бит - количество информации, содержащееся в сообщении, уменьшающем неопределенность знаний в два раза.

Принята следующая система единиц измерения количества информации:

1 байт = 8 бит

1 Кбайт = 210 байт

1 Мбайт = 210 Кбайт = 220 байт

1 Гбайт = 210 Мбайт = 220 Кбайт = 230 байт

Пример. После экзамена по информатике, который сдавали ваши друзья, объявляются оценки ("2", "3", "4" или "5"). Какое количество информации будет нести сообщение об оценке учащегося A, который выучил лишь половину билетов, и сообщение об оценке учащегося B, который выучил все билеты.

Опыт показывает, что для учащегося A все четыре оценки (события) равновероятны и тогда количество информации, которое несет сообщение об оценке можно вычислить по формуле 2.2:

I = log24 = 2 бит

На основании опыта можно также предположить, что для учащегося B наиболее вероятной оценкой является "5" (p1 = 1/2), вероятность оценки "4" в два раза меньше (p2 = 1/4), а вероятности оценок "2" и "3" еще в два раза меньше (p3 = p4 = 1/8). Так как события неравновероятны, воспользуемся для подсчета количества информации в сообщении формулой 2.1:

I = -(1/2·log21/2 + 1/4·log21/4 + 1/8·log21/8 + 1/8·log21/8) бит = 1,75 бит

Вычисления показали, что при равновероятных событиях мы получаем большее количество информации, чем при неравновероятных событиях.

Формула Р. Хартли. Пусть имеется N состояний системы S или N опытов с различными, равновозможными, последовательными состояниями системы. Если каждое состояние системы закодировать, например, двоичными кодами определенной длины d, то эту длину необходимо выбрать так, чтобы число всех различных комбинаций было бы не меньше, чем N. Наименьшее число, при котором это возможно, называется мерой разнообразия множества состояний системы и задается формулой Р. Хартли: H=klogаN, где k - коэффициент пропорциональности (масштабирования, в зависимости от выбранной единицы измерения меры), а - основание системы меры.

Если измерение ведется в экспоненциальной системе, то k=1, H=lnN (нат); если измерение было произведено в двоичной системе, то k=1/ln2, H=log2N (бит); если измерение было произведено в десятичной системе, то k=1/ln10, H=lgN (дит).

Пример. Чтобы узнать положение точки в системе из двух клеток т.е. получить некоторую информацию, необходимо задать 1 вопрос ("Левая или правая клетка?"). Узнав положение точки, мы увеличиваем суммарную информацию о системе на 1 бит (I=log2 2). Для системы из четырех клеток необходимо задать 2 аналогичных вопроса, а информация равна 2 битам (I=log24). Если же система имеет n различных состояний, то максимальное количество информации будет определяться по формуле: I=log2n.

Справедливо утверждение Хартли: если в некотором множестве X={x1, x2, ..., xn} необходимо выделить произвольный элемент xiX, то для того, чтобы выделить (найти) его, необходимо получить не менее logan (единиц) информации.

Если N - число возможных равновероятных исходов, то величина klnN представляет собой меру нашего незнания о системе.

По Хартли, для того, чтобы мера информации имела практическую ценность, она должна быть такова, чтобы отражать количество информации пропорционально числу выборов.

Пример. Имеются 192 монеты. Известно, что одна из них - фальшивая, например, более легкая по весу. Определим, сколько взвешиваний нужно произвести, чтобы выявить ее. Если положить на весы равное количество монет, то получим 3 независимые возможности: а) левая чашка ниже; б) правая чашка ниже; в) чашки уравновешены. Таким образом, каждое взвешивание дает количество информации I=log23, следовательно, для определения фальшивой монеты нужно сделать не менее k взвешиваний, где наименьшее k удовлетворяет условию log23klog2192. Отсюда, k5 или, k=4 (или k=5 - если считать за одно взвешивание и последнее, очевидное для определения монеты). Итак, необходимо сделать не менее 5 взвешиваний (достаточно 5).

Пример. ДНК человека можно представить себе как некоторое слово в четырехбуквенном алфавите, где каждой буквой помечается звено цепи ДНК или нуклеотид. Определим, сколько информации (в битах) содержит ДНК, если в нем содержится примерно 1,5×1023 нуклеотидов (есть и другие оценки этого объема, но мы рассмотрим данный вариант). На один нуклеотид приходится log2(4)=2 (бит) информации. Следовательно, структура ДНК в организме человека позволяет хранить 3×1023 бит информации. Это вся информация, сюда входит и избыточная. Реально используемой - структурированной в памяти человека информации, - гораздо меньше. В связи с этим, заметим, что человек за среднюю продолжительность жизни использует около 5-6% нейронов (нервных клеток мозга - "ячеек ОЗУ человека"). Генетический код - чрезвычайно сложная и упорядоченная система записи информации. Информация, заложенная в генетическом коде (по учению Дарвина), накапливалась многие тысячелетия. Хромосомные структуры - своеобразный шифровальный код, при клеточном делении создаются копии шифра, каждая хромосома - удваивается, в каждой клетке имеется шифровальный код, при этом каждый человек получает, как правило, свой набор хромосом (код) от матери и от отца. Шифровальный код разворачивает процесс эволюции человека. Вся жизнь, как отмечал Э. Шредингер, "упорядоченное и закономерное поведение материи, основанное ... на существовании упорядоченности, которая поддерживается все время".

Формула Хартли отвлечена от семантических и качественных, индивидуальных свойств рассматриваемой системы (качества информации в проявлениях системы с помощью рассматриваемых N состояний системы). Это основная и положительная сторона формулы. Но имеется основная и отрицательная ее сторона: формула не учитывает различимость и различность рассматриваемых N состояний системы.

Уменьшение (увеличение) Н может свидетельствовать об уменьшении (увеличении) разнообразия состояний N системы. Обратное, как это следует из формулы Хартли (так как основание логарифма больше 1!), - также верно.


Скачать файл (1321 kb.)

Поиск по сайту:  

© gendocs.ru
При копировании укажите ссылку.
обратиться к администрации
Рейтинг@Mail.ru