Logo GenDocs.ru

Поиск по сайту:  


Загрузка...

Расчетно-графическая работа - Анализ энтропийных характеристик текстовых файлов - файл Анализ энтропийных характетистик текстовых файлов.doc


Расчетно-графическая работа - Анализ энтропийных характеристик текстовых файлов
скачать (129.7 kb.)

Доступные файлы (13):

en1.txt17kb.19.05.2009 23:16скачать
en2.txt17kb.25.05.2009 00:15скачать
RES.TXT21kb.16.05.2009 00:41скачать
RGR1.BAK
RGR1.C
ru1.txt20kb.21.05.2009 18:20скачать
ru2.txt20kb.21.05.2009 18:21скачать
Анализ энтропийных характетистик текстовых файлов.doc36kb.25.05.2009 02:31скачать
Книга1.xls55kb.16.05.2009 02:12скачать
Книга2.xls83kb.25.05.2009 02:32скачать
Символы.doc297kb.16.05.2009 01:34скачать
Символы(моя).doc388kb.25.05.2009 02:27скачать
Символы(моя)сх.doc33kb.25.05.2009 14:22скачать

содержание
Загрузка...

Анализ энтропийных характетистик текстовых файлов.doc

Реклама MarketGid:
Загрузка...
МИНИСТЕРСТВО ОБРАЗОВАНИЯ РЕСПУБЛИКИ БЕЛАРУСЬ

УЧЕРЕЖДЕНИЕ ОБРАЗОВАНИЯ

БРЕСТСКИЙ ГОСУДАРСТВЕННЫЙ ТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ

КАФЕДРА ЭВМ И С
Расчетно-графическая работа №1

По теме: «Анализ энтропийных характеристик текстовых файлов»

Выполнил: студент ПЭ-3, ФЭИС

Медведицин В.И.
Проверил:

Ртищева М.В.
БРЕСТ 2009
Задача: рассчитать энтропию 4-ох текстов (2- английского содержания, 2- русского), сравнить их значения и сделать вывод.
Теоретические сведения
Энтропия – это мера неопределенности случайного объекта. Она вычисляется по формуле:

, где pi – вероятность исхода, а n – количество возможных состаяний.
Свойства энтропии:

  1. H=0, при pi = 1, т.е. отсутствует неопределенность.

  2. H=max=1, при p1=p2=…=pn=.

  3. Если А и В – независимые случайные объекты, то , где условная энтропия H(B/A) определяется как математическое ожидание энтропии условного распределения.

  4. Если А и В – независимые случайные объекты, то .

  5. Имеет место неравенство .


- дифференциальная энтропия.

Единицы измерения энтропии:
- если рассматривается физическая система с двумя равновероятными состояниями, тогда в формуле основание log 2. Единицы измерения биты.
- если рассматривается физическая система с числом n-равновероятных состояний, тогда в формуле основание log 10. Единицы измерения диты.
- если физическая система с 2,7 состояниями, то log е. еденицы измерения ниты.
Количество информации (I) – это устраненная неопределенность.

I(x)=-H(x)

^ Ход работы
Для расчета энтропии, необходимо рассчитать вероятность появления каждого символа. Она рассчитывается:

pi=, где ni – количество i-го символа встречающегося в тексте, N – общее количество символов.
Расчета приведены в Приложении. Результаты:
Текст №1. Русскоязычный текст (4 754 символов): H=1.4499
Текст №2. Русскоязычный текст (5 863 символов): H=1.4684
Текст №3. Англоязычный текст (25 637 символа): H=1.3559
Текст №4. Англоязычный текст (14 314символа): H=1.3824
Вывод: русскоязычный текст более неупорядочен, чем англоязычный. А следовательно рассмотренные английские тексты более информативны, чем рассмотренные русские тексты.


Скачать файл (129.7 kb.)

Поиск по сайту:  

© gendocs.ru
При копировании укажите ссылку.
обратиться к администрации
Рейтинг@Mail.ru