Главная страница Случайная страница Разделы сайта АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторикаСоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника |
Количество информации. Формула Хартли.
Методология «измерения количества информации»Хартли.
Р. Хартли первым ввел в теорию передачи информации методологию «измерения количества информации». При этом Р. Хартли считал, что информация, которую он собирался измерять, это «… группа физических символов – слов, точек, тире и т. п., имеющих по общему соглашению известный смысл для корреспондирующих сторон». Таким образом, Хартли ставил перед собой задачу ввести какую-то меру для измерения кодированной информации. Пусть передаётся последовательность из n символов а1а2а3…аn, каждый из которых принадлежит алфавиту Аm, содержащему m символов. Чему равно число К различных вариантов таких последовательностей? Если n = 1 (передаётся один символ), то K = m; если n=2 (передаётся последовательность из 2-х символов), то K = m*m = m2; в общем случае для последовательности из n символов получим K = m m m m m = mn. n − раз Количество информации, содержащееся в такой последовательности, Хартли предложил вычислять как логарифм числа K по основанию 2: I = Log2 K, (2.1) где K = mn. То есть, количество информации, содержащееся в последовательности из n символов из алфавита Am, в соответствии с формулой Хартли равно I = Log2(mn) = n Log2m. (2.2) Замечание 1. Хартли предполагал, что все символы алфавита Am могут с равной вероятностью (частотой) встретиться в любом месте сообщения. Это условие нарушается для алфавитов естественных языков: например, не все буквы русского алфавита встречаются в тексте с одинаковой частотой. Замечание 2. Любое сообщение длины n в алфавите Am будет содержать одинаковое количество информации. Например, в алфавите {0; 1} сообщения 00111, 11001 и 10101 содержат одинаковое количество информации. Это означает, что при вычислении количества информации, содержащегося в сообщении, мы отвлекаемся от его смыслового содержания. «Осмысленное» сообщение и сообщение, полученное из него произвольной перестановкой символов, будут содержать одинаковое количество информации. Пример. В телеграфном сообщении используются два символа – точка (.) и тире (-), т.е. алфавит состоит из m = 2 символов. Тогда при передаче одного символа (n =1) количество информации I = Log22 = 1. Это количество было принято за единицу измерения количества информации и называется 1 бит (от английского binary unit = bit). Если телеграфное сообщение в алфавите {.; -} содержит n символов, то количество информации I = n Log22 = n (бит). С помощью символов 0 и 1 кодируется информация в компьютере и при передаче в вычислительных сетях, т.е. алфавит состоит из двух символов {0; 1}; один символ и в этом случае содержит I = Log22 = 1 бит информации, поэтому сообщение длиной n символов в алфавите {0; 1} в соответствии с формулой Хартли (2.2) будет содержать n бит информации. Если рассматривать передачу сообщений в алфавите русского языка, состоящего из 33 букв, то количество информации, содержащееся в сообщении из n символов, вычисленное по формуле Хартли, равно I = n*Log233 º n* 5.0444 бит. Английский алфавит содержит 26 букв, один символ содержит Log2 26 º 4.7 бит, поэтому сообщение из n символов, вычисленное по формуле Хартли, содержит n* Log2 26 º 4.7 *n бит информации. Однако, этот результат не является правильным, так как не все буквы встречаются в тексте с одинаковой частотой. Кроме того, к буквам алфавита надо добавить разделительные знаки: пробел, точку, запятую и др. .
|