Количество информации

Анализируя информацию, мы сталкиваемся с необходимостью оценки ее количества. Определить понятие количество информации довольно сложно. В решении этой проблемы существуют два основных подхода.

В простейшем случае получения информации задается вопрос, на который может быть дан ответ - или «Да», или «Нет». Это может быть процесс, завершение которого может привести к одному из двух результатов. Информацию, которая в результате ответа устранит возникшую неопределенность, принимают за единицу измерения количества информации.

В науке существует понятие – энтропия (от греческого entropia –превращение), как мера неопределённости какого-либо события. Впервые понятие энтропия было введено в термодинамике для определения меры необходимого рассеивания энергии.

В 1928 году английский инженер Р. Хартли установил функциональную зависимость:

H = f(N)

где N – число равновероятных исходов одного события,
а сама функция f является возрастающей, неотрицательной и определённой.

Следующим важным моментом является определение вида функции f, если варьировать число повторений события. Общее число исходов в случае M повторений события будет:

H = f(N^M)

Данную формулу можно распространить и на случай любого N:

f(N^M) = Mf(N)

При введении какой-либо величины важным является вопрос о том, что принимать за единицу её измерения. Очевидно, что H будет равно единице при N =2. Иначе говоря, в качестве единицы принимается количество информации, о событии, имеющем один из двух равновероятностных исходов. В качестве единицы энтропии Хартли, прологарифмировав и преобразовав функцию, вывел величину:

H=log₂N.

Если для определения количества информации получаемой в результате событий с равновероятными исходами применить двоичную систему счисления, то для события с двумя равновероятными исходами понадобится первый разряд числа (0 и 1). Количество полученной в этом случае информации и было принято за единицу, получившую название бит (Binary digit).

I=log₂2 = 1 бит

Если событие будет иметь 10 равновероятных исходов, то для записи двоичного числа (количества информации) в десятичной системе счисления потребуется:

I=log₂10 = 3, 32 бит

Такой подход к измерению количества информации при котором общее количество подсчитывается по количеству символов двоичной системы счисления получил название объёмный.

Он удобен для применения в ограниченных случаях закрытых информационных систем, какими являются ЭВМ.

Наряду с битом широкое распространение для измерения количества информации получила укрупненная единица, байт (от английского byte, что в дословном переводе означает «сцепка»), равная 8 битам.

Наряду с битами и байтами для измерения количества информации используются и более крупные производные от байта единицы, которые образуются путем добавления префиксов кило-, мега-, гига-, тера-:

1 Кбайт (один килобайт) = 2¹⁰=1024 байт;

1 Мбайт (один мегабайт) = 2²⁰ = 1048576 байт;

1 Гбайт (один гигабайт) = 2³⁰

10⁹ байт;

1 Тбайт (один терабайт) = 2⁴⁰

10¹² байт.

Более общий подход к оценке количества информации – вероятностный – был создан в 1948году американским математиком Клодом Шенноном в его основополагающих работах по теории информации.

В том же случае события с двумя исходами вероятность наступления того или иного исхода может быть не равна. Шеннон предложил формулу:

при этом p₁ + p₂ + … + p_n = 1.

Формула оказалась верна и для событий с равновероятностным исходом.

Так как появление универсальных ЭВМ предоставило возможность работы с символьной и графической информацией появилась потребность определения количества этих видов информации.

Для автоматизированной обработки информации, относящейся к различным видам, например, текста на каком-либо языке общения людей, очень важно унифицировать форму ее представления. Для этого обычно используется прием кодирования, то есть представление информации с помощью различных знаковых систем. Проблема универсального средства кодирования достаточно успешно решена в отдельных отраслях техники, науки и культуры. В качестве примеров можно привести общепринятую систему записи математических выражений в виде специальных знаков и музыки в виде нот.

Своя система существует и в вычислительной технике – она называется двоичным кодированием, так как связана с представлением числа в двоичной системе счисления.

Как уже отмечалось выше, одним битом могут быть выражены два понятия: 1 или 0 («Да» или «Нет», истина или ложь и т.п.). Если количество битов увеличить до двух, то уже можно закодировать числами четыре объекта, например, буквы а, б, в, г.

Тремя битами можно закодировать восемь различных вариантов значений: 000, 001, 010, 011, 100, 101, 110, 111.

Увеличивая на единицу количество разрядов в системе двоичного кодирования, мы увеличиваем в два раза количество значений, которое может быть выражено в данной системе. Например, если нужно закодировать 32 буквы русского алфавита, то для этого достаточно взять пять разрядов, потому что пятиразрядная последовательность имеет 32 различных значения.

<== предыдущая лекция	\|	следующая лекция ==>
Мой фаворит Anime Studio Pro	\|	Диахроническое языкознание описывает развитие языка на протяжении какого-либо отрезка времени

© 2023 :: MyLektsii.ru :: Мои Лекции
Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав.
Копирование текстов разрешено только с указанием индексируемой ссылки на источник.