В чем суть алфавитного подхода к измерению информации?

2 ответов на вопрос “В чем суть алфавитного подхода к измерению информации?”

Fenris 02-04-2019 Ответить

Применение алфавитного подхода удобно прежде всего при использовании технических средств работы с информацией. В этом случае теряют смысл понятия «новые — старые», «понятные — непонятные» сведения. Алфавитный подход является объективным способом измерения информации в отличие от субъективного содержательного подхода.
Удобнее всего измерять информацию, когда размер алфавита N равен целой степени двойки. Например, если N=16, то каждый символ несет 4 бита информации потому, что 24 = 16. А если N =32, то один символ «весит» 5 бит.
Ограничения на максимальный размер алфавита теоретически не существует. Однако есть алфавит, который можно назвать достаточным. С ним мы скоро встретимся при работе с компьютером. Это алфавит мощностью 256 символов. В алфавит такого размера можно поместить все практически необходимые символы: латинские и русские буквы, цифры, знаки арифметических операций, всевозможные скобки, знаки препинания….
Поскольку 256 = 28, то один символ этого алфавита «весит» 8 бит. Причем 8 бит информации — это настолько характерная величина, что ей даже присвоили свое название — байт.
1 байт = 8 бит.
Сегодня очень многие люди для подготовки писем, документов, статей, книг и пр. используют компьютерные текстовые редакторы. Компьютерные редакторы, в основном, работают с алфавитом размером 256 символов.
В этом случае легко подсчитать объем информации в тексте. Если 1 символ алфавита несет 1 байт информации, то надо просто сосчитать количество символов; полученное число даст информационный объем текста в байтах.
Пусть небольшая книжка, сделанная с помощью компьютера, содержит 150 страниц; на каждой странице — 40 строк, в каждой строке — 60 символов. Значит страница содержит 40×60=2400 байт информации. Объем всей информации в книге: 2400 х 150 = 360 000 байт.
В любой системе единиц измерения существуют основные единицы и производные от них.
Для измерения больших объемов информации используются следующие производные от байта единицы:
1 килобайт = 1Кб = 210 байт = 1024 байта.
1 мегабайт = 1Мб = 210 Кб = 1024 Кб.
1 гигабайт = 1Гб = 210 Мб = 1024 Мб.
Название
Условное обозначение
Соотношение с другими единицами
Килобит
Кбит
1 Кбит = 1024 бит = 210 бит ? 1000 бит
Мегабит
Мбит
1 Мбит = 1024 Кбит = 220 бит ? 1 000 000 бит
Гигабит
Гбит
1 Гбит = 1024 Мбит = 230 бит ? 1 000 000 000 бит
Килобайт
Кбайт (Кб)
1 Кбайт = 1024 байт = 210 байт ? 1000 байт
Мегабайт
Мбайт (Мб)
1 Мбайт = 1024 Кбайт = 220 байт ? 1 000 000 байт
Гигабайт
Гбайт (Гб)
1 Гбайт = 1024 Мбайт = 230 байт ? 1 000 000 000 байт
Прием-передача информации могут происходить с разной скоростью. Количество информации, передаваемое за единицу времени, есть скорость передачи информации или скорость информационного потока.
Очевидно, эта скорость выражается в таких единицах, как бит в секунду (бит/с), байт в секунду (байт/с), килобайт в секунду (Кбайт/с) и т.д.
Ballafyn 02-04-2019 Ответить

Выдающийся советский математик прошлого века Андрей Николаевич Колмогоров предложил подход к измерению информации, который получил название алфавитный.
Согласно ему количество информации, содержащейся в последовательности символов, – это минимальное количество двоичных знаков, например, «0» и «1», необходимых для кодирования этой последовательности символов без учета содержания этого сообщения.
Определение. При алфавитном подходе один бит – это количество информации, которое можно передать сообщением из одного двоичного значка, то есть «0» или «1».
Важные особенности алфавитного подхода:
сообщения, записанные на естественном языке, кодируются без учета их смыслового содержания (такой подход является объективным);
каждый символ несёт одинаковое количество информации, не учитывается, что некоторые символы могут встречаться в сообщении чаще других.
Вернемся к эксперименту с бросанием монеты. Результат падения («орел», или «решка») можно закодировать двумя символами, например, 0 и 1. Тогда информация, которую несет нам один бросок, – это один бит. 5 бросков монетки можно закодировать пятью символами «0» и «1» – 5 бит информации. Таким образом, получившиеся результаты не противоречат результатам, полученным при содержательном подходе.
Значит, в случае равновероятного появления в любой позиции текста символов используемого алфавита, количество информации, которое несет один символ алфавита, можно вычислить по формуле Хартли.
Однако, в текстах, записанных на естественных языках, частота появление символов используемого алфавита различна (смотрите таблицу)
Частотные характеристики русских букв (кириллицы) в текстах

Для оценки среднего информационного веса символа с учетом разной вероятности их встречаемости используется формула Шеннона:
I = p1 * log2 (1 / p1) + p2 * log2 (1 / p2) + … + pN * log2 (1 / pN)
где pi – вероятность появления i – го символа
N – количество символов, в алфавите
Формула Шеннона показывает средний информационный вес символа алфавита.

В чем суть алфавитного подхода к измерению информации?

2 ответов на вопрос “В чем суть алфавитного подхода к измерению информации?”

Добавить ответ Отменить ответ