В чем суть алфавитного подхода к измерению информации?

2 ответов на вопрос “В чем суть алфавитного подхода к измерению информации?”

  1. Fenris Ответить

    Применение алфавитного подхода удобно прежде всего при использовании технических средств работы с информацией. В этом случае теряют смысл понятия «новые — старые», «понятные — непонятные» сведения. Алфавитный подход является объективным способом измерения информации в отличие от субъективного содержательного подхода.
    Удобнее всего измерять информацию, когда размер алфавита N равен целой степени двойки. Например, если N=16, то каждый символ несет 4 бита информации потому, что 24 = 16. А если N =32, то один символ «весит» 5 бит.
    Ограничения на максимальный размер алфавита теоретически не существует. Однако есть алфавит, который можно назвать достаточным. С ним мы скоро встретимся при работе с компьютером. Это алфавит мощностью 256 символов. В алфавит такого размера можно поместить все практически необходимые символы: латинские и русские буквы, цифры, знаки арифметических операций, всевозможные скобки, знаки препинания….
    Поскольку 256 = 28, то один символ этого алфавита «весит» 8 бит. Причем 8 бит информации — это настолько характерная величина, что ей даже присвоили свое название — байт.
    1 байт = 8 бит.
    Сегодня очень многие люди для подготовки писем, документов, статей, книг и пр. используют компьютерные текстовые редакторы. Компьютерные редакторы, в основном, работают с алфавитом размером 256 символов.
    В этом случае легко подсчитать объем информации в тексте. Если 1 символ алфавита несет 1 байт информации, то надо просто сосчитать количество символов; полученное число даст информационный объем текста в байтах.
    Пусть небольшая книжка, сделанная с помощью компьютера, содержит 150 страниц; на каждой странице — 40 строк, в каждой строке — 60 символов. Значит страница содержит 40×60=2400 байт информации. Объем всей информации в книге: 2400 х 150 = 360 000 байт.
    В любой системе единиц измерения существуют основные единицы и производные от них.
    Для измерения больших объемов информации используются следующие производные от байта единицы:
    1 килобайт = 1Кб = 210 байт = 1024 байта.
    1 мегабайт = 1Мб = 210 Кб = 1024 Кб.
    1 гигабайт = 1Гб = 210 Мб = 1024 Мб.
    Название
    Условное обозначение
    Соотношение с другими единицами
    Килобит
    Кбит
    1 Кбит = 1024 бит = 210 бит ? 1000 бит
    Мегабит
    Мбит
    1 Мбит = 1024 Кбит = 220 бит ? 1 000 000 бит
    Гигабит
    Гбит
    1 Гбит = 1024 Мбит = 230 бит ? 1 000 000 000 бит
    Килобайт
    Кбайт (Кб)
    1 Кбайт = 1024 байт = 210 байт ? 1000 байт
    Мегабайт
    Мбайт (Мб)
    1 Мбайт = 1024 Кбайт = 220 байт ? 1 000 000 байт
    Гигабайт
    Гбайт (Гб)
    1 Гбайт = 1024 Мбайт = 230 байт ? 1 000 000 000 байт
    Прием-передача информации могут происходить с разной скоростью. Количество информации, передаваемое за единицу времени, есть скорость передачи информации или скорость информационного потока.
    Очевидно, эта скорость выражается в таких единицах, как бит в секунду (бит/с), байт в секунду (байт/с), килобайт в секунду (Кбайт/с) и т.д.

  2. Ballafyn Ответить

    Выдающийся советский математик прошлого века Андрей Николаевич Колмогоров предложил подход к измерению информации, который получил название алфавитный.
    Согласно ему количество информации, содержащейся в последовательности символов, – это минимальное количество двоичных знаков, например, «0» и «1», необходимых для кодирования этой последовательности символов без учета содержания этого сообщения.
    Определение. При алфавитном подходе один бит – это количество информации, которое можно передать сообщением из одного двоичного значка, то есть «0» или «1».
    Важные особенности алфавитного подхода:
    сообщения, записанные на естественном языке, кодируются без учета их смыслового содержания (такой подход является объективным);
    каждый символ несёт одинаковое количество информации, не учитывается, что некоторые символы могут встречаться в сообщении чаще других.
    Вернемся к эксперименту с бросанием монеты. Результат падения («орел», или «решка») можно закодировать двумя символами, например, 0 и 1. Тогда информация, которую несет нам один бросок, – это один бит. 5 бросков монетки можно закодировать пятью символами «0» и «1» – 5 бит информации. Таким образом, получившиеся результаты не противоречат результатам, полученным при содержательном подходе.
    Значит, в случае равновероятного появления в любой позиции текста символов используемого алфавита, количество информации, которое несет один символ алфавита, можно вычислить по формуле Хартли.
    Однако, в текстах, записанных на естественных языках, частота появление символов используемого алфавита различна (смотрите таблицу)
    Частотные характеристики русских букв (кириллицы) в текстах

    Для оценки среднего информационного веса символа с учетом разной вероятности их встречаемости используется формула Шеннона:
    I = p1 * log2 (1 / p1) + p2 * log2 (1 / p2) + … + pN * log2 (1 / pN)
    где pi – вероятность появления i – го символа
    N – количество символов, в алфавите
    Формула Шеннона показывает средний информационный вес символа алфавита.

Добавить ответ

Ваш e-mail не будет опубликован. Обязательные поля помечены *