Измерение информации (алфавитный подход). Единицы измерения информации. Что такое алфавит в информатике?

Почти каждый раз, когда вы набираете текст на компьютерах и других электронных устройствах, вы сталкиваетесь с различными символами. Они должны включать в себя:

Урок 5 Измерение информации (алфавитный подход). Единицы измерения информации

— Алфавит, мощность алфавита; — 1 бит — информационный вес символа в двоичном алфавите; — N=2b — формула для определения информационного веса символа; — Информационная емкость текста; — Информационная емкость текста; — Информационные единицы: Байт, килобайт, мегабайт, гигабайт.

Материал для консолидации темы «Измерение информации».

Темы для изучения:

— Подход к измерению информационного содержания — Неопределенность знаний — формула Хартли.

Алфавит языка — это набор букв, знаков препинания, цифр, скобок и других символов, используемых в тексте. Алфавит также должен включать пробел, т.е. место между словами.

Общее количество символов в алфавите называется мощностью алфавита. Обозначим эту величину через N. Например, емкость алфавита русских букв и дополнительных символов составляет 54: 33 буквы + 10 цифр + 11 знаков препинания, скобок, пробелов.

Алфавитный подход предполагает, что каждый символ текста имеет определенный вес информации. Информационный вес символа зависит от силы алфавита. А какое наименьшее количество букв в алфавите? Это два! Вскоре вы узнаете, что этот алфавит используется в компьютерах. Он содержит только 2 символа, представленных цифрами 0 и 1, и называется двоичным алфавитом. Когда вы узнаете, как работает компьютер, вы узнаете, что любая информация может быть представлена всего двумя символами.

Информационный вес символа в двоичном алфавите считается единицей информации и называется 1 бит.

С увеличением мощности алфавита увеличивается информационный вес символов в алфавите. Например, один символ в алфавите из четырех знаков (N = 4) весит 2 бита. Это можно объяснить следующим образом: Все символы такого алфавита могут быть закодированы всеми возможными комбинациями двух цифр двоичного алфавита. Комбинация из нескольких (двух, трех и т.д.) символов двоичного алфавита называется двоичным кодом.

Программное обеспечение: структура, основные типы, примеры. Что такое программное обеспечение компьютера?

С помощью трех двоичных цифр мы можем образовать 8 различных комбинаций.

Таким образом, если мощность алфавита равна 8, то информационный вес символа составляет 3 бита.

Все символы 16-значного алфавита могут быть закодированы 4-значными двоичными кодами и так далее.

Найдем зависимость между мощностью алфавита (N) и количеством символов в коде (b) — емкостью цифр двоичного кода.

Примечание: 2 = 2 1, 4 = 2 2, 8 = 2 3, 16 = 2 4 .

Обычно это записывается следующим образом:

N = 2b .

Битовая глубина двоичного кода — это информационный вес

Концепция мощности алфавита занимает центральное место в изучении информатики. Алфавит обычно обозначает набор символов. Сумма всех этих значений в данном языке является мощностью алфавита. Другими словами, это количество всех символов в данном языке. Сюда входят не только буквы, но и, что более важно, другие символы:

Это определение считается общим и не учитывает расчет информационной составляющей сообщения. Он может включать цифры, знаки препинания и т.д. В этом случае используется другой метод. Она основана на том, что каждая буква, цифра и символ содержат свой собственный набор информации. Компьютер работает с этим информационным кодом и распознает написанное.

Основной принцип информатики заключается в том, что компьютер распознает входные данные только в двоичном коде, в виде единиц и нулей. Результат показывает, что каждый символ алфавита может быть успешно закодирован путем правильного выбора этих двух цифровых символов. Самая короткая последовательность, с помощью которой можно объявить цифру, букву или другой символ, состоит из двух элементов.

Информационный вес одного символа обычно представляется в терминах стандартной единицы измерения информации, называемой «бит». Восемь битов соответствуют одному байту.

Буквенная мощность может быть использована на практике только при наличии двоичного кода. Например, можно использовать упрощенный алфавит, состоящий всего из четырех символов. В этом случае разрядность и представление информации описываются следующим образом:

Операционные системы — что это такое, виды ОС и какую выбрать. Что такое операционная система?

Из этого списка можно сделать вывод, что если алфавит состоит из 4, то масса единичного символа составляет 2 бита. С другой стороны, если имеется алфавит, состоящий из 8 символов, присвоение двоичного трехзначного кода приведет к следующему номеру комбинации:

Другими словами: Если мощность алфавита равна 8, то вес символа для двоичного 3-значного кода составляет 3 бита.

Описание термина

Количество символов в коде и вес буквы всегда находятся в определенном соотношении. Для определения информационного содержания сообщения используется специальная мера, которая выражается формулой для алфавитной мощности: N = 2 до девятой степени.

числа;
спецсимволы;
двоеточия;
пробел;
скобки;
запятые;
точки;
многоточия и прочее.

Отображение символов в двоичном коде

Существует также язык клавиатуры, который содержит не только буквы, но и дополнительные символы. Например, в русском языке 10 цифр и 11 символов, а также пробел и пара скобок. Их сила складывается с аналогичными буквами, и в результате получается N=33+10+11+11+1+2=57. В некоторых случаях буква «е» отсутствует как самостоятельный символ, и в этом случае полная сила русского алфавита равна 56.

Математические символы используются для обозначения арифметических операций:

Логические операции обозначаются символами:

Вычисление мощности алфавита

Специальный сложный символ присвоения «:=», состоящий из двоеточия и знака равенства, используется для присвоения идентификатору определенного значения.

Непозиционные системы счисления. Что такое непозиционная система счисления?

Специальные символы языка программирования Паскаль:

Необходимо строго соблюдать правила синтаксиса языка программирования. Например, в конце каждой строки программы должно быть двоеточие, а в конце программы — полная остановка. Неправильное использование буквенных символов языка приведет к синтаксической ошибке.

Математические символы

сложения +
разности –
произведения *
деления /

меньше
больше>
равно =
неравно<>
меньше или равно
больше или равно>=

Специальные знаки

Знак денежной единицы «$» – используется для задания чисел в шестнадцатеричном формате.
Амперсанд «&» – используется для задания чисел в восьмеричном формате.
Процент «%» – применяется для задания чисел в двоичном формате.
Коммерческое И «@» – применяется для адресной адресации.
Решетка «#» – применяют для работы с символьными данными.
Тильда «^» – необходима для работы с указателями.
Знак подчеркивания «_» – его можно использовать при написании пользовательских идентификаторов.