Что такое мощность алфавита

0
0

Алфавитом в информатике называется система знаков, с помощью которой можно подать информационное сообщение. Чтобы понять сущность этого определения, приведем немного дополнительных теоретических фактов:

  1. Любые сообщения состоят из алфавита. Например, данная статья - сообщение. Тогда она состоит из символов русского алфавита.
  2. Под символом мы можем понимать минимально значимую частицу алфавита. Также неделимые частицы называют атомами. Символами в русском алфавите являются "а", затем "б", "в", и так далее.
  3. В теории, алфавиту необязательно быть закодированным как-либо. Например, в печатной книге символы алфавита означают сами себя, значит, не имеют какой-либо кодировки.

мощность алфавита

Но на практике мы имеем следующее: компьютер не понимает, что такое буквы. Поэтому для передачи информационного сообщения его сначала нужно закодировать понятным компьютеру языком. Для того чтобы двигаться дальше, необходимо ввести дополнительные термины.

Что такое мощность алфавита

Под мощностью алфавита мы подразумеваем общее количество символов в нем. Для того чтобы узнать, какова мощность алфавита, необходимо просто посчитать количество символов в нем. Давайте разбираться. Для русского алфавита мощность алфавита равна 33 или же 32 символам, если не использовать "ё".

Давайте предположим, что все символы в нашем алфавите встречаются с равной вероятностью. Это предположение можно понимать так: допустим, у нас есть мешок с подписанными кубиками. Число кубиков в нем бесконечно, и каждый подписан лишь одним символом. Тогда при равномерном распределении, сколько бы мы кубиков ни доставали из мешка, количество кубиков с разными символами будет одинаково, или будет стремиться к этому при росте числа кубиков, которые мы достаем из мешка.

Оценка веса информационных сообщений

Почти сто лет назад американский инженер Ральф Хартли вывел формулу, с помощью которой можно оценивать количество информации в сообщении. Его формула работает для равновероятных событий и выглядит так:

i = log2M

Где "i" - количество неделимых информационных атомов (битов) в сообщении, "M" - мощность алфавита. Следуем далее. С помощью математических преобразований можем определить, что мощность алфавита можно вычислять так:

M = 2i

Эта формула в общем виде задает связь между количеством равновероятных событий "M" и количеством информации "i".

Рассчитываем мощность

Скорее всего, вам уже известно из школьного курса информатики, что в современных вычислительных системах, построенных на архитектуре фон Неймана, используется двоичная система кодировки информации. Так кодируются как программы, так и данные.

Для того чтобы представить текст в вычислительной системе, используют равномерный код из восьми разрядов. Равномерным код считается потому, что содержит фиксированный набор элементов - 0 и 1. Значения в таком коде задаются определенным порядком этих элементов. С помощью восьмиразрядного кода мы можем закодировать сообщения весом 256 бит, ведь по формуле Хартли: M8=28= 256 бит информации.

Такая ситуация с кодировкой символов двоичным кодом сложилась исторически. Но теоретически мы могли бы использовать и другие алфавиты для представления данных. Так, к примеру, в четырехзнаковом алфавите у каждого символа был бы вес не один, а два бита, в восьмизнаковом - 3 бита и так далее. Это рассчитывается с помощью двоичного логарифма, который был приведен выше (i = log2M).

Так как в алфавите мощностью 256 бит для обозначения одного символа отводится восемь двоичных разрядов, было решено ввести дополнительную меру информации - байт. Один байт содержит один символ кодовой таблицы ASCII и содержит в себе восемь бит.

мощность алфавита 256

Как измеряют информацию

Восьмибитная кодировка текстовых сообщений, которая используется в кодовой таблице ASCII, позволяет вместить базовый набор символов латиницы и кириллицы в прописном и строчном варианте, цифры, символы знаков препинания и другие базовые символы.

Для того чтобы измерять более крупные объемы данных, используют специальные приставки к словам байт и бит. Такие приставки приведены в таблице ниже:

какова мощность алфавита

Многие люди, изучавшие физику возразят, что рационально было бы использовать классические приставки для обозначения единиц информации (вроде кило- и мега-), но на самом деле это не совсем корректно, ведь такие префиксы к величинам обозначают умножение на ту или иную степень числа десять, когда в информатике везде используется двоичная система измерений.

Правильные названия единиц измерения данных

Для того чтобы устранить некорректности и неудобства, в марте 1999 года Международной комиссией в области электротехники были утверждены новые приставки к единицам, которые используются для определения объема информации в электронной вычислительной технике. Такими приставками стали "меби", "киби", "гиби", "теби", "эксби", "пети". Пока эти единицы еще не прижились, так что, скорее всего, необходимо время для введения этого стандарта и начала широкого применения. Как осуществлять переход от классических единиц к новоутвержденным, вы можете определить по следующей таблице:

мощность алфавита равна

Предположим, что мы имеем текст, который содержит K символов. Тогда, используя алфавитный подход, можно вычислить объем информации V, который в нем содержится. Он будет равен произведению мощности алфавита на информационный вес одного символа в нем.

По формуле Хартли мы знаем, как вычислить объем информации через двоичный логарифм. Предположив, что количество знаков алфавита равно N и количество знаков в записи информационного сообщения равняется K, получим такую формулу для вычисления информационного объема сообщения:

V = K ⋅ log2 N

Алфавитный подход свидетельствует о том, что информационный объем будет зависеть только лишь от мощности алфавита и размера сообщений (то есть количества символов в нем), но никак не будет связан со смысловым содержанием для человека.

Примеры расчета мощности

На уроках информатики часто дают задачи на нахождение мощности алфавита, длины сообщения или информационного объема. Вот одна из таких задач:

"Текстовый файл занимает 11 Кбайт дискового пространства и содержит 11264 символа. Определите мощность алфавита данного текстового файла".

Каким будет решение, можно увидеть на картинке ниже.

алфавит мощностью 256 символов

Таким образом, алфавит мощностью 256 символов несет в себе всего лишь 8 бит информации, что в информатике называют одним байтом. Байт описывает 1 символ таблицы ASCII, что, если задуматься, совсем не много.

Один байт - это много или мало?

Современные хранилища данных вроде дата-центров Google и Facebook содержат не меньше, чем десятки петабайт информации. Точное количество данных, впрочем, трудно будет подсчитать даже им самим, ведь тогда нужно будет остановить все процессы на серверах и закрыть пользователям доступ к записи и редактированию их личной информации.

мощность алфавита 256 сколько

Но чтобы вообразить такие немыслимые объемы данных, необходимо четко понимать, что все складывается из маленьких деталей. Необходимо понимать, чему равна мощность алфавита (256) и сколько бит содержит 1 байт информации (как вы помните, 8).