Меры информации и их классификация
Для измерения информации вводятся два параметра: количество информации I и объем данных УД.
Эти параметры имеют разные выражения и интерпретацию в зависимости от рассматриваемой формы адекватности. Каждой форме адекватности соответствует своя мера количества информации и объема данных (рис. 2.2).
Синтаксическая мера информации — мера количества информации, оперирующая с обезличенной информацией, не выражающей смыслового отношения к объекту.
Объем данных Кд в сообщении измеряется количеством символов (разрядов) в этом сообщении. В различных системах счисления один разряд имеет различный вес и соответственно меняется единица измерения данных:
- • в двоичной системе счисления единица измерения — бит (bit — binary digit — двоичный разряд);
- • в десятичной системе счисления единица измерения — дит (dit - decimal digit — десятичный разряд).

Рис. 2.2. Меры информации
В современных ЭВМ наряду с минимальной единицей измерения данных «бит» широко используется укрупненная единица измерения «байт», равная 8 бит.
Сообщение в двоичной системе в виде восьмиразрядного двоичного кода 10111011 имеет объем данных Кд = 8 бит. Сообщение в десятичной системе в виде шестиразрядного числа 275903 имеет объем данных Уд = 6 дит.
Количество информации — на синтаксическом уровне невозможно определить без рассмотрения понятия неопределенности состояния системы (энтропии системы). Действительно, получение информации о какой-либо системе всегда связано с изменением степени неосведомленности получателя о состоянии этой системы. Рассмотрим это понятие.
Пусть до получения информации потребитель имеет некоторые предварительные (априорные) сведения о системе — а. Мерой его неосведомленности о системе является функция Н(а), которая в то же время служит и мерой неопределенности состояния системы.
После получения некоторого сообщения 3 получатель приобрел некоторую дополнительную информацию /р(а), уменьшившую его априорную неосведомленность так, что апостериорная (после получения сообщения 3) неопределенность состояния системы стала Нр(а).
Тогда количество информации /р(а) о системе, полученной в сообщении 3, определится как
т.е. количество информации измеряется изменением (уменьшением) неопределенности состояния системы.
Если конечная неопределенность Н^(а) обратится в нуль, то первоначальное неполное знание заменится полным знанием и количество информации /р(а) = Н(а). Иными словами, энтропия системы //(а) может рассматриваться как мера недостающей информации.
Энтропия системы Н(а), имеющая N возможных состояний, согласно формуле Шеннона, равна:
где Р1 — вероятность того, что система находится в /-м состоянии. Для случая, когда все состояния системы равновероятны, т.е.
их вероятности равны
, ее энтропия определяется соотношением
Часто информация кодируется числовыми кодами в той или иной системе счисления, особенно это актуально при представлении информации в компьютере. Естественно, что одно и то же количество разрядов в разных системах счисления может передать разное число состояний отображаемого объекта, что можно представить в виде соотношения
N =тп,
где N — число всевозможных отображаемых состояний;
т — основание системы счисления (разнообразие символов, применяемых в алфавите);
п — число разрядов (символов) в сообщении.
Например, по каналу связи передается я-разрядное сообщение, использующее т различных символов. Так как количество всевозможных кодовых комбинаций будет N = тп, то при равновероятности появления любой из них количество информации, приобретенной абонентом в результате получения сообщения, будет / = /о^ = п1о?т — формула Хартли.
Если в качестве основания логарифма принять т, то / = п. В данном случае количество информации (при условии полного априорного незнания абонентом содержания сообщения) будет равно объему данных / = V , полученных по каналу связи. Для нсравновсроятных состояний системы всегда I < Ед = п.
Наиболее часто используются двоичные и десятичные логарифмы. Единицами измерения в этих случаях будут соответственно бит и дит.
Коэффициент (степень) информативности (лаконичность сообщения) определяется отношением количества информации к объему данных, т.е.
С увеличением У уменьшаются объемы работы по преобразованию информации (данных) на автоматизированном рабочем месте. Это вызывает стремление к повышению информативности, для чего разрабатываются специальные методы оптимального кодирования информации.
Семантическая мера информации предназначена для измерения смыслового содержания информации, т.е. ее количества на семантическом уровне. Наибольшее признание получила тезау- русная мера, которая связывает семантические свойства информации со способностью пользователя принимать поступившее сообщение. Для этого используется понятие тезаурус пользователя.
Тезаурус — это совокупность сведений, которыми располагает пользователь или система. В зависимости от соотношений между смысловым содержанием информации 5 и тезаурусом пользователя изменяется количество семантической информации /с, воспринимаемой пользователем и включаемой им в дальнейшем в свой тезаурус. Характер такой зависимости показан на рис. 2.3. Рассмотрим два предельных случая, когда количество семантической информации /с равно 0:
- • при $'р = 0 пользователь не воспринимает, не понимает поступающую информацию;
- • при 5 -» оо пользователь все знает, поступающая информация ему нс нужна.

Рис. 2.3. Зависимость количества семантической информации, воспринимаемой потребителем, от его тезауруса / = ЛБ Л
С р
Максимальное количество семантической информации / потребитель приобретает при согласовании ее смыслового содержания 5 со своим тезаурусом 5 (Б = ор(), когда поступающая информация понятна пользователю и несет ему ранее нс известные (отсутствующие в его тезаурусе) сведения.
Количество семантической информации в сообщении, количество новых знаний, получаемых пользователем, является величиной относительной. Одно и то же сообщение может иметь смысловое содержание для компетентного пользователя и быть бессмысленным (семантический шум) для пользователя некомпетентного.
При оценке семантического (содержательного) аспекта информации необходимо стремиться к согласованию величин 5 и
?V
Относительной мерой количества семантической информации может служить коэффициент содержательности С, который определяется как отношение количества семантической информации к ее объему:

Прагматическая мера информации определяет полезность информации (ценность) для достижения пользователем поставленной цели. Прагматическая мера также величина относительная, обусловленная особенностями использования этой информации в той или иной системе. Ценность информации целесообразно измерять в тех же самых единицах (или близких к ним), в которых измеряется целевая функция.
В экономической системе прагматические свойства (ценность) информации можно определить приростом экономического эффекта функционирования, достигнутым благодаря использованию этой информации для управления системой:
где /ну(Р) — ценность информационного сообщения Рдля системы управления у;
П(у) — априорный ожидаемый экономический эффект функционирования системы управления у
П(у/Р) — ожидаемый эффект функционирования системы упри условии, что для управления будет использована информация, содержащаяся в сообщении р.
Для сопоставления введенные меры информации представим в табл. 2.1.
Таблица 2.1
Меры информации и их отражение в компьютерной области
Мера информации |
Единица измерения |
Пример (для компьютерной области) |
Синтаксическая: подход согласно формуле Шеннона, компьютерный подход |
Степень уменьшения неопределенности Единицы представления информации |
Вероятность события Бит, байт и т.д. |
Семантическая |
Тезаурус Экономические показатели |
Пакет прикладных программ, персональный компьютер, компьютерные сети и т.д. Рентабельность, производительность, коэффициент амортизации и т.д. |
Прагматическая |
Ценность использования |
Емкость памяти, производительность компьютера, скорость передачи данных и т.д. Время обработки информации и принятия решений |
Возможности и эффективность использования информации обусловлены основными ее потребительскими показателями качествак которым относятся: репрезентативность; содержательность; достаточность; доступность; актуальность; своевременность; точность; достоверность; устойчивость.
Репрезентативность информации связана с правильностью ее отбора и формирования в целях адекватного отражения свойств объекта. Важнейшее значение здесь имеют:
- • правильность концепции, на базе которой сформулировано исходное понятие;
- • обоснованность отбора существенных признаков и связей отображаемого явления.
Нарушение репрезентативности информации приводит нередко к существенным ее погрешностям.
Содержательность информации отражает семантическую емкость, равную отношению количества семантической информации в сообщении к объему обрабатываемых данных, т.е.

С увеличением содержательности информации растет семантическая пропускная способность информационной системы, так как для получения одних и тех же сведений требуется преобразовать меньший объем данных.
Наряду с коэффициентом содержательности, отражающим семантический аспект, можно использовать и коэффициент информативности, характеризующийся отношением количества синтаксической информации (по Шеннону) к объему данных

Достаточность (полнота) информации означает, что она содержит минимальный, но достаточный для принятия правильного управленческого решения состав (набор) показателей. Понятие полноты информации связано с ее смысловым содержанием (семантикой) и прагматикой. Очевидно, что снижение эффективности принимаемых управленческих решений обусловлено либо неполнотой (недостаточностью) информации, либо ее избыточностью.
Доступность информации восприятию пользователя обеспечивается выполнением соответствующих процедур ее получения и преобразования. Например, в информационной системе преобразование (обработка) информации выполняется в доступной и удобной для восприятия пользователя форме. Это достигается, в частности, путем согласования ее семантической формы с тезаурусом пользователя.
Актуальность информации определяется степенью сохранения ценности информации для управления в момент ее использования и зависит от динамики изменения ее характеристик и от интервала времени, прошедшего с момента возникновения данной информации.
Своевременность информации означает ее поступление не позже заранее назначенного момента времени, согласованного с временем решения поставленной задачи.
Точность информации определяется степенью близости получаемой информации к реальному состоянию объекта, процесса, явления и т.п. Для информации, отображаемой цифровым кодом, известны четыре классификационных понятия точности:
- 1) формальная точность, измеряемая значением единицы младшего разряда числа;
- 2) реальная точность, определяемая значением единицы последнего разряда числа, верность которого гарантируется;
- 3) максимальная точность, которую можно получить в конкретных условиях функционирования системы;
- 4) необходимая точность, определяемая функциональным назначением показателя.
Достоверность информации определяется ее свойством отражать реально существующие объекты с необходимой точностью. Измеряется достоверность информации доверительной вероятностью необходимой точности, т.е. вероятностью того, что отображаемое информацией значение параметра отличается от истинного значения этого параметра в пределах необходимой точности.
Устойчивость информации отражает ее способность реагировать на изменения исходных данных без нарушения необходимой точности. Устойчивость информации, как и репрезентативность, обусловлена выбранной методикой ее отбора и формирования.
Следует отметить, что такие параметры качества информации, как репрезентативность, содержательность, достаточность, доступность, устойчивость, целиком определяются на методическом уровне разработки информационных систем. Параметры актуальности, своевременности, точности и достоверности обусловливаются в большей степени также на методическом уровне, однако на их величину существенно влияет и характер функционирования системы, в первую очередь ее надежность. При этом параметры актуальности и точности жестко связаны соответственно с параметрами своевременности и достоверности.