Меню
Главная
Авторизация/Регистрация
 
Главная arrow Информатика arrow Информатика 2015

1.2. Основные понятия теории информации

Знаки несут информацию только для получателя, способного их распознать.

Теория информации - раздел математики, исследующий процесс хранения, преобразования и передачи информации. Теория информации базируется на фундаментальной работе американского инженера и математика Клода Элвуда Шеннона [2], и она тесно сопряжена со статистической теорией связи.

Согласно теории информации, количество полученных сведений следует рассматривать с учетом понятия неопределенности состояния системы, например, неопределенность состояния системы связи. Вместо термина «неопределенность состояния системы» часто используют эквивалентный термин - «энтропия системы».

Под неопределенностью состояния системы связи понимается тот факт, что на приемной стороне получатель информации не знает, какое сообщение пошлет отправитель информации, который находится на передающей стороне системы связи. Лишь после приема сообщения (букв, цифр, символов, звуков, изображения и т.д.) у получателя уменьшается неосведомленность относительно содержания передаваемого сообщения. Иначе говорят: полученная информация уменьшает энтропию системы.

Рассмотрим основные понятия, которые используются в теории информации [1].

Сообщение - это совокупность знаков или первичных сигналов, отображающих ту или иную информацию. Например, текст электронного письма представляет собой совокупность таких знаков, как буквы, цифры, знаки препинания, специальные символы. Примерами сообщений являются: текст телеграммы, текст электронного письма, SMS, MMS данные на выходе ЭВМ, речь, музыка, рисунок, фотография, запись в блоге и т.п.

Передача сообщений на расстояние осуществляется с помощью какого-либо материального носителя (бумаги, магнитных дисков, микросхем памяти и т.п.) или физического процесса (звуковых, световых или электромагнитных волн и т.п.). Таким образом, информация передается путем обмена между отправителем и получателем материей (бумага, фотоплёнка, лента) или энергией (электромагнитные волны). Физический процесс, несущий передаваемое сообщение, называется сигналом.

Сообщения могут быть функциями времени (информация представляется в виде первичных сигналов, которыми являются: музыка, речь, видеоизображение, показания датчиков). Сообщения могут не являться функциями времени (информация представляется в виде совокупности знаков, например, письмо, статья, книга).

В современных системах связи чаще всего используются электрические и оптические сигналы. Передача информации осуществляется путем изменения какою-либо параметра сигнала в соответствии с передаваемым сообщением. Например, путем изменения амплитуды, частоты, фазы гармонических колебаний или длительности прямоугольных импульсов. Процесс изменения параметров сигнала на передающей стороне, происходящий в соответствии с содержанием передаваемого сообщения, называется модуляцией. Благодаря модуляции сигнал получает возможность распространяться на большие расстояния с помощью системы связи. Процесс восстановления сообщения из принятого сигнала называется демодуляцией (или детектированием).

На рисунке показаны две осциллограммы, иллюстрирующие сигналы с двумя видами модуляции - амплитудной и частотной. Здесь в качестве сигнала, несущего информацию, использованы синусоидальные гармонические колебания. В первом случае предаваемая информация содержится в изменении амплитуды колебаний (размаха по вертикали). Во втором случае информативным параметром является частота - плотность колебаний по горизонтали. Таким образом, можно передать по аналоговому каналу, например, цифровые сигналы 1 и 0.

В качестве сигналов, переносящих информацию, может быть использована последовательность прямоугольных импульсов. В этом случае при модуляции могут изменяться длительность импульсов, их временное положение или частота.

На рисунке показано, как, изменяя скважность импульсов (отношение периода следования импульсов к их длительности), можно передавать единицы и нули.

Линией связи называется физическая среда, которая используется для транспортировки сигналов от передатчика к приемнику. В качестве примера линии связи можно назвать оптоволоконный и коаксиальный кабели связи, пространство, в котором распространяются радиоволны.

Совокупность технических средств, предназначенных для передачи сообщений от отправителя к получателю, называется системой связи. В качестве составных частей в систему связи входят: передающее устройство (передатчик), канал связи и приемное устройство (приемник).

Отправителями и получателями информации могут быть субъекты (пользователи, абоненты, корреспонденты) и объекты (датчики, компьютеры, факс-модемы, принтеры, устройства автоматики и г.п.).

Каналом связи называют часть системы связи, которая обеспечивает передачу сигналов между передатчиком и приёмником информации. В состав канала связи входят линии связи и каналообразующая аппаратура (КА). Задачей каналообразующей аппаратуры является уплотнение сигналов, то есть передача по одной физической линии информации сразу от нескольких отправителей.

Существуют каналы проводной связи (кабельные, световодные и др.) и каналы радиосвязи (телевизионные, радио и сотовые станции). Широкое распространение получили радиорелейные линии (РРЛ). В радиорелейных линиях радиосигнал передается от одной станции к другой (ретранслируется) как бы по эстафете в пределах прямой видимости. Разновидностью РРЛ являются тропосферные линии, которые используют отражения радиосигнала от неоднородностей тропосферы. Существуют спутниковые сети - радиорелейные линии, в которых ретранслятор располагается на искусственном спутнике земли.

Применительно к глобальной сети Интернет можно сказать, что она содержит самые разнообразные каналы связи, которые соединяют между собой узлы с коммутационным оборудованием и компьютерами-серверами.

При обмене сообщениями с помощью мессенджера ICQ или при работе социальной сети получатель информации не знает, какую клавишу на клавиатуре в данный момент нажал отправитель сообщения. Другими словами, существует неопределенность состояния системы связи при приеме информации (неизвестно, какой сигнал передается в данный момент времени по каналу связи). Чем выше неопределенность (неизвестность, неосведомленность, хаотичность), тем больше энтропия системы.

Энтропия характеризует степень упорядоченности передаваемого текста, степень его отклонения от полного хаоса. В наиболее хаотичном тексте вероятности появления любых букв (символов) текста практически одинаковые. В этом случае текст представляет собой нечитаемый набор бессмысленных символов. Примером такого текста является шифрограмма, полученная с помощью криптостойкого шифра. Бессмысленный нечитаемый текст, состоящий из равновероятных символов, имеет наибольшую энтропию.

Предположим, что получатель информации имеет какие-то предварительные (априорные) сведения о некоторой системе а. Мерой неосведомленности получателя информации о системе а является функция Н{а).

После получения но каналу связи некоторого сообщения р получатель приобретает дополнительную информацию /Да). Полученная информация уменьшает имевшуюся (априорную) неосведомленность Н(«), которая в результате получения сообщения становится равной ЙДа). Новую неопределенность ЙДсх) называют апостериорной, то есть неопределенностью после проведения опыта (после передачи и приема сообщения р).

Таким образом, количество принятой информации можно выразить соотношением:

Простыми словами это соотношение можно прокомментировать гак: количество информации /Да), содержащейся в полученном сообщении р, измеряется величиной уменьшения неосведомленности (незнания) о состоянии системы а. То есть полученная информация увеличивает знание.

Порядок расчета энтропии системы и количества полученной информации зависит от того, какова вероятность появления каждого знака (символа) в сообщении. Если вероятности появления всех символов выбранного алфавита одинаковые (например, в криптограмме), то используется формула Хартли. Если вероятности появления каждого символа в сообщении различны, го используется формула Шеннона.

Формула Хартли применяется в случаях, когда появление различных символов в сообщении равновероятно. Это бывает, например, при передаче но каналу связи результатов математических расчетов (набор цифр), криптографических ключей, шифрофамм, паролей и т.п. Получение по каналу связи одного символа из N допустимых (возможных) символов используемого алфавита дает получателю такой объем информации:

Здесь N- число допустимых символов (знаков), которое отправитель может использовать при формировании своего сообщения.

Указанную величину I можно трактовать, как количество информации, приходящееся на один символ (знак) сообщения. Согласно формуле Хартли количество информации, содержащейся в двоичном числе, равно количеству двоичных разрядов в этом числе. Один разряд двоичного числа позволяет сформировать два знака (символа): 0 и 1. Если N = 2, то 1=1 бит. Если N=32, то каждый символ несет 5 бит информации. Для алфавита, состоящего из 256 символов, объем информации, который несёт каждый символ 1=8 бит = 1 байт.

Формула Хартли является частным случаем формулы Шеннона. Формула Шеннона используется при расчете энтропии в ситуациях, когда вероятности появления символов различны (передается осмысленный текст):

Здесь pi - вероятность появления !-го символа.

Указанную величину I следует трактовать, как среднее значение (математическое ожидание) информации, приходящееся на один из неравновероятных символов.

Знак минус в формуле поставлен для того, чтобы измерять информацию положительными числами. В противном случае логарифм числа, меньшего единицы, даст отрицательное значение. Заметим, что

Безусловно, формулы Хартли и Шеннона не охватывают всех возможных случаев расчета энтропии. Например, эти формулы нельзя использовать для расчета условной энтропии.

Установлено, что текстовые (осмысленные) сообщения содержат много избыточной информации. Так, например, если во время передачи сообщения, произошел отказ в работе канала связи, и на приемной стороне было принято оборванное (неполное) сообщение типа «Спартак - чемии», то легко «догадаться», что, вероятно, полное сообщение было «Спартак - чемпион». Содержательный анализ принятого сообщения позволяет восстановить пропущенный или недостающий фрагменты осмысленного текста.

К.Шеннон установил, что в английских текстах избыточная информация достигает 80% от общего объема информации, заключенной в письменном сообщении. Оставшиеся 20% текста являются источником снятия неопределенности, непредсказуемости полученною текста. Именно эти 20% текста несут новую информацию, снимают неопределенность, дают знание.

В русском языке (так же, как и в языках других народов) существует статистическая устойчивость вероятности появления каждой буквы алфавита. Так буква «о» в русских текстах появляется значительно чаще, чем буква «ъ». Кроме того, существует зависимость вероятности появления буквы от того, какая буква в осмысленном тексте ей предшествовала. Очевидно, что вероятность появления сочетания букв «ма» значительно выше, чем у сочетания букв «мъ».

Знание правил грамматики конкретного естественного языка позволяет с высокой вероятностью заранее предсказать очередную букву сообщения, если по каналу связи был получен какой-то осмысленный текст (то есть из контекста). Полученную с помощью существующих правил грамматики информацию К.Шеннон определил, как «избыточную» - лишнюю. Это объясняется тем, что знание правил построения сообщений позволяет предсказывать появление букв раньше, чем они будут переданы по каналу связи.

Избыточность текста наблюдается в тех случаях, когда вероятности появления различных символов различны, и когда вероятность появления очередного символа зависит от ранее принятого символа. Избыточность позволяет правильно понять содержание осмысленного текста даже при наличии в нем ошибок или пропуска символов. Для подобных случаев выведены формулы, которые учитывают тот факт, что вероятность появление очередного символа зависит от принятых предыдущих символов (учитывается условная энтропия.

Современные достижения в области теории информации позволили разработать эффективные критп офафические системы, системы массового обслуживания. Па основании теории информации разработаны алгоритмы и программы для сжатия файлов, а также для кодирования, обнаружения и исправления ошибок в полученных данных. Теория информации помогла разработать эффективные способы ослабления действия помех, действующих в каналах связи.

Теория информации позволила эффективно решить множество прикладных вопросов, например, создать модемы для телефонных каналов, у которых скорость передачи информации приблизилась к теоретической пропускной способности существующих каналов связи.

 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ ОРИГИНАЛ   След >
 

Популярные страницы