Меню
Главная
Авторизация/Регистрация
 
Главная arrow Информатика arrow Информатика 2015

3.5. Методы сжатия информации с потерями

Не прожить нам в мире этом, без потерь, без потерь.

Петерс Я., Шаферам И.

(Слова из песни)

Для уменьшения размеров мультимедийных файлов используют процедуру сжатия.

Под сжатием (компрессией, упаковкой) с потерями понимается такое преобразование информации, в результате которого исходный файл уменьшается в объеме, а количество информации в сжатом файле уменьшается на такую небольшую величину, которой практически можно пренебречь.

Многие приемы сжатия аудио- и видеоинформации основываются на «обмане» ортанов чувств (зрение и слух) человека путем исключения избыточной информации, которую человек (в силу своих психофизических особенностей) не способен воспринять.

Разработано несколько стандартов сжатия видео- и аудиоинформации.

Большее влияние на настоящее и будущее мультимедийных средств оказывает MPEG (Moving Picture Experts Group) — объединенный комитет двух организаций: Интернациональной организации по стандартизации (ISO) и Интернациональной электротехнической комиссии (IEC). Этот комитет разрабатывает стандарты с одноименными названиями. Так стандарт MPEG-1 был разработан с учетом возможностей двухскоростных нрошрыва- телей лазерных дисков CD-ROM и компьютеров с 486-м процессором.

В январе 1992 г. комитет MPEG опубликовал проект стандарта MPEG-1, а в декабре 1993 г. проект был принят в качестве стандарта. По требованиям стандарта скорость передачи информации сжатого видео и звука должна укладываться в 1,5 Мбайт/с, хотя были предусмотрены режимы вплоть до 4— 5 Мбайт/с.

Окончательное утверждение MPEG-2 в качестве международного стандарта произошло в ноябре 1994 г. В его спецификациях была определена допустимая интенсивность потока данных: от 2 до 10 Мбайт/с.

Стандарт MPEG-2 позволяет записывать на лазерные диски, изготовленные но технологии DVD, полноэкранные фильмы «вещательного» качества. Для телевидения высокой четкости разрабатывался стандарт MPEG-3, который впоследствии стал частью стандарта MPEG-2 и отдельно теперь не упоминается.

Рассмотрим принципы сжатия звуковой информации, а затем — методы сжатия видеоинформации.

Согласно теореме Котельникова, чтобы восстановить без искажений аналоговый сигнал после его преобразования в цифровой сигнал, необходимо, чтобы частота выборки (дискретизации) была хотя бы вдвое выше верхней граничной частоты исходного сигнала. Для записи звука на компакт- диски используется частота выборки 44,1 кГц. Эта частота более чем в 2 раза превышает верхнюю граничную частоту, которую слышит человек.

Второй фактор, влияющий на качество воспроизводимого звука, — количество двоичных разрядов квантования. Исходный аналоговый сигнал изменяется непрерывно. В результате цифроаналогового преобразования восстановленный сигнал неизбежно отличается но форме от исходного сигнала, и это отличие тем больше, чем меньше разрядов использовалось для квантования сигнала. Искажение формы сигнала при воспроизведении эквивалентно добавлению некоего шума — шума квантования. Чтобы достичь практически полной неразличимости шумов квантования, при производстве компакт-дисков используется 16-разряднос квантование, при этом уровень громкости воспроизводимого звука может принимать одно из 216 = 65 536 значений.

Для записи стереофонического звука с частотой дискретизации 44,1 кГц и 16-ти битном квантовании требуется скорость передачи данных:

При такой скорости передачи информации сохраняются мельчайшие детали звуковой картины (в том числе и исходные шумы). Этот способ кодирования информации избыточен, так как многие детали исходной звуковой картины не воспринимается человеком из-за биологических ограничений.

Применение алгоритмов сжатия без потерь для файлов, содержащих оцифрованный звук в 1б-битном формате, не позволяет сжать исходный файл более чем в 2 раза. Оцифрованный (преобразованный с помощью АЦП) звуковой сигнал обычно не повторяет сам себя и но этой причине плохо сжимается с помощью алгоритмов компрессии без потерь.

Адаптивная разностная компрессия (Adaptive Differential Pulse Code Modulation, ADPCM) используется в основном для сжатия речевых сигналов. Для сжатия музыкальных произведений этот метод не подходит из-за сильных искажений. Идея компрессии ADPCM заключается в том, что оцифрованный речевой сигнал представляют нс самими отсчетами, а разностями соседних отсчетов, меньших по величине и, следовательно, требующих меньшего числа битов для своего представления.

Рассмотрим основные идеи сжатия аудиоинформации, которые базируются на учёте психофизических офаничений человека.

Основные приемы, положенные в основу сжатия информации с помощью стандартов MPEG, базируются на объективно существующих психоакустических офаничениях органов чувств человека. Человеческое ухо способно воспринимать звуковые колебания, лежащие лишь в диапазоне частот 20—20000 Гц, причем с возрастом этот диапазон сужается. Методы сжатия звуковых данных, основанные на использовании физиологических особенностей человека, относятся к классу компрессии с потерями. Эти методы не пытаются достичь абсолютно точною восстановления формы исходных колебаний. Их главная задача — достижение максимальною сжатия звукового сигнала при минимальных слышимых искажениях восстановленного после сжатия сигнала.

Звуковой файл можно сжать с помощью компандирования. Название этого метода происходит ог английского термина compander, который образован от английских слов: compressing— expanding coder— decoder. Этот метод основан на законе, открытом психологами: если интенсивность раздражителя меняется в геометрической профессии, то интенсивность человеческого восприятия меняется в арифметической прогрессии.

Компандирование заключается в компрессии (сжатии) но амплитуде исходного звукового сигнала. Затем сжатый сигнал восстанавливается с помощью экспандера (расширителя).

Компрессия — это сжатие динамического диапазона сигнала, когда слабые звуки усиливаются сильнее, а сильные— слабее. На слух это воспринимается как уменьшение различия между тихим и громким звучанием исходного сигнала.

Установлено, что, если повышать фомкость звука в 2, 4, 8 и т. д. раз, то человеческое ухо будет воспринимать этот процесс как линейное увеличение интенсивности звука. Изменение уровня громкости с 1 единицы до 2 единиц столь же заметно для человеческого уха, как и изменение громкости от 50 до 100 единиц. В то же время изменение громкости от 100 единиц до 101 единицы человеком практически не ощущается. Таким образом, ухо человека логарифмирует фомкость слышимых звуков.

При компандировании значение амплитуды звука заменяется логарифмом этого значения. Полученные числа округляются, и для их записи требуется меньшее число разрядов.

При 16-битном кодировании звука максимальное значение кода не превышает значение 216. Логарифм этого числа по основанию 2 равен 16. Последнее число может быть закодировано пятью двоичными разрядами (1610 = ЮОООг). Таким образом, для представления информации вместо 16 бит можно использовать лишь 5 бит. Этим достигается сжатие информации. Для воспроизведения компрессированного сигнала его подвергают обратному по сравнению с логарифмированием преобразованию — потенцированию.

Еще один способ сжатия звуковой информации заключается в том, что исходный звуковой сигнал очищается с помощью фильтров от неслышимых компонентов (например, убирают низкие басовые шумы). Затем производится более сложный анализ сигнала: удаляются замаскированные частоты, заглушенные другими мощными сигналами. Таким образом, можно исключить до 70% информации из сигнала, практически не изменив качество его звучания.

Сжатие сигнала также можно получить за счет еще одного приема.

Если исходный сигнал является стереофоническим, то его можно преобразовать в так называемый совмещенный стереофонический сигнал. Установлено, что слуховой аппарат человека может определить местоположение источника звука лишь на средних частотах, а высокие и низкие частоты звучат как бы отдельно от источника звука. Таким образом, высокие и низкие частоты можно представить в виде монофонического сигнала (т. е. без разделения на два стереофонических канала). Это позволяет вдвое уменьшить объем информации, передаваемой на низких и высоких частотах.

Еще одна возможность сжатия звукового сигнала связана с наличием двух потоков информации для левого и правого каналов. Например, если в правом канале наблюдается какое-то время полная тишина, то это пустующее место используется для повышения качества звучания левого канала или туда помещают данные, которые не уместились в компрессированный поток в предыдущие моменты времени.

Одно из свойств человеческого слуха заключается в маскировании тихого звука, следующего сразу за громким звуком. Так после выстрела пушки в течение некоторого времени трудно услышать стрекот кузнечиков.

При сжатии звукового сигнала замаскированный, почти неслышимый звук не сохраняется в памяти ЭВМ и не передаётся через каналы связи. Например, громкий звук длительностью 0,1 с может замаскировать тихие последующие звуки, запаздывающие на время до 0,5 с, а значит, их не надо сохранять. Такая процедура исключения сигнала, следующего за громким звуком, называется маскированием во временной области.

Для человеческого уха характерно также и явление маскирования в частотной области, заключающееся в том, что постоянно звучащий громкий синусоидальный сигнал маскирует («глушит») тихие сигналы, которые близко лежат на оси частот к громкому сигналу. Когда-то в СССР таким приемом «глушили» западные радиостанции, например, «Голос Америки». Для этого на близкой к рабочей частоте передавали мощный «белый шум» и принимаемая информация становилась неразборчивой.

При техническом использовании таких физиологических особенностей человеческого слуха уплотняемый сигнал переносят с помощью быстрого преобразования Фурье из временной области в частотную область. Затем удаляют спектральные составляющие, замаскированные громким сигналом, и делают обратное преобразование Фурье.

Еще одна возможность компрессии основывается на следующей особенности человеческого слуха. Экспериментально установлено, что в диапазонах частот 20—200 Гц и 14—20 кГц чувствительность человеческого слуха существенно ниже, чем на частотах 0,2—14 кГц. По этой причине допустимо более грубое квантование сигналов в указанных диапазонах частот. На этих частотах для нредставления непрерывных сигналов двоичными числами требуется меньшее число уровней, а значит и меньшее число битов. Так, в среднем диапазоне частот амплитуды кодируются 16 битами, а на частотах, где ухо менее чувствительно — 6 и даже 4 битами.

Биоакустические свойства человеческого слуха не позволяют сжать звуковой сигнал, если он представляет собой однотонные звуки с постоянным уровнем громкости. В этом случае наряду с рассмотренными приемами сжатия дают эффект традиционные методы архивации информации (например, алгоритм Хаффмана или RLE).

Познакомимся с основными показателями, характеризующими качество движущихся изображений.

Частота кадра (Frame Rate). Стандартная скорость воспроизведения видеосигнала 30 кадров/с (для кино этот показатель составляет 24 кадра/с). Экспериментально установлено, что иллюзия равномерно движущегося изображения возникает при частоте смены кадров более 16-ти в секунду. В этом случае человек воспринимает быстроменяющиеся картинки в виде динамичного непрерывного изображения. Заметим, что первые фильмы были сняты с использованием частоты 8 кадров/с (вспомним фильмы Чарли Чаплина).

Глубина цвета (Color Resolution). Этот показатель определяет количество цветов, которые можно одновременно отобразить на экране. Компьютеры обрабатывают цвет в RGB-формате (красный— зеленый— синий). RGB-формат позволяет путем смешения в разных пропорциях трех основных цветов получить любой другой цвет или опенок. Для цветовой модели RGB обычно характерны следующие режимы глубины цвета: 8 бит/пиксель (256 цветов), 16 бит/пиксель (65 535 цветов) и 24 бит/пиксель (16,7 миллиона цветов).

Экранное разрешение (Spatial Resolution) или, другими словами, количество точек, из которых состоит изображение на экране, например, 1920 х 1080 точек (пикселей).

Качество изображения (Image Quality). Эго комплексный показатель, который вбирает в себя три предыдущих. Требования к качеству зависят от конкретной задачи.

Расчеты показывают, что 24-битное цветное видео при разрешении 640 х 480 пикселей и частоте 30 кадров/с требует передачи более 26 Мбайт данных в секунду. Для наглядности приводим здесь эти расчеты.

Для оптимизации процесса кодирования информации необходимо, с одной стороны, не передавать избыточную информацию, а с другой стороны, не допускать чрезмерной потери качества изображения.

В зависимости от скорости упаковки изображений методы сжатия подразделяются на две группы. К первой группе относится метод сжатия неподвижных изображений. Сжатие может выполняться с любой скоростью, так как этот процесс не регламентирован временем (в силу статичности изображения). Вторую группу образуют методы сжатия движущихся изображений. Сжатие движущихся изображений должно выполняться, как правило, в режиме реального времени по мере ввода данных.

Стандарт JPEG (Joint Photographic Experts Group), предложенный Объединенной группой экспертов в области фотографии, позволяет сократить размеры графического файла с неподвижным изображением в 10—20 раз.

Наибольшее распространение для сжатия движущихся изображений получил стандарт MPEG.

С помощью стандарта MPEG обрабатывается каждый кадр по отдельности, а также анализируется динамика изменения изображения. Этим удается уменьшить избыточные данные, так как в большинстве случаев фон изображения остается достаточно стабильным, а изменения происходят в основном на переднем плане. MPEG начинает сжатие с создания исходного (ключевого) кадра, называемою Intra (внутренний) кадр. 1-кадры играют роль опорных при восстановлении остального видеоизображения и размещаются последовательно через несколько кадров. 1-кадры формируют с помощью методов, разработанных стандартом JPEG для сжатия неподвижных изображений (например, фотографий).

Фрагменты изображений, которые претерпевают изменения, сохраняются при помощи Predicted (расчетных, предсказываемых) кадров. Р- кадры содержат различия текущего изображения с предыдущим кадром. Р- кадры формируются с использованием информации, полученной из предыдущих кадров.

Кроме перечисленных кадров, используются В-кадры, название которых происходит от английских слов Bidirectional Interpolated. В переводе с английского языка этот термин означает «кадры двунаправленной интерполяции (предсказания)». В-кадры содержат усредненную информацию относительно двух смежных (предыдущего и последующего) 1-кадров или Р-кадров. Эго позволяет предположительно восстанавливать (реконструировать, интерполировать) отсутствующие кадры.

В-кадры учитываю! тот факт, что человек не способен за доли секунды рассмотреть детали движущегося изображения, поэтому можно формировать некоторое приблизительное, усредненное (промежуточное) изображение, учитывая информацию опорных кадров. Здесь происходит умышленный обман органов чувств человека, за счет чего происходит сжатие информации. Примерная последовательность кадров выглядит следующим образом: IBBPBBIBBPBBIBB...

Очевидно, что существенный выигрыш в сжатии информации дают Р- и особенно В-кадры, гак как для формирования 1-кадров необходимо использовать всю имеющуюся информацию об изображении.

При сжатии изображений (как и при сжатии звуков) используются физиологические особенности человека. Установлено, что ошибки в изображении заметны глазом (визуально), если они превышают некоторый порог заметности. Различают пространственную и временную заметность искажений изображений.

Порог заметности пространственных изменений яркости зависит от многих факторов: яркости деталей изображения, яркости фона, относительного положения деталей различной яркости, условий внешнего освещения.

Что касается временного восприятия цвета, то известно, что вариация цветности менее заметны, чем вариация яркости. Наиболее заметны изменения зеленого цвета, затем красного. Наименее заметны изменения синего цвета.

Используя эту особенность зрения человека, можно при упаковке (сжатии) изображения исключить данные о цвете, скажем, каждой второй точки изображения (сохранив только ее яркость), а при распаковке брать вместо исключенного цвета цвет соседней точки. Аналогично для группы соседних точек брать можно некоторый средний цвет.

За высокое качество сжатия, как правило, приходится платить большими затратами времени на упаковку и распаковку. Алгоритмы, дающие хорошее качество сжатия, могут оказаться неприменимыми из-за слишком большого времени, необходимого для распаковки информации. Разработчики новых методов упаковки всегда ищут компромисс между качеством сжатия и скоростью распаковки.

Как правило, информацию можно «не торопясь» сжать, а при воспроизведении распаковать с большой скоростью. По бывают случаи, когда информацию нужно упаковать «на лету», т. е. в режиме реального времени. Такая ситуация возникает, например, при передаче изображения с видеокамеры в Интернет.

Степень сжатия характеризуется коэффициентом сжатия, который численно равен отношению объема исходного файла к объему сжатого файла.

Выбор коэффициентов сжатия — это компромисс между скоростью передачи файлов и качеством восстанавливаемого изображения. Чем выше коэффициент сжатия, тем ниже это качество. При этом следует иметь в виду, что при очень высокой разрешающей способности и большой степени сжатия можно получить изображение с низкой разрешающей способностью. Что касается требующегося качества изображения, го оно зависит от конкретной поставленной задачи. Например, в системах видеоконференций основной объем необходимой информации содержится в речи (звуке). Качество же изображения играет второстепенную роль.

При сжатии информации часто используется термин «кодек», который образован путем сокращения слов «кодер» и «декодер». Этим термином обозначается алгоритм, предназначенный для кодирования (сжатия) и декодирования (распаковки) цифровых сигналов, идущих от системы цифровой аудио- и видеозаписи. Алгоритм может быть реализован программно и загружен в намять компьютера, либо может быть реализован аппаратно с помощью специальной микросхемы. Симметричные кодеки упаковывают и распаковывают сигнал в реальном времени.

Некоторые сложные алгоритмы кодирования, например, алгоритм сжатия видеосигнала MPEG, не могут выполняться в реальном времени (при записи), поэтому кодек MPEG называется асимметричным.

 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ ОРИГИНАЛ   След >
 

Популярные страницы