Разделы сайта

Автомобили Астрономия Биология География Дом и сад Другие языки Другое Информатика История Культура Литература Логика Математика Медицина Металлургия Механика Образование Охрана труда Педагогика Политика Право Психология Религия Риторика Социология Спорт Строительство Технология Туризм Физика Философия Финансы Химия Черчение Экология Экономика Электроника

Стандарт MPEG-2

⇐ ПредыдущаяСтр 43 из 159Следующая ⇒

Рассмотрим в качестве примера стандарт MPEG-2, который состоит из трех основных частей: системной, видео и звуковой.

Системная часть описывает форматы кодирования для мультиплексирования звуковой, видео- и другой информации, рассматривает вопросы комбинирования одного или более потоков данных в один или множество потоков, пригодных для хранения или передачи.

Системное кодирование в соответствии с синтаксическими и семантическими налагаемыми данным стандартом, обеспечивает необходимую и достаточную информацию, чтобы синхронизировать декодирование без переполнения или «недополнения» буферов декодера при различных условиях приема восстановления потоков.

Таким образом, системный уровень выполняет пять основных функций:

• синхронизацию нескольких сжатых потоков при воспроизведении;

• объединение нескольких сжатых потоков в единый поток;

• инициализацию для начала воспроизведения;

• обслуживание буфера;

• определение временной шкалы.

Видеочасть стандарта описывает кодированный битовый поток для высококачественного цифрового видео. MPEG-2 является совместимым расширением MPEG-1, он поддерживает чересстрочный видеоформат и содержит средства для поддержки ТВЧ (телевидение высокой четкости).

Стандарт MPEG-2 определяется в терминах расширяемых профилей, каждый из которых, являясь частным случаем стандарта, имеет черты, необходимые всем классам приложений.

Иерархические масштабируемые профили могут поддерживать такие приложения, как совместимое наземное многопрограммное ТВ (ТВЧ), пакетные сетевые видеосистемы, обратную совместимость с другими стандартами (MPEG-1 и Н.261) и приложениями, использующими многоуровневое кодирование.

Звуковая часть стандарта MPEG-2 определяет кодирование многоканального звука. MPEG-2 поддерживает до пяти полных широкополосных каналов плюс дополнительный низкочастотный канал и (или) до семи многоязычных комментаторских каналов. Он также расширяет возможности кодирования моно-и стереозвуковых сигналов в MPEG-1 за счет использования половинных частот дискретизации (16; 22, 05 и 24 кГц) для улучшения качества при скоростях передачи 64 кбит/с и ниже.

JPEG-форматы (M-JPEG Cine Pack) основаны на сжатии каждого кадра из видеопоследовательности. Этот подход получил название intraframe compression (внутрикадровое сжатие). Стандарт MPEG использует как intraframe, так и interframe compression (межкадровое сжатие). При межкадровом сжатии задаются опорные кадры, а последующие и предыдущие вычисляются на их основе. Поэтому межкадровая схема позволяет достичь большего сжатия — не надо хранить каждый кадр, запоминаются только различия между кадрами.

Стандарт MPEG-2 не регламентирует методы сжатия видео сигнала, а только определяет, как должен выглядеть битовый поток кодированного видеосигнала, поэтому конкретные алгоритмы являются коммерческой тайной фирм—производителей оборудования. Однако существуют общие принципы, и процесс сжатия цифрового видеосигнала может быть разбит на ряд последовательных операций (рис. 3.20):

• преобразование аналогового сигнала в цифровую форму;

• предварительная обработка;

• дискретное косинусное преобразование;

• квантование;

• кодирование.

После аналого-цифрового преобразователя (АЦП) производится предварительная обработка сигнала, которая включает в себя следующие преобразования.

1. Удаление избыточной информации. Например, если фон изображения состоит из идентичных символов (пикселей), то совершенно не обязательно их все передавать. Достаточно описать один пиксель и послать его с сообщением о том, как часто и где он повторяется в изображении.

2. Если исходное изображение передается в виде чересстрочных полей, то они преобразуются в кадры с прогрессивной разверткой.

3. Сигналы цветности (RGB) преобразуются в цветоразностные сигналы U и V и сигнал яркости Y.

4. Изображение достраивается до кратного 16 количества пикселей по строкам и столбцам, чтобы обеспечить разбиение изображения на целое число макроблоков.

5. Производится преобразование из формата цветности 4: 4: 4 в формат 4: 2: 2 (горизонтальная передискретизация цветоразностных компонентов) или 4: 2: 0 (горизонтальная и вертикальная передискретизация цветоразностных компонентов).

Квантование. Изображение разбивается на последовательность макроблоков, каждый из которых состоит из шести блоков по 8 х 8 пикселей:

• четыре образуют матрицу 16 х 16 и несут информацию о яркости;

• по одному — определяют цветоразностные компоненты U и V, которые соответствуют области изображения, покрываемой матрицей 16 х 16 пикселей.

Стандарт предусматривает два формата цветности, каждому из которых соответствует свой порядок блоков в макроблоке (рис. 3.21):

• 4: 2: 0 — макроблок состоит из шести блоков — четыре блока яркости Y_D и два блока цветности C_R И С_в;

• 4: 4: 4 — макроблок состоит из двенадцати блоков. Он содержит четыре блока Y_D, четыре C_R и четыре С_в.

Производится разбиение потока кадров изображения по типам, для них находятся векторы движения, которые необходимы для повышения предсказуемости величин элементов изображения. Векторы движения обеспечивают компенсацию перемещений в прошедших и последующих кадрах.

Компенсация движения применяется при предсказании текущего кадра на основе предыдущих и интерполяционного предсказания на основе прошедших и последующих изображений. Векторы движения определяются для каждой зоны изображения с размерами

16 х 16 пикселей, т. е. для макроблоков. В большинстве случаев видиеопоследовательности содержат избыточность в двух направлениях — временном и пространственном. Главное статистическое свойство, на котором основана аппаратура сжатия, — межэлементная корреляция, включающая предположение о коррелированности последовательных кадров видеоданных. Таким образом, значения отдельных пикселей изображения могут быть предсказаны либо по значениям ближайших пикселей внутри одного кадра (внутрикадровое кодирование), либо по значениям пикселей, расположенных в ближайших кадрах (межкадровое кодирование и компенсация перемещения).

Кодирование. В некоторых случаях, например, при смене видеосцены в видеопоследовательности, временная корреляция между ближайшими кадрами очень низка. В таких случаях решающую роль в достижении эффективного сжатия видеоинформации играет внутрикадровая корреляция, т. е. пространственная корреляция пикселей изображения. Однако, если корреляция между последовательными кадрами видеоданных высока, то в случае, когда два последовательных кадра имеют схожее или одинаковое содержание, желательно применение межкадровой корреляции пикселей с временным предсказанием. На практике для достижения высокого коэффициента сжатия видеоинформации используется комбинация из двух подходов.

Стандарт MPEG-2 определяет три типа кадров, для каждого из которых предусмотрен свой вид кодирования:

• опорные кадры, так называемые I-кадры (Intra Frames), которые являются основными и кодируются без обращения к другим кадрам, т. е. с использованием информации только этого кадра. Вид кодирования — внутрикадровый, обеспечивающий умеренное сжатие. Все остальные кадры анализируются процессором, который сравнивает их с опорными, а также между собой;

• Р – кадры (Predicted) — закодированные относительно предыдущих I- или Р- кадров. Кодирование Р- кадров выполняют с использованием алгоритмов компенсации движения и

предсказанием «вперед» по предшествующим I- и Р- кадрам. Они сжаты в 3 раза сильнее, чем I-кадры, и служат опорными для последующих Р- и В-кадров. Компенсация движения, применяемая к макроблокам Р- кадров, вырабатывает два вида информации: векторы движения (разница между базовыми и кодированными макроблоками) и значения ошибок (разница между предсказанными величинами и действительными результатами). Если макроблок в Р- кадре не может быть описан с использованием компенсации движения, что случается при появлении некоторого неизвестного объекта, то он кодируется тем же способом что и макроблок в I -кадре;

• В-кадры (Bidirectionally Predicted) — закодированные относительно предыдущих и последующих кадров, т. е. с двунаправленным предсказанием и компенсацией движения.

В-кадры имеют наибольшее сжатие.

Таким образом, в стандарте MPEG-2 используются три вида кодирования: внутрикадровое, межкадровое «вперед» с компенсацией движения, межкадровое двунаправленное, также с компенсацией движения.

Полученные кадры объединяются в группы последовательных кадров (GOP — group of pictures). Каждая последовательность начинается с I-кадра и состоит из переменного числа Р- и В-кадров. В описаниях алгоритмов кодирования MPEG и его реализаций не содержится никакой информации относительно методов выделения I-, Р- и В-кадров в видеопоследовательности. В начале сцены должен стоять I-кадр, в конце — Р-кадр. Увеличивать долю В-кадров можно только в рамках одной сцены, иначе возникнут большие ошибки предсказания и компенсации движения. Поскольку типичная длительность группы кадров (во временном представлении — примерно 0, 5 с) значительно меньше характерного расстояния между границами сцен, то в большинстве случаев жесткое задание структуры группы кадров не приводит к существенным визуальным ошибкам из-за того, что смена сцен попадает внутрь группы кадров.

На рис. 3.17 изображен порядок кодирования I-, Р- и В-кадров. Верхний ряд кадров демонстрирует исходную последовательность на входе кодера, нижний — после кодирования. Основными параметрами GOP являются длина последовательности N и порядок чередования Р- кадров. Например, в последовательности кадров, представленной на рис. 3.22, N= 7, М- 3, т. е. каждый третий кадр в последовательности — типа Р.

Из применявшихся до сих пор форматов групп для частоты полей 30 Гц типичной была последовательность IBBPBBPBBPBBP/BBIBBP... с N=13 (для первой группы) и M=3, в которой группу составляют 15 кадров, начинающихся с двух В-кадров и одного I-кадра, и каждые два В-кадра перемежаются с Р- кадром. Для частоты 25 Гц типичной является такая же последовательность, нос с N=12 и М=3. Такой выбор сделан для того, чтобы обеспечить одновременное выполнение требовании максимального сжатия и произвольного доступа к любому из кадров последовательности. Между тем именно В-кадры обеспечивают максимальное сжатие, и если бы удалось поднять долю В- кадров в группе, а I-кадрами обозначить границы сцен, то эффективность сжатия была бы увеличена.

Для блоков с использованием компенсации движения находятся разностные ошибки предсказания движения.

Следует упомянуть еще две возможности MPEG-алгоритмов.

Это Motion Estimation (ME, в свободном переводе — оценка перемещений) и Spatial Redundancy (SR — пространственная избыточность). ME — метод, по которому реализуется вычисление Р- и В- кадров по опорным кадрам. Первым шагом в ME является разбиение кадров на блоки 16x16 пикселей. Далее блоки одного кадра сравниваются с соответствующими блоками другого кадра и, если они изменяют положение от кадра к кадру, их перемещение описывается векторами движения, которые и записываются в MPEG-поток.

На следующем этапе кодирования применяется метод пространственной избыточности, позволяющий еще более сократить объем данных, описывая разность между соответствующими блоками. Используя дискретное косинус-преобразование, блоки подразделяются на подблоки 8x8 для отслеживания изменения цвета и яркости.

Очевидно, что чем больше коэффициент сжатия, тем хуже качество. Коэффициент сжатия — это численное выражение соотношения между объемом сжатого и исходного видеоматериала. Для MPEG сейчас стандартом считается соотношение 200: 1, при этом сохраняется неплохое качество видео. Различные варианты Motion-JPEG работают с коэффициентами от 5: 1 до 100: 1, хотя даже при уровне в 20: 1 уже трудно добиться нормального качества изображения. Кроме того, качество видео зависит не только от алгоритма сжатия (MPEG или Motion-JPEG), но и от параметров цифровой видеоплаты, конфигурации компьютера, а также от программного обеспечения.

Профили MPEG. Как уже отмечалось выше, в стандарте применяется концепция профилей и уровней (табл. 3.8).

Стандарт предусматривает пять профилей:

• простой (simple) — для реализации видеопотока без В-кадров;

• главный (main) — для реализации всех уровней, но без масштабируемости;

• масштабируемый по отношению сигнал/шум (SNR scalable);

• пространственно масштабируемый (spatiallyscalable);

• профессиональный (professional 4: 2: 2), пространственно масштабируемый и масштабируемый по отношению сигнал/шум.

Каждый из этих профилей можно подразделить на четыре уровня:

• низкий (LL);

• главный (ML);

• высокий 1440 (Н1440);

• высокий (HL).

Каждому профилю соответствуют определенные наборы on раций по сжатию данных.

В профиле простой используется наименьшее число операций: компенсация движения и гибридное дискретное косинусное преобразование (ДКП, DCT).

Профиль главный содержит дополнительную операцию — предсказание по двум направлениям, что улучшает качество изображения.

Профиль масштабируемый по отношению сигнал/шум предусматривает повышение устойчивости системы при снижении отношения сигнал/шум. Поток видеоданных разделяют на две части: базовый поток и расширенный поток. Первый несет наиболее значимую информацию, второй — дополнительную.

Профиль пространственно масштабируемый содержит все операции предыдущего профиля и новую — разделение потока видеоданных по критерию четкости телевизионного изображения. Этот профиль обеспечивает переходы между ныне действующим стандартом и ТВЧ.

В рассмотренных четырех профилях при кодировании сигналов яркости и цветности используют формат представления видеоданных 4: 2: 0, где число отсчетов сигналов цветности по сравнению с сигналом яркости снижено в 2 раза по горизонтальному и вертикальному направлениям.

В профиле профессиональный используют формат 4: 2: 2, т. е. число отсчетов сигналов цветности в вертикальном направлении такое же, как и в яркостном сигнале. Кроме этого, предусматривается возможность масштабирования — пространственного и по отношению сигнал/шум.

Уровню низкий соответствует недавно введенный класс качества телевизионного изображения — ТВ ограниченной четкости. Уровню главный соответствует ТВ обычной четкости. Уровни высокий 1440 и высокий предусмотрены для ТВЧ, где использовано разложение на 1152 активные строки.

Каждый из этих профилей и уровней определяет предельныезначения основных параметров битового потока, как это показано в табл. 3.8.

Сочетание профиля и уровня образует некоторое подмножество общего стандарта MPEG-2 применительно к различным задачам, для решения которых он предназначен. Такое сочетание принято обозначать аббревиатурой. Например, MP@ML означает главный профиль и главный уровень. Профессиональный профиль в сочетании с главным уровнем (422P@ML) послужил основой принятого в 1996 г. подмножества стандарта MPEG-2 для цифрового телевещания.

⇐ Предыдущая 38 39 40 41 424344 45 46 47 Следующая ⇒

© 2023 :: MyLektsii.ru :: Мои Лекции
Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав.
Копирование текстов разрешено только с указанием индексируемой ссылки на источник.