Студопедия

Главная страница Случайная страница

Разделы сайта

АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторикаСоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника






Sandy Bridge Out-of-Order (OOO) Claster






 

Рис. XI.5 Использование физических регистровых файлов

в микроархитектуре Sandy Bridge

 

Это даёт возможность самим микрооперациям сохранять лишь указатели на операнды, но не сами операнды. С одной стороны, такой подход позволяет снизить энергопотребление процессора, поскольку перемещение по конвейеру микроопераций вместе с их операндами требует существенных затрат энергопотребления. С другой стороны, применение физического регистрового файла помогает сэкономить место на кристалле, а высвободившееся пространство использовать для увеличения буферов кластера внеочередного исполнения команд (Load Buffers, Store Buffers, Reoder Buffers). В микроархитектуре Sandy Bridge физический регистровый файл для целочисленных операндов (PRF Integer) рассчитан на 160 записей, а для операндов с плавающей запятой (PRF Float Point) – на 144 записи.

В целом, компоненты блока, в котором формируется информация для наиболее эффективной ее обработки, не в порядке ее поступления в соответствие с программой (Out-of-Order), представлены в табл. X.3.

Табл.X.3

№ п/п Наименование компонентов модуля Out-of-Order обработки Емкость компонента
     
  Буфер переупорядочения – ROB (Re-Order Buffer) 168 μ ops
  Физический регистровый файл – PRF (Physical Register File), Integer 160× 64 bit
  Физический регистровый файл – PRF (Physical Register File), FP/Vector 144× 256 bit
  Буфер декодированных, но еще не выполненных микрокоманд – RS (Reservation Station) 54 μ ops
  Буферы записи – Load Buffers 64× 32 bit
  Буферы чтения – Save Buffers 36× 16 bit

 

Загрузка микрокоманд всех типов SIMD, и целочисленных и с плавающей запятой, осуществляется по одинаковому сценарию, единым унифицированным планировщиком-распределителем (Scheduler), динамически распределенным между всеми потоками. Исполнительный модуль (Execution Cluster) включает в себя три вычислительных порта, определенным образом специализированных (Port 0, Port 1 и Port 5), два порта загрузки данных (Port 2, Port3), и порт сохранения (выдачи) данных (Port 4).

Управление адресами загрузки и сохранения данных осуществляется контроллером памяти (Memory Control). Кэш L1 данных представляет собой, четырехканальную (четырехвходовую) множественно-ассоциативную память, емкостью 32 Кбайт, с длиной строки также 16 байт. Таким образом, обмен информацией между памятью кэш L1 данных и исполнительным модулем осуществляется с быстродействием 48 байт за такт (два запроса на чтение по 16 байт и один запрос на запись до 16 байт данных).

Кэш L2 каждого ядра представляет собой также восьмиканальную множественно-ассоциативную память, но емкостью 256 Кбайт каждая, причём компания Intel называет кэш L2 – промежуточным (Midlle Level Cache, MLC).

В заключении рассмотрим наиболее важные технологии, которые используются в микропроцессорах архитектуры Sandy Bridge.

 

Технология Simultaneous Multi-Threading (SMT)

Технология SMT – это, по сути, новое название технологии HT (Hyper-Threading), которая широко использовалась в процессорах Pentium 4 с микроархитектурой NetBurst. По непонятной причине при переходе к микроархитектуре Intel Core, она была сначала упразднена, но снова появилась в мобильных микропроцессорах Intel Atom, затем, в МП архитектуры Nehalem, а теперь и в Sandy Bridge. Эта технология позволяет одному вычислительному ядру параллельно исполнять два потока команд за счет использования тех элементов ядра, которые простаивают при выполнении одного из потоков. При этом некоторые, особенно часто используемые элементы дублируются. Следовательно, с точки зрения операционной системы, четырехъядерный процессор Sandy Bridge, использующий эту технологию, будет рассматриваться как восьмиядерный. Конечно, в общем случае при этом производительность не будет удваиваться, поскольку эти восемь логических процессоров вынуждены делить между собой общий набор исполнительных модулей вычислительного ядра, однако суммарная производительность оказывается выше, по некоторым данным на 20 – 25%.






© 2023 :: MyLektsii.ru :: Мои Лекции
Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав.
Копирование текстов разрешено только с указанием индексируемой ссылки на источник.