booksshare.net -> Добавить материал -> Физика -> Александров Е.К. -> "Микропроцессорные системы" -> 517

Микропроцессорные системы - Александров Е.К.

Александров Е.К., Грушвицкий Р.И., Купрянов М.С., Мартынов О.Е. Микропроцессорные системы — Спб.: Политехника, 2002. — 935 c.
ISBN 5-7325-0516-4
Скачать (прямая ссылка): mikroprocessorniesistemi2002.djvu

Предыдущая << 1 .. 511 512 513 514 515 516 < 517 > 518 519 520 521 522 523 .. 528 >> Следующая

без влияния на производительность системы.
Факторы, ограничивающие число процессоров в системе, различны для
рассмотренного случая и для архитектуры с сетью из коммутаторов (см.
рис.9.3, а, б). Дополнение процессоров в коммутатор дорого, однако общая
производительность системы возрастает с числом портов. Цена добавления
процессоров к шине - мала, но производительность всей системы остается
фиксированной. В последнем случае ограничителем является пропускная
способность шины. Если цена доступа к памяти станет слишком большой,
процессоры будут тратить большую часть времени на режим ожидания и
преимущество большого числа процессоров будет снивелировано.
Один из естественных подходов построения масштабируемых машин с
разделяемой общей памятью, поддерживающих симметричный доступ к памяти,
показан на рис. 9.2. Он обеспечивает масштабируемость коммуникационной
среды между процессорами и
915
АРХИТЕКТУРЫ ПАРАЛЛЕЛЬНЫХ ВЫЧИСЛИТЕЛЬНЫХ СИСТЕМ
модулями памяти. Основной недостаток заключается в том, что при каждом
обращении к памяти затрачивается много времени на ожидание кругового
путешествия по сети, поэтому каждый процессор должен обеспечить высокую
пропускную способность.
Альтернативный подход создания масштабируемой среды взаимодействия
процессоров показан на рис. 9.6.
Процессор и модули памяти интегрированы между собой таким образом, что
доступ к локальной памяти осуществляется существенно быстрее, чем к
удаленной. Такая организация взаимодействия процессоров носит название
несимметричного доступа к памяти (nonuniform memory access - NUMA), при
котором контроллер локальной памяти определяет, выполнять ли доступ к
локальной памяти или осуществлять транзакцию сообщения к удаленной памяти
(при этом системы ввода/вывода могут быть либо частью каждого модуля,
либо консолидироваться в специальный модуль I/O). В таком случае доступ к
собственным данным процессора часто может быть выполнен локально, как и
доступ к разделяемым данным, если они сохранены в локальном модуле.
Доступ к локальной памяти быстрый и не возрастает во времени по сравнению
с удаленным доступом. Сред-
916
АРХИТЕКТУРЫ С РАЗДЕЛЯЕМОЙ ОБЩЕЙ ПАМЯТЬЮ
Рис. 9.6. Многопроцессорная система с несимметричным доступом к
разделяемой памяти
нее время доступа существенно уменьшается, если большую часть занимают
обращения к локальной памяти. Требования к пропускной способности сети
тоже уменьшаются.
Несмотря на некую привлекательность концептуальной простоты SMP-
архитектуры, подход NUMA стал куда более приемлемым для больших
многопроцессорных систем благодаря его неотъемлемым преимуществам,
приводящим к росту производительности таких систем.
Примером такого стиля проектирования является CRAY ТЗЕ, показанный на
рис. 9.7.
CRAY ТЗЕ может содержать до тысяч процессоров, работающих с глобальным
общим адресным пространством. Каждый модуль (node) содержит DEC Alpha-
процессор (Пр), локальную память (П), интегрированный с контроллером
памяти сетевой интерфейс и сетевой коммутатор. Компьютер организован как
трехмерный куб, в котором каждый модуль соединяется с его соседями через
650 Мб/с линки (стандарт point-to-point). Любой процессор может иметь
доступ к любой памяти, однако идеология NUMA реализована в
коммуникационной архитектуре как наилучшая для характеристик
производительности системы. Контроллер памяти модуля захватывает доступ к
удаленной памяти и руководит транзакцией сообщения в контроллере памяти
удаленного модуля от имени локального процессора. Транзакция сообщения
автоматически маршрутизируется через промежуточные модули (вершины) до
места назначения, с малыми задержками на каж-
z
Рис. 9.7. Структура суперкомпьютера CRAY ТЗЕ
917
АРХИТЕКТУРЫ ПАРАЛЛЕЛЬНЫХ ВЫЧИСЛИТЕЛЬНЫХ СИСТЕМ
дом переходе. Данные удаленной памяти не кэшируются, поскольку нет
аппаратного механизма их сохранения. Система ввода/вывода CRAY ТЗЕ
распределена между совокупностями вершин, располагающихся на поверхности
куба, которые соединяются с внешним миром через дополнительную сеть.
В этой машине реализована структура, при которой, хотя вся память и
доступна любому процессору, распределение данных между процессорами
отдано программисту. Кэшпамять (С) используется только для хранения
данных (инструкций) из локальной памяти. Таким образом, задача
программиста - избежать частых обращений к удаленной памяти.
В заключение надо отметить, что операции взаимодействия и синхронизации в
моделях программирования с разделяемой общей адресной областью,
специфицируются операциями READS и WRITES разделяемых переменных. Эти
операции прямо отображаются в коммуникационные абстракции, содержащие
LOAD и STORE (инструкции доступа к глобальной разделяемой общей памяти),
которые прямо поддержаны аппаратно через доступ к разделяемым зонам
физической памяти. Программная модель и коммуникационные абстракции имеют
прямую аппаратную реализацию. Для каждого процесса обращение к памяти
есть адрес в его виртуальном адресном пространстве. Адрес транслируется в

Предыдущая << 1 .. 511 512 513 514 515 516 < 517 > 518 519 520 521 522 523 .. 528 >> Следующая