Ваша корзина ждет товаров

Главная » Все новости

Meta (Facebook) и Intel показали прототип сервера с CXL-памятью: DDR4 поверх PCIe 5.0

22.11.2021

На SC21 консорциум CXL не только объявил о поглощении всех наработок Gen-Z, но и представил несколько демо от разных участников консорциума. Одним из самых интересных стал показ прототипа сервера с CXL-памятью от Meta (бывшая Facebook). Доклад о нём был сделан ещё на OCP Global Summit, но вот видеодемонстрация стала публичной только на этой неделе.

FPGA-протототип CXL-модуля с DDR4 (Фото: Intel)

FPGA-протототип CXL-модуля с DDR4 (Фото: Intel)

Перед Meta давно встала проблема увеличения ёмкости и плотности размещения DRAM. Причём у компании, как и других гиперскейлеров, очень жёсткие ограничения на физические размеры, энергопотребление и стоимость систем — создание и содержание парка в миллионы серверов выливается в круглые суммы. Представитель Meta в ходе доклада отметил несколько важных факторов, учитываемых при создании новых платформ.

Здесь и ниже изображения Meta

Здесь и ниже изображения Meta

Так, в последние годы цена за 1 Гбит DRAM перестала существенно падать, поэтому память становится всё более дорогим компонентом в составе сервера. И не только с точки зрения финансов, но и по энергопотреблению, что отрицательно влияет на совокупную стоимость владения (TCO). Кроме того, производительность процессоров заметно выросла, в основном благодаря увеличению числа ядер (в три с лишним раза). Однако пропускная способность памяти в пересчёте на канал в среднем лишь удвоилась, а в пересчёте на ядро — и вовсе упала почти вдвое.

Тем не менее, ядра CPU всё равно надо как-то «прокормить», поэтому приходится искать новые пути масштабирования пула DRAM. Простым увеличением числа DIMM-слотов не обойтись — каждый «лишний» канал памяти обходится в дополнительные пару сотен дорожек в разводке платы, что при росте числа каналов приводит к увеличению числа слоёв материнской платы (и буквально её толщины). А попутное увеличение скорости памяти ведёт к необходимости использования более дорогих материалов и всё тем же проблемам.

Как отмечают некоторые аналитики, платформы следующего поколения с поддержкой DDR5 будут дороже нынешних, но дело не в самой памяти, динамика удешевления которой будет примерно той же, что у DDR4, а именно в необходимости увеличения числа слоёв в материнских платах где-то на треть. Решением мог бы стать переход на последовательные интерфейсы — буферизованная DDIM-память (OMI) уже используется в серверах IBM E1080, но компактной её не назовёшь.

Однако у нас и так уже есть другой, универсальный и широко распространённый последовательный интерфейс — это шина PCI Express 4.0, а в ближайшем будущем и 5.0. Она обеспечивает приемлемую скорость передачи данных, но требует где-то на три четверти меньше сигнальных линий, которые могут иметь бо́льшую протяжённость по сравнению с DDR. Строго говоря, попытки создать PCIe-фабрики для дезагрегации ресурсов уже предприняты, к примеру, GigaIO и Liqid. С приходом CXL это станет ещё проще.

CXL позволит задействовать разные типы памяти с разными характеристиками, используя единый интерфейс. Например, можно с одной и той же платформой использовать и DDR5, и DDR4, и SCM (PMem). Чем-то похожим занимался и консорциум Gen-Z, куда, как ни странно, не входила Intel, которая и стала одним из основателей и апологетов Compute Express Link. С ней-то Meta и работает около года над прототипом нового сервера и платы расширения с DRAM для него.

Прототип использует сервер с инженерным образцом Intel Xeon Sapphire Rapids и стандартную карту расширения для платформы Yosemite v3. Карта с x16-подключением PCIe 5.0 несёт на борту инженерную версию FPGA (вероятно, что-то из серии Agilex) с двумя контроллерами памяти и двумя же слотами DIMM для обычной регистровой DDR4 суммарным объёмом 64 Гбайт. На базе FPGA реализован интерфейс CXL 2.0, который имеет поддержку протокола CXL.memory и даёт расширенные возможности мониторинга и отладки.

При старте системы происходит опрос доступных PCIe-устройств и согласование с ними скоростей и возможностей, после чего становится доступна оперативная память, физически размещённая на карте расширения, а не только локальная DDR5, «привязанная» к процессору. В этом случае система «видит» несколько NUMA-доменов — два от самого CPU и ещё один «безпроцессорный». Прототип успешно проходит все базовые тесты, так что программно-аппаратный стек уже достаточно хорошо проработан.

Каталог предложений

    Сравнение товаров

    Список сравнения пуст

    Наши сертификаты