Hbm память что это такое

Обновлено: 24.11.2024

Intel недавно объявила, что память с высокой пропускной способностью (HBM) будет доступна на некоторых процессорах Sapphire Rapids Xeon SP и предоставит основу ЦП для экзафлопсного суперкомпьютера Aurora, который будет размещен в Аргоннской национальной лаборатории.

В сочетании с вычислительными графическими процессорами Intel X e HPC (кодовое название «Ponte Vecchio»), работающими в единой среде памяти ЦП/ГП, Aurora обеспечит производительность с двойной точностью более экзафлоп/с. Реализация или превышение показателя производительности эксафлопс в секунду с использованием 64-битных операндов данных означает, что программистам не нужно идти на компромиссы или идти на компромиссы с точностью, используя арифметику пониженной точности. Это означает, что система памяти должна доставлять данные гораздо быстрее, чем процессоры предыдущих поколений. Наряду с HBM для ИИ и приложений, интенсивно использующих данные, процессоры Sapphire Rapids Xeon SP также реализуют расширенные матричные расширения (AMX), которые используют парадигму 64-битного программирования для ускорения операций с плитками и дают программистам возможность использовать матричные операции пониженной точности для сверточные нейронные сети и другие приложения.

Поддержание пропускной способности, достаточной для поддержки 64-разрядных экзафлопсных супервычислений в ускоренной вычислительной среде с унифицированной памятью, — важное достижение, вызывающее серьезное волнение и повышающее ожидания как в корпоративном, так и в высокопроизводительном сообществе. Унифицированная среда памяти означает, как говорит Аргонн: «Методы программирования, которые уже используются в современных системах, будут напрямую применяться к Aurora». Кроме того, институциональные, корпоративные и облачные центры обработки данных смогут проектировать высокооптимизированные системы с использованием Intel Xeon SP следующего поколения для моделирования, машинного обучения и высокопроизводительных рабочих нагрузок анализа данных (или кратко HPC-AI-HPDA) с использованием приложений, написанных для работы на существующие системы.

Рик Стивенс, заместитель директора лаборатории вычислительной техники для наук об окружающей среде и жизни в Аргоннской национальной лаборатории, систематизирует важность достижения и необходимость HBM, когда пишет: "Для достижения результатов в эксафлопсном масштабе требуется быстрый доступ и обработка огромного количества данные. Интеграция памяти с высокой пропускной способностью в процессоры Intel Xeon Scalable значительно повысит пропускную способность памяти Aurora и позволит нам использовать возможности искусственного интеллекта и анализа данных для выполнения сложных симуляций и 3D-моделирования».

Почему HBM важен

Уже несколько лет известно, что способность современных процессоров и графических процессоров доставлять флопы быстро опережает способность систем памяти доставлять байты в секунду. Джон Маккалпин, автор известного эталонного теста STREAM, отметил в приглашенном на SC16 докладе Пропускная способность памяти и системный баланс в системах высокопроизводительных вычислений, что пиковый показатель флоп/сек на сокет увеличился на 50–60 % на каждый сокет. в год, в то время как пропускная способность памяти увеличивается только примерно на 23 процента в год. Он проиллюстрировал эту тенденцию на следующем графике, на котором он наметил балансное соотношение флопов и пропускной способности памяти коммерчески успешных систем с хорошей производительностью памяти по сравнению с их конкурентами с 1990 года. Поставщики компьютеров знают о проблеме пропускной способности памяти и добавляют больше каналов памяти. и использование более быстрых модулей памяти DIMM.

Устройства HBM отражают альтернативный подход, использующий технологию трехмерного производства для создания стеков микросхем DRAM, построенных поверх интерфейса широкой шины. Например, устройство HBM2e подключает стек DRAM к процессору через шинный интерфейс на 1024 бита. Этот широкий интерфейс данных и связанная с ним команда и адрес требуют, чтобы DRAM была построена поверх кремниевого интерпозера, который фактически «связывает» примерно 1700 строк, необходимых для транзакций чтения/записи HBM. Кремниевый подход необходим, поскольку создавать такое большое количество линий с использованием технологии печатных плат (PCB) нецелесообразно.

Результатом является огромный скачок в пропускной способности памяти и значительная экономия энергии по сравнению с системами памяти DDR. EEWeb отмечает, что «одно устройство HBM2e потребляет почти вдвое меньше энергии, чем решение GDDR6». В нем делается вывод: «HBM2e обеспечивает такую ​​же или более высокую пропускную способность, чем GDDR6, и аналогичную емкость, но энергопотребление почти вдвое меньше, а TOPS/Вт удваивается». TOPS или тера операций в секунду — это показатель максимально достижимой пропускной способности с учетом пропускной способности устройства памяти. Он используется для оценки наилучшей производительности для таких приложений, как нейронные сети и приложения искусственного интеллекта, интенсивно использующие данные.

Прошлое — это прелюдия к будущему: контрольные показатели пропускной способности памяти рассказывают историю

Эталонные тесты достаточно хорошо демонстрируют влияние увеличения пропускной способности памяти на высокопроизводительные приложения.Компания Intel недавно опубликовала сравнительный анализ двухсокетной системы Intel Xeon-AP, содержащей два процессора Intel «Cascade Lake» Xeon SP-9282 Platinum, и двухпроцессорной системы AMD «Rome» 7742. Как видно ниже, система Intel Xeon серии SP-9200 с двенадцатью каналами памяти на сокет (т. на 29 % при широком спектре реальных рабочих нагрузок HPC.

Причина в том, что в этих тестах доминирует пропускная способность памяти, в то время как другие привязаны к вычислительным ресурсам, как показано ниже:

Гетерогенное программирование oneAPI обеспечивает возможности следующего поколения

Дихотомия узких мест между вычислительными ресурсами и пропускной способностью памяти, показанная на приведенной выше диаграмме, показывает, как совместные усилия инициативы oneAPI могут помочь одновременно решить множество узких мест в вычислительных ресурсах и памяти в среде, использующей сочетание ЦП, ГП и другие ускорители. Вкратце, высокая пропускная способность памяти имеет основополагающее значение для поддержания нескольких устройств в системе и для вычислительных блоков на ядро, снабжаемых данными. Как только будет обеспечена достаточная пропускная способность для предотвращения нехватки данных, программисты смогут приступить к работе по преодолению узких мест вычислений путем внесения изменений в программное обеспечение.

Подход к гетерогенному программированию oneAPI помогает использовать эти специально созданные передовые возможности.

  • Память HBM. Проще говоря, высокая вычислительная производительность не может быть достигнута, когда вычислительные ядра и векторные блоки испытывают нехватку данных. Как следует из названия и как показано в этой статье, HBM обеспечивает высокую пропускную способность памяти.
  • Единая среда памяти. Единое пространство памяти дает как ЦП, так и ускорителям, таким как вычислительный графический процессор Intel X e, возможность прямого доступа к данным. Это означает, что пользователи могут добавить графический процессор Intel на основе архитектуры X e или на основе микроархитектуры X e HPC, чтобы ускорить вычислительные задачи, которые выходят за рамки возможностей ядер ЦП. Дополнительная пропускная способность системы памяти HBM помогает поддерживать занятость нескольких устройств и обеспечивать их данными.
  • Инструкции Intel AMX. Intel добавила инструкции AMX для ускорения обработки SIMD некоторых интенсивно используемых операций, связанных с вычислениями, в ИИ и некоторых других рабочих нагрузках. Ядром расширений AMX является новый файл матричных регистров с восьмиранговыми двухтензорными (матричными) регистрами, называемыми тайлами. Программист может настроить количество строк и байтов на строку в тайле с помощью регистра управления тайлом (TILECFG). Это дает программистам возможность адаптировать характеристики плитки для более естественного представления алгоритма и вычислений. Sapphire Rapids Xeon SP поддерживают полную спецификацию AMX, включая операции AMX-TILE, AMX-INT8 и AMX-BF16.
  • Кросс-архитектурное программирование oneAPI: открытая, унифицированная, кросс-архитектурная модель программирования oneAPI позволяет пользователям запускать единую программную абстракцию на разнородных аппаратных платформах, содержащих ЦП, ГП и другие ускорители разных поставщиков. Центральное место в oneAPI занимает проект Data Parallel C++ (DPC++), который переносит Khronos SYCL в LLVM для поддержки параллелизма данных и гетерогенного программирования в одном приложении с исходным кодом. SYCL — это бесплатный кроссплатформенный уровень абстракции, полностью построенный на основе ISO C++, что устраняет опасения по поводу того, что приложения будут привязаны к проприетарным системам и программному обеспечению. DPC++ позволяет повторно использовать код для различных аппаратных целей, таких как ЦП, графические процессоры и ПЛИС, по отдельности или объединяя все устройства в системе в мощную комбинированную гетерогенную вычислительную машину, которая может выполнять вычисления одновременно на различных системных устройствах. Растущий список компаний, университетов и учреждений сообщает о преимуществах oneAPI и его растущей экосистемы программного обеспечения.

Взгляд в будущее

Реальная пропускная способность системы памяти Sapphire Rapids HBM будет определяться количеством каналов памяти и производительностью устройств HBM на каждом канале. Текущие устройства HBM2 обеспечивают скорость от 256 ГБ/с до 410 ГБ/с, что дает нам представление о потенциале производительности современного стекированного канала памяти HBM2. Количество каналов памяти, поддерживаемых процессорами Sapphire Rapids Xeon SP с поддержкой HBM, пока не объявлено.

Подпишитесь на нашу рассылку

Основные моменты, анализ и истории за неделю прямо от нас в вашу почту, и ничего между ними.
Подпишитесь сейчас

Если рынкам высокопроизводительных вычислений и искусственного интеллекта что-то нужно прямо сейчас, так это не дополнительные вычислительные ресурсы, а больший объем памяти при очень высокой пропускной способности. У нас есть много вычислений в текущих ускорителях GPU и FPGA, но они ограничены в памяти.Даже при высоких уровнях пропускной способности, достигнутых за счет использования двух с половиной поколений трехмерной памяти с высокой пропускной способностью, или HBM, мы всегда можем использовать большую пропускную способность и гораздо большую емкость, чтобы поддерживать эти массивные вычислительные механизмы, загружаемые данными. .

Есть несколько способов решить проблему с пропускной способностью памяти, и производители памяти SK Hynix и Samsung Electronics используют два совершенно разных подхода к своей будущей многослойной памяти HBM. Первый увеличивает плотность и скорость ввода-вывода до HBM3. в то время как последний будет встраивать обработку прямо в стек памяти HBM2E, поэтому данные не должны всегда перемещаться в ЦП или ускоритель, подключенный к ЦП, для обработки и повторного сохранения. В некотором смысле, оба сокращают задержку между запросом данных для обработки и получением их для обработки, и будет интересно посмотреть, как это отразится на рынке. Один подход имеет более общее назначение, а другой предназначен для конкретного приложения, и нам всегда нравится более общий подход, если мы можем его использовать и принимать конкретный подход, когда не появляется альтернативы, обеспечивающей соотношение цены и производительности.

О будущем стандарте HBM3 было сказано очень мало, и это понятно, поскольку только три поставщика памяти HBM: Micron Technology, Samsung и SK Hynix. Все они хотят как можно дольше хранить свои секреты в тайне, в то же время придерживаясь стандартов памяти JEDEC, регулирующих HBM.

В целом, память HBM позволяет размещать четыре, восемь или двенадцать модулей DRAM друг над другом и соединять их друг с другом сквозными переходными отверстиями, или TSV, что является изящным способом сказать, что провода встроены в память DRAM умирает сама по себе и соединяется друг с другом в стеке через такие же соединения микровыступов, которые используются для соединения микросхем друг с другом и с материнскими платами. В HBM для связывания вычислительных элементов с памятью используется промежуточный модуль.

Хотя HBM1 (никто его так не называет, но мы собираемся) имел AMD, а затем Nvidia в качестве пользователей своих карт GPU, только когда появился HBM2, стоимость снизилась, а технология стала достаточно зрелой даже для Производители процессоров должны рассмотреть возможность его использования. Благодаря HBM2E, последнему лучшему варианту HBM, пропускная способность и емкость немного увеличились, а стеки HBM также стали выше.

При использовании HBM2 скорость передачи сигналов была увеличена до 2 Гбит/с, а ширина стека осталась той же 1024 бит, что означало, что пакет может передавать 256 ГБ/с на стек. Таким образом, четыре стека дают вам этот волшебный 1 ТБ/с совокупной пропускной способности памяти, а 8 ГБ на стек (с правильными высокими стеками), что также дает потенциальную максимальную емкость 64 ГБ. Насколько нам известно, никто не запустил в производство HBM2 со всеми восемью стеками.

Это не относится к HBM2E, расширенной версии HBM2, скорость передачи сигналов была увеличена до 2,5 Гбит/с на контакт и до 307 ГБ/с пропускной способности на стек. Теоретически стеки с HBM2E могут состоять из двенадцати кристаллов, увеличивая емкость до 24 ГБ при использовании модулей памяти HBM DRAM емкостью 2 ГБ. И SK Hynix, и Samsung превзошли эти уровни. Samsung HBM2E остался с восемью кристаллами на стек и скоростью передачи данных 3,2 Гбит/с, что составляет 16 ГБ на стек и 410 ГБ/с на стек, в то время как SK Hynix увеличил скорость передачи данных до 3,6 Гбит/с и сохранил прежнюю скорость. 16 ГБ на восемь стеков и пропускная способность 460 Гбит/с на каждый стек.

HBM3 все еще немного загадка, но недавно в этом посте SK Hynix дала несколько намеков на то, что она делала для поколения HBM3.

Компания обещает, что ее внедрение HBM3, которое ожидается в системах в 2022 году, будет иметь скорость передачи данных более 5,2 Гбит/с и обеспечивать более 665 ГБ/с на стек. Что касается емкости, SK Hynix заявляет, что может складывать чипы DRAM в стек высотой до 16 кристаллов, и если объем памяти может снова удвоиться до 4 ГБ на чип, это будет 64 ГБ на стек, а на четыре стека — 256 ГБ. емкость и суммарная пропускная способность не менее 2,66 ТБ/с.

Это будет потрясающе, и даже при половинной емкости и большей пропускной способности это изменит вычисления для высокопроизводительных вычислений и искусственного интеллекта. Мы только начинаем ощущать это с графическими процессорами Nvidia и AMD, векторными двигателями NEC Aurora, процессорами Fujitsu Sparc64-IXfx и A64FX и будущими процессорами Intel «Sapphire Rapids» Xeon SP, которые имеют память HBM2 или HBM2E. . Нам всем нужны ноутбуки с 8 ГБ памяти HBM3, и я бы с удовольствием заплатил больше, особенно если эту же память можно разделить между процессором и графическим процессором.Мы ожидаем, что некоторые варианты HBM3 будут использовать 512-битную шину и не требуют промежуточного устройства, а другие могут использовать промежуточное устройство для удвоения пропускной способности и емкости. Так что ноутбук с HBM3 не обязательно сумасшедший. Как и обычная видеокарта, если это окажется правдой.

И это подводит нас к тому, к чему мы пытаемся добраться. Представьте, если любой решатель и любой разумный фрагмент данных, которые будут обрабатываться с его помощью в экосистеме приложений для высокопроизводительных вычислений или искусственного интеллекта, могут легко поместиться в памяти HBM3 и больше не будут нуждаться в стандартной памяти DRAM на ЦП? Возможно, стандартная DRAM — это новая флэш-память, и особенно что-то вроде памяти 3D XPoint, если она выживет, будет единственной «DRAM», которая понадобится системе. Об этом стоит подумать, если кривые цена/производительность окажутся такими, как мы ожидаем. Стандартная DRAM всегда будет дешевле, но так же обстоит дело с лентой по сравнению с диском и диском по сравнению с флэш-памятью и флэш-памятью по сравнению с DRAM или 3D XPoint. В то время как многие системы будут обходиться простой DRAM, возможно, все будущие системы HPC и AI будут иметь HBM на своих компонентах CPU, GPU и FPGA, и мы будем говорить о том, как установить согласованные связи между этими банками HBM3.

Возможно, Samsung тоже прав, переместив обработку внутрь памяти, о чем мы уже неоднократно писали здесь. AMD работала над методами обработки в памяти, или PIM, для своих исследовательских проектов Fast Forward и Fast Forward 2 для Министерства энергетики США, а совсем недавно Upmem, французский производитель памяти, представил эту идею по-своему. Несколько лет назад мы рассказывали об исследовании, проведенном в Университете Висконсина, в ходе которого изучалось множество проектов PIM, если вам нужно освежить в памяти.

Устройство Samsung HBM-PIM добавит программируемые вычислительные блоки на 1,2 терафлопс между банками памяти и TSV. Это показывает, что выглядит как два банка вычислений и восемь банков памяти в стеке:

Samsung заявляет, что память HBM-PIM повысит общую производительность системы при рабочих нагрузках ИИ в 2 раза и снизит энергопотребление на 70 % по сравнению с системами, которые используют память HBM на своих ускорителях.

Надеемся, обе компании скоро расскажут больше о своих планах HBM3 и HBM-PIM. Вы привлекли наше внимание, даже если мы скептически относимся к широкой применимости универсального матричного математического механизма, встроенного в память. Нам бы очень хотелось, чтобы здесь нас опровергли, и мы хотели бы увидеть рождение нового типа распределенных гибридных вычислений.

Подпишитесь на нашу рассылку

Основные моменты, анализ и истории за неделю прямо от нас в вашу почту, и ничего между ними.
Подпишитесь сейчас

Характеристики высокой пропускной способности и высокой задержки определяют, что HBM очень подходит для памяти графического процессора. Но для персональных компьютеров задачи, которые должен обрабатывать ЦП, крайне непредсказуемы, требуют различных произвольных доступов к хранилищу и по своей природе более чувствительны к задержкам. Поэтому в краткосрочной перспективе HBM сложно заменить DDR на ПК.

Память с высокой пропускной способностью (HBM) как можно быстрее

Темы, затронутые в этой статье:

Что такое HBM?

HBM (память с высокой пропускной способностью) — это новый тип чипа памяти ЦП/ГП (то есть «ОЗУ»). На самом деле, многие микросхемы DDR объединены в стек и упакованы вместе с графическим процессором для создания комбинированного массива DDR большой емкости и высокой разрядности.

Средний кристалл — это GPU/CPU, а 4 маленьких кристалла слева и справа — это набор частиц DDR. В стопке обычно есть только три стопки 2/4/8 и максимум 4 слоя в трехмерной стопке.

Когда HBM (память с высокой пропускной способностью) существовала как память графического процессора, сейчас это не редкость. Многие люди могут знать, что HBM стоит дорого, поэтому, даже если это не редкость, вы можете увидеть его только на продуктах высокого класса. Например, GPU Nvidia для центров обработки данных. Использование AMD HBM на потребительских графических процессорах — редкий пример.

Некоторые геймеры должны знать, что HBM — это высокоскоростная память с пропускной способностью, намного превышающей DDR/GDDR. В его внутренней структуре также используется 3D-стековая SRAM. Некоторые пользователи ПК полагают, что память HBM можно использовать в обычных персональных компьютерах и ноутбуках. Хотя стоимость высока, в этой отрасли много богатых владельцев. Кроме того, разве GPU не использует только HBM?

Может ли память HBM соответствовать процессору?

На самом деле центральный процессор, соответствующий HBM, существует. Чип A64FX, используемый в суперкомпьютере Fujitsu Fugaku, сочетается с памятью HBM2.Кроме того, процессоры Intel Sapphire Rapids Xeon, которые скоро будут выпущены, будут иметь версию памяти HBM в следующем году. Есть еще такие как NEC SX-Aurora TSUBASA.

Тогда мы знаем, что ЦП с HBM, по крайней мере, осуществим (хотя строго говоря, такие чипы, как A64FX, превзошли возможности ЦП), но эти продукты по-прежнему предназначены для центров обработки данных или приложений HPC. Это потому, что это дорого, поэтому он не децентрализован для потребительского рынка? Это может быть важной причиной или относительно близкой к источнику. В этой статье мы воспользуемся возможностью поговорить о HBM, чтобы рассказать о характеристиках и сценариях использования этого типа памяти, а также о том, заменит ли она в будущем очень распространенную память DDR на компьютерах.

Взгляд на HBM сверху, источник: Fujitsu

Что касается распространенной формы HBM, то она обычно существует в виде нескольких штампов (пакетов) с поверхности. Это очень близко к основному чипу (например, процессору, графическому процессору). Например, как на картинке выше, A64FX выглядит так, а окружающие 4 пакета — это память HBM. Этот тип существования сильно отличается от обычной памяти DDR.

Одной из характеристик HBM является достижение более высокой пропускной способности при меньшем размере и более высокой эффективности (частично), чем у DDR/GDDR. И на самом деле, каждый пакет HBM состоит из нескольких слоев кристалла DRAM, так что это также трехмерная структура. Кристалл DRAM подключается через TSV (Through Silicon Via) и microbump. В дополнение к многоуровневому кристаллу DRAM в логическом кристалле контроллера нижнего уровня будет HBM. Затем нижний слой соединяется с CPU/GPU и т. д. через базовый кристалл (например, кремниевый интерпозер).

Взгляд на HBM со стороны, источник: AMD

Для сравнения: каждый канал памяти GDDR5 имеет разрядность 32 бита, а всего 16 каналов имеют разрядность 512 бит. На самом деле, текущий основной HBM2 второго поколения может складывать до 8 слоев кристалла DRAM на стек, что увеличивает емкость и скорость. Каждый стек HBM2 поддерживает до 1024 контактов данных, а скорость передачи каждого контакта может достигать 2000 Мбит/с, поэтому общая пропускная способность составляет 256 Гбайт/с. При скорости передачи 2400 Мбит/с на контакт пропускная способность пакета стека HBM2 составляет 307 Гбайт/с.

На приведенном выше рисунке показано сравнение DDR, LPDDR, GDDR и HBM, предоставленное Synopsys. Вы можете увидеть способности других игроков в столбце Max I/F BW, который не соответствует тому же порядку величины, что и HBM2. С такой высокой пропускной способностью в таких приложениях, как высокопараллельные вычисления, научные вычисления, компьютерное зрение и искусственный интеллект, это просто освежающий ритм. И с интуитивной точки зрения, HBM и основной чип настолько близки, что теоретически может быть получена более высокая эффективность передачи (исходя из энергопотребления на бит передачи данных, HMB2 действительно имеет большое преимущество).

Я чувствую, что в дополнение к стоимости и общему объему памяти HBM, если он действительно используется в качестве памяти на персональном компьютере, разве это не было бы идеально?

Недостатки HBM

Плохая гибкость

Этот тип памяти HBM впервые был инициирован AMD в 2008 году. Изначально целью AMD в отношении HBM было внести изменения в энергопотребление и размер компьютерной памяти. В последующие годы AMD пыталась решить технические проблемы стекирования кристаллов, а позже нашла партнеров в отрасли с опытом стекирования носителей данных, в том числе SK Hynix, а также некоторых производителей промежуточных устройств и корпусов.

HBM впервые был произведен SK Hynix в 2013 году. В этом году HBM был принят стандартом JESD235 JEDEC (Ассоциация производителей электронных компонентов). Первым графическим процессором, использующим хранилище HBM, стал AMD Fiji (Radeon R9 Fury X) в 2015 году. В следующем году Samsung начала массовое производство HBM2-NVIDIA Tesla P100, первого графического процессора, использующего хранилище HBM2.

Судя по форме HBM, нетрудно найти ее первый недостаток: отсутствие гибкости в системном расположении. Для ПК первых лет расширение объема памяти было относительно обычной возможностью. А HBM упакован с основным чипом, возможности расширения емкости нет, а спецификации уже зафиксированы на заводе. И это отличается от нынешнего оборудования для ноутбуков, где память DDR припаяна к материнской плате. HBM интегрируется в чип производителем чипа — его гибкость будет слабее, особенно для OEM-производителей.

Для большинства производителей микросхем продвижение процессоров на массовый рынок (в том числе рынок инфраструктуры) с учетом различных соображений, включая стоимость, вряд ли приведет к выпуску моделей чипов с различной емкостью памяти. Процессоры, предлагаемые этими производителями, имеют различные модели конфигурации (например, существуют различные модели процессоров Intel Core). Если учесть разницу в объеме разделенной памяти, затраты на производство могут быть трудно поддерживать.

Емкость слишком мала

Вторая проблема с HBM заключается в том, что объем памяти более ограничен, чем у DDR. Хотя один пакет HBM может состоять из 8 слоев кристалла DRAM, каждый слой имеет емкость 8 Гбит, а 8 слоев — 8 Гбайт. Суперкомпьютерные чипы, такие как A64FX, оставляют 4 интерфейса HBM, то есть 4 пакета стека HBM, и один чип имеет общую емкость 32 ГБ.

Такая емкость все еще слишком мала для DDR. Для обычных ПК на потребительском рынке очень характерно нагромождать более 32 ГБ памяти. Мало того, что на ПК и материнских платах серверов имеется большое количество расширяемых слотов памяти, некоторые модули DIMM DDR4/5 также содержат кристалл DRAM. Используя стек кристаллов DRAM относительно высокого класса, 2-ранговые модули RDIMM (зарегистрированные модули DIMM) могут достигать емкости 128 ГБ с учетом 96 разъемов DIMM в высокопроизводительных серверах, что составляет не более 12 ТБ.

Источник памяти HBM DRAM: Википедия

Конечно, я упоминал, что HBM и DDR можно смешивать. HBM2 отвечает за высокую пропускную способность, но небольшую емкость, а DDR4 отвечает за более низкую пропускную способность, но большую емкость. С точки зрения дизайна системы память HBM2 в процессоре больше похожа на кэш-память L4.

Высокая задержка доступа

Для ПК важной причиной, по которой HBM не применяется к основной памяти ЦП, является ее высокая задержка. Что касается вопроса о задержке, то, хотя во многих научно-популярных статьях говорится, что ее задержка хорошая, или Xilinx описывает ее задержку как аналогичную DDR для FPGA, оснащенных HBM, «задержка» во многих статьях может не совпадать с задержкой.

Современная память DDR обычно помечается CL (задержка CAS, тактовый цикл, необходимый для адресации столбцов, указывающий продолжительность задержки чтения). Задержка CAS, о которой мы здесь говорим, относится к времени ожидания между выдачей команды чтения (и стробом адреса столбца) и готовностью данных.

После того как контроллер памяти сообщает памяти, что ей необходимо получить доступ к данным в определенном месте, требуется несколько циклов, чтобы добраться до этого места и выполнить инструкции, выданные контроллером. CL — самый важный параметр задержки памяти. Что касается продолжительности задержки, то «период» здесь фактически нужно умножить на время за цикл (чем выше общая рабочая частота, тем короче время за цикл).

Одной из характеристик HBM, как упоминалось ранее, является сверхширокая ширина межсоединения, которая определяет, что частота передачи HBM не может быть слишком высокой. В противном случае общая потребляемая мощность и тепловыделение не могут поддерживаться, и такая высокая общая пропускная способность не требуется.

Частота HBM действительно будет намного ниже, чем у DDR/GDDR. Предыдущая память Samsung Flarebolt HBM2 имеет пропускную способность 2 Гбит/с на контакт, что соответствует частоте почти 1 ГГц. Позже появились продукты, увеличивающие частоту до 1,2 ГГц. Samsung упомянул, что в этом процессе также необходимо учитывать уменьшение параллельных тактовых помех между более чем 5000 TSV и увеличение количества теплоотводов между кристаллами DRAM, чтобы решить проблему с нагревом. На приведенном выше рисунке AMD указывает частоту HBM на самом деле только 500 МГц.

Подходит ли HBM для памяти ПК?

Характеристики высокой пропускной способности и высокой задержки определяют, что HBM очень подходит в качестве памяти графического процессора, поскольку игры и обработка графики сами по себе являются очень предсказуемыми и высококонкурентными задачами. Характерной чертой этого типа нагрузки является то, что она требует высокой пропускной способности и не так чувствительна к задержке. Таким образом, HBM появится на высокопроизводительных продуктах с графическими процессорами. По этой причине HBM на самом деле очень подходит для высокопроизводительных вычислений HPC и вычислений AI. Таким образом, хотя процессоры A64FX и Xeon следующего поколения являются центральными процессорами, они также могут рассмотреть возможность использования HBM в качестве памяти.

Но для персональных компьютеров задачи, которые должен обрабатывать ЦП, чрезвычайно непредсказуемы, требуют различных произвольных доступов к хранилищу и по своей природе более чувствительны к задержкам. И требования к низкой задержке часто выше, чем требования к высокой пропускной способности. Не говоря уже о высокой стоимости HBM. Это определяет, что, по крайней мере в краткосрочной перспективе, HBM трудно заменить DDR на ПК.Похоже, эта проблема аналогична тому, можно ли применить GDDR к памяти ПК.

Но в долгосрочной перспективе никто не может предсказать ситуацию. Как упоминалось выше, можно рассмотреть гибридное решение. И ресурсы хранения разного уровня претерпевают значительные изменения. Например, не так давно мы также писали статью о том, что AMD увеличила объем кэш-памяти L3 на процессоре до 192 МБ. Для компонента встроенного кэша, который изначально скрывает задержку внешней памяти, по мере того, как кэш на чипе процессора становится все больше и больше, требования к задержке для системной памяти будут не такими высокими.

HBM3

От эпохи ПК к эпохе мобильных устройств и искусственного интеллекта архитектура чипа также перешла от централизации ЦП к ориентированности на данные. Тест, проведенный ИИ, включает не только вычислительную мощность чипа, но и пропускную способность памяти. Несмотря на то, что скорости DDR и GDDR относительно высоки, многие алгоритмы искусственного интеллекта и нейронные сети неоднократно сталкивались с ограничениями пропускной способности памяти. HBM, ориентированная на большую пропускную способность, стала предпочтительной памятью DRAM для высокопроизводительных микросхем.

На данный момент JEDEC еще не предоставил окончательный проект стандарта HBM3, но поставщики интеллектуальной собственности, участвующие в разработке стандарта, уже подготовились. Не так давно Rambus первой анонсировала подсистему памяти, поддерживающую HBM3. Недавно Synopsys также анонсировала первое в отрасли комплексное решение для IP и проверки HBM3.

Еще в начале 2021 года компания SK Hynix дала прогноз производительности продуктов памяти HBM3, заявив, что ее пропускная способность превышает 665 ГБ/с, а скорость ввода-вывода превышает 5,2 Гбит/с. это просто переходный спектакль. Также в 2021 году данные, опубликованные поставщиками ИС, еще больше повысили верхний предел. Например, компания Rambus объявила, что в подсистеме памяти HBM3 скорость ввода-вывода достигает 8,4 Гбит/с, а пропускная способность памяти может достигать 1,075 ТБ/с.

В июне этого года компания Taiwan Creative Electronics выпустила сетевую платформу AI/HPC на основе технологии TSMC CoWoS, оснащенную контроллером HBM3 и PHY IP со скоростью ввода-вывода до 7,2 Гбит/с. Creative Electronics также подает заявку на патент на промежуточную проводку, которая поддерживает зигзагообразную проводку под любым углом и может разделить IP HBM3 на две SoC для использования.

Комплексное IP-решение HBM3, анонсированное Synopsys, предоставляет контроллер, PHY и проверочный IP для многокристальной системы 2.5D, заявляя, что разработчики могут использовать память с низким энергопотреблением и большей пропускной способностью в SoC. Контроллер Synopsys DesignWare HBM3 и PHY IP основаны на проверенном чипе HBM2E IP, а HBM3 PHY IP основаны на 5-нм техпроцессе. Скорость каждого контакта может достигать 7200 Мбит/с, а пропускная способность памяти может быть увеличена до 921 ГБ/с.

В настоящее время Micron, Samsung, SK Hynix и другие производители памяти уже используют этот новый стандарт DRAM. Разработчик SoC Socionext сотрудничал с Synopsys, чтобы внедрить HBM3 в свой многочиповый дизайн в дополнение к архитектуре x86, которая должна поддерживаться. Платформа Arm Neoverse N2 также планирует поддерживать HBM3, а SiFive RISC-V SoC также добавил HBM3 IP. Но даже если JEDEC не «застрянет» и выпустит официальный стандарт HBM3 в конце года, возможно, нам придется подождать до второй половины 2022 года, прежде чем появятся продукты, связанные с HBM3.

Энн Стеффора Мучлер из

Semiconductor Engineering недавно написала статью о памяти с высокой пропускной способностью (HBM). Как отмечает Мучлер, последняя версия HBM продолжает набирать обороты в качестве жизнеспособного конкурента в области памяти.

Действительно, HBM находит применение в передовых графических, сетевых и высокопроизводительных вычислительных системах. Память с высокой пропускной способностью также может найти применение в глубоком обучении, искусственном интеллекте, сверточных нейронных сетях, полностью автономных транспортных средствах, а также в дополнительных продвинутых приложениях, требующих большой пропускной способности и низкого энергопотребления.


Изображение предоставлено SK Hynix (через Semiconductor Engineering)

«HBM обеспечивает более низкое энергопотребление на ввод-вывод и более высокую пропускную способность доступа к памяти с более компактным форм-фактором, который обеспечивается за счет стекирования кристаллов памяти непосредственно друг над другом и совместного использования того же пакета, что и ядро ​​​​SoC или GPU. с помощью кремниевого интерпозера», — объяснила она. «Каждый вывод управляет гораздо более короткой дорожкой и работает на более низкой частоте, что, в свою очередь, приводит к значительному снижению мощности переключения».

Высокий прирост пропускной способности, по словам Мучлера, достигается за счет очень широкого параллельного интерфейса ввода-вывода.

«HBM1 обеспечивает пропускную способность 128 ГБ/с, а HBM2 — 256 ГБ/с.Емкость памяти легко масштабируется путем добавления большего количества кристаллов в стек или добавления дополнительных стеков в систему-в-пакете», — пояснила она.

По словам Фрэнка Ферро, старшего директора по управлению продуктами в Rambus, HBM перемещает память ближе к процессору, используя более толстый канал данных, что эффективно увеличивает пропускную способность данных, снижает количество энергии, необходимой для передачи сигнала, и сокращает Задержка RC.

«Изначально графические компании рассматривали память с высокой пропускной способностью как явный шаг в направлении эволюции, — сказал Ферро изданию. «Но затем сообщество сетевых специалистов и центров обработки данных осознало, что HBM может добавить новый уровень памяти в свою иерархию памяти для большей пропускной способности и всех вещей, которые движут центром обработки данных: доступ с меньшей задержкой, более быстрый доступ, меньшая задержка, меньшее энергопотребление. В результате проектная деятельность HBM набрала обороты в этих сегментах рынка».

Как отмечалось выше, модули HBM подключаются к SoC через кремниевый или органический переходник. Короткий и контролируемый канал между памятью и SoC требует меньше дисков от интерфейса памяти, что снижает мощность по сравнению с интерфейсами DIMM. Кроме того, поскольку интерфейс широкий, разработчики систем могут добиться очень высокой пропускной способности при более низкой частоте.

Возможно, неудивительно, говорит Ферро, что существует множество проблем, связанных с проектированием надежных HBM2 PHY.

«Одной из таких задач является поддержание целостности сигнала на скорости два гигабита на вывод через интерпозер. Вот почему обширное моделирование целостности сигнала и питания необходимо для обеспечения надежной работы в полевых условиях», — объяснил он в недавней статье в Semiconductor Engineering. «Поэтому инженеры-проектировщики HBM PHY должны обладать обширными знаниями методов проектирования 2,5D, а также всесторонним пониманием поведения системы в различных условиях, включая колебания температуры и напряжения».

Определение компромиссов при маршрутизации сигналов с помощью интерпозера также ставит перед инженерами еще одну серьезную задачу. Эти компромиссы, по словам Ферро, влекут за собой поиск баланса между способностью поддерживать оптимальную производительность системы и максимально низкой стоимостью интерпозера. Например, проектные группы должны решить, следует ли использовать один или два уровня маршрутизации сигналов во всем промежуточном устройстве.

"Несмотря на то, что один уровень маршрутизации снижает затраты, он требует более сложной конструкции с меньшей шириной канала и более высокими перекрестными помехами", – продолжил он. «Более того, командам разработчиков необходимо определить, насколько далеко ASIC можно перемещать от модулей HBM DRAM на промежуточном устройстве. Хотя большее расстояние может помочь с рассеиванием тепла, каждый миллиметр увеличивает вероятность проблем с целостностью сигнала».

Внедрение технологии 2.5D в системах HBM2 добавляет множество производственных сложностей, требуя от поставщиков PHY тесного сотрудничества с несколькими организациями, такими как полупроводники, партнер-производитель (литейный завод) и упаковочная компания. Как подчеркивает Ферро, тщательное проектирование всей системы, включая SoC, промежуточный модуль, DRAM и корпус, необходимо для обеспечения высокой производительности и правильной работы системы. Кроме того, наличие модуля с высокой производительностью является критически важным элементом контроля расходов, учитывая количество дорогостоящих компонентов, включая SoC, несколько стеков кристаллов HBM и промежуточный модуль.

"Даже с учетом этих проблем преимущества увеличенной пропускной способности и плотности памяти ближе к центральному процессору явно повышают общую эффективность системы для серверных и сетевых систем", – добавил Ферро.

Читайте также: