Пропускная способность процессора, как узнать

Обновлено: 21.11.2024

Пропускная способность памяти и задержка являются ключевыми параметрами практически для всех приложений, но особенно для приложений с графическим процессором. Пропускная способность относится к объему данных, которые могут быть перемещены в заданное место назначения или из него. В случае с графическим процессором нас в первую очередь волнует глобальная пропускная способность памяти. Под задержкой понимается время, необходимое для завершения операции.

Задержка памяти предназначена для сокрытия на графических процессорах за счет запуска потоков из других варпов. Когда варп обращается к области памяти, которая недоступна, аппаратное обеспечение выдает запрос на чтение или запись в память. Этот запрос будет автоматически объединен или объединен с запросами от других потоков в том же варпе, при условии, что потоки обращаются к соседним ячейкам памяти и начало области памяти правильно выровнено.

Размер транзакций памяти значительно различается между Fermi и более ранними версиями. В вычислительных устройствах 1.x (G80, GT200) размер объединенной транзакции памяти будет начинаться со 128 байт на доступ к памяти. Затем он будет уменьшен до 64 или 32 байтов, если общая область, к которой обращаются объединенные потоки, будет достаточно мала и находится в пределах одного и того же 32-байтового выровненного блока. Эта память не кэшировалась, поэтому, если потоки не обращались к последовательным адресам памяти, это приводило к быстрому падению пропускной способности памяти. Таким образом, если поток 0 читает адреса 0, 1, 2, 3, 4, …, 31, а поток 1 читает адреса 32, 32, 34, …, 63, они не будут объединены. На самом деле аппаратное обеспечение будет выдавать один запрос на чтение не менее 32 байтов для каждого потока. Неиспользуемые байты будут извлечены из памяти и просто отброшены. Таким образом, без тщательного учета того, как используется память, вы можете легко получить лишь небольшую часть фактической пропускной способности, доступной на устройстве.

Однако имейте в виду, что векторные типы ( int2 , int4 и т. д.) вводят неявное выравнивание по 8 и 16 байтам соответственно. Данные должны поддерживать это, поэтому, например, вы не можете преобразовать указатель на int из элемента массива int[5] в int2∗ и ожидать, что он будет работать правильно. В таких случаях вам лучше выполнять последовательное 32-битное чтение или добавлять некоторые дополнения к структуре данных, чтобы обеспечить выровненный доступ. Как мы видели при оптимизации примера сортировки, значение в четыре элемента на поток часто обеспечивает оптимальный баланс между использованием дополнительных регистров, увеличением пропускной способности памяти и возможностью для процессора использовать параллелизм на уровне инструкций.

На пути к реалистичным границам производительности для неявных кодов CFD

2 АНАЛИЗ ПРОИЗВОДСТВА ПРОИЗВОДСТВА РАЗРЕЖЕННОЙ МАТРИЦЫ-ВЕКТОРА

Разреженное произведение матрицы на вектор — важная часть многих итерационных решателей, используемых в научных вычислениях. Хотя подробное моделирование производительности этой операции может быть сложным, особенно когда включены шаблоны ссылок на данные [14–16], упрощенный анализ все же может дать верхнюю границу достижимой производительности этой операции. Чтобы проиллюстрировать влияние производительности системы памяти, мы рассмотрим обобщенное умножение разреженной матрицы на вектор, которое умножает матрицу на N векторов. Этот код вместе со счетчиком операций показан на рис. 2.

Рисунок 2 . Общая форма алгоритма произведения разреженной матрицы-вектора: формат хранения - AIJ или сжатое хранилище строк; матрица состоит из m строк и nz ненулевых элементов и умножается на N векторов; комментарии в конце каждой строки показывают инструкции уровня ассемблера, генерируемые текущим оператором, где AT — преобразование адреса, Br — ветвь, lop — целочисленная операция, Fop — операция с плавающей запятой, Of — вычисление смещения, LD — загрузка и Св. магазин.

2.1 Оценка пропускной способности памяти

Для оценки пропускной способности памяти, необходимой для этого кода, мы делаем некоторые упрощающие предположения. Мы предполагаем, что конфликтных промахов нет, то есть каждый элемент матрицы и вектора загружается в кеш только один раз. Мы также предполагаем, что процессор никогда не ожидает обращения к памяти; то есть любое количество загрузок и сохранений выполняется за один цикл.

Для алгоритма, представленного на рисунке 2, матрица хранится в сжатом формате хранения строк (аналогично формату AIJ PETSc [4]). Для каждой итерации внутреннего цикла на рисунке 2 нам нужно передать одно целое число (массив ja) и N + 1 удвоение (один элемент матрицы и N элементы вектора) и мы делаем N операций умножения-сложения с плавающей запятой (fmadd) или 2N флопов. Наконец, мы сохраняем N элементов выходного вектора. Это приводит к следующей оценке объема данных:

Всего передано байтов = m * sizeof _ int + 2 m * N * sizeof _ double + nz * ( sizeof _ int + sizeof _ double ) = 4 * ( m + nz ) + 8 * ( 2 * m * N + нз ).

Это дает нам оценку пропускной способности, необходимой процессору для выполнения 2 * nz * N флопов на пиковой скорости:

В качестве альтернативы, учитывая производительность памяти, мы можем предсказать максимально достижимую производительность. Это приводит к

где MBW измеряется в Мфлопс/с, а BW – доступная пропускная способность памяти в Мбайт/с, измеренная STREAM. [ 11 ] эталон. (Необработанная пропускная способность, основанная на частоте и ширине шины памяти, не является подходящим выбором, поскольку она не может поддерживаться ни в одном приложении; в то же время для некоторых приложений возможно достижение более высокой пропускной способности, чем измеренная STREAM).

В таблице 1 показана пропускная способность памяти, необходимая для максимальной производительности, и достижимая производительность для матрицы в формате AIJ с 90 708 строками и 5 047 120 ненулевыми элементами на SGI Origin2000 (если не указано иное, эта матрица используется во всех последующих вычислениях). ). Матрица представляет собой типичный якобиан из приложения PETSc-FUN3D (несжимаемая версия) с четырьмя неизвестными на вершину. В той же таблице также показаны требования к пропускной способности памяти для формата блочного хранения (BAIJ) [4] для этой матрицы с размером блока четыре; в этом формате массив ja меньше на коэффициент размера блока. Мы заметили, что блокировка значительно помогает, сокращая требования к пропускной способности памяти. Наличие более одного вектора также требует меньше пропускной способности памяти и повышает производительность: мы можем умножить четыре вектора примерно в 1,5 раза быстрее, чем умножение одного вектора.

Таблица 1 . Влияние пропускной способности памяти на производительность продукта разреженной матрицы-вектора на SGI Origin 2000 (процессор R10000, 250 МГц). Пропускная способность памяти в тесте STREAM [ 11 ] составляет 358 МБ/с; это значение пропускной способности памяти используется для расчета идеального Mflops/s; достигнутые значения пропускной способности памяти и Mflops/s измеряются с помощью аппаратных счетчиков на этой машине. Наши эксперименты показывают, что мы можем умножить четыре вектора за время, в 1,5 раза превышающее время, необходимое для умножения одного вектора.

Количество Пропускная способность (МБ/с)Mflops/s
ФорматвекторыБайт/fmaddОбязательноВыполненоИдеально Достигнуто
AIJ112,3630902765845
AIJ43,31827221216120
BAIJ19,3123272808455
BAIJ42,54635229305175

2.2 Оценка ограничения проблемы с операцией

Чтобы проанализировать этот предел производительности, мы предполагаем, что все элементы данных находятся в основном кэше (что эквивалентно предположению о бесконечной пропускной способности памяти ). Ссылаясь на алгоритм разреженной матрицы-вектора на рисунке 2, мы получаем следующий состав рабочей нагрузки для каждой итерации внутреннего цикла:

N + 5 целочисленных операций

2 * N операций с плавающей запятой (N инструкций fmadd)

N + 2 загрузки и сохранения

Большинство современных процессоров могут выполнять только одну загрузку или сохранение за один цикл. Поскольку количество инструкций с плавающей запятой меньше, чем количество обращений к памяти, код должен выполнять не меньше циклов, чем количество операций загрузки и сохранения. Это приводит к следующему выражению для этой границы производительности (обозначается как MIS и измеряется в мегафлопс/с):

2.3 Сравнение производительности

На рис. 3 мы сравниваем три границы производительности: пиковую производительность, основанную на тактовой частоте и максимальном количестве операций с плавающей запятой за цикл, производительность, прогнозируемую на основе ограничения пропускной способности памяти в уравнении 1, и производительность, основанную на ограничение рабочей проблемы в уравнении 2 . Для умножения разреженной матрицы на вектор ясно, что предел пропускной способности памяти для производительности является хорошим приближением. Наибольшие различия между производительностью, наблюдаемой и прогнозируемой по пропускной способности памяти, наблюдаются в системах с наименьшим объемом кэш-памяти (IBM SP и T3E), где наше предположение об отсутствии конфликтных промахов, скорее всего, окажется неверным.

Измерение эффективности и показатели

Массимилиано Фатика, Грегори Рюч, в CUDA Fortran для ученых и инженеров, 2014 г.

2.3.1 Теоретическая пиковая пропускная способность

Теоретическая пиковая пропускная способность памяти может быть рассчитана по тактовой частоте памяти и ширине шины памяти. Обе эти величины можно запросить через API управления устройствами, как показано в следующем коде, который вычисляет теоретическую пиковую пропускную способность для всех подключенных устройств:

При расчете пиковой пропускной способности памяти коэффициент 2,0 появляется из-за удвоенной скорости передачи данных ОЗУ за такт памяти, деление на восемь преобразует разрядность шины из битов в байты, а коэффициент 1.e- 6 обрабатывает преобразование килогерц в герц и байт в гигабайт. 2

Иногда вы будете использовать свой компьютер и вдруг заметите, что он работает вяло без видимой причины. Это тип ситуации, когда вы нажимаете на что-то и делаете свою обычную работу с Windows, но по какой-то причине ваш компьютер не так отзывчив, как обычно. Вы не делаете ничего интенсивного, например, кодирования видео, так почему же ваш компьютер вдруг начинает работать с пыхтением? Правда в том, что на компьютерах с Windows 10 в фоновом режиме все время работает миллиард различных процессов, которые занимают как пропускную способность процессора, так и системную память, поэтому, когда ваш компьютер начинает отставать, вы хотите знать, что истощает ваши ресурсы.

Проверьте использование ресурсов в диспетчере задач

Чтобы начать расследование, начните с Диспетчера задач — удобного инструмента, встроенного в Windows, который показывает вам множество статистических данных, спецификаций, запущенных программ и многого другого.

Чтобы открыть Диспетчер задач, используйте два сочетания клавиш:

  • Ctrl + Shift + Escape
  • Ctrl + Alt + Delete, а затем нажмите Диспетчер задач из представленных вариантов.

Кроме того, вы можете найти Диспетчер задач через меню "Пуск" или на панели задач:

  • Нажмите правой кнопкой мыши кнопку Windows и выберите Диспетчер задач
  • Нажмите правой кнопкой мыши на панели задач и выберите Диспетчер задач
  • .

После того как вы открыли Диспетчер задач, надели пару или резиновые перчатки и немного наклонились, чтобы поближе рассмотреть «доказательства», пришло время начать расследование.

Обратите особое внимание на первые два вертикальных столбца: ЦП и Память. Если щелкнуть заголовок любого столбца, список запущенных процессов будет отсортирован в порядке использования ресурсов — от большего к меньшему или наоборот.

Например, предположим, что вы заметили, что в столбце "Память" указано использование 30 процентов. Нажав на верхнюю часть столбца, вы ранжируете процессы от наиболее требовательных к оперативной памяти, и, ей-богу, Google Chrome находится в верхней части списка! Мы никак не ожидали увидеть такое, и это, кстати, сарказм.

В этом конкретном сценарии мы не возражаем, если Chrome поглотит 1 ГБ нашей системной памяти, поскольку у нас всего 32 ГБ, но если это было для вас проблемой, вы можете просто щелкнуть правой кнопкой мыши соответствующий пожиратель памяти и выбрать Завершить задачу.

Если это слишком много усилий, Windows автоматически выделит программы, которые потребляют слишком много ресурсов. Цветные флажки, такие как желтый, оранжевый и красный, указывают на относительную серьезность потребления ресурсов. Имейте в виду, что использование даже чрезмерных ресурсов не обязательно плохо, если вы намеренно запускаете эти процессы.

Диспетчер задач позволяет легко увидеть, что происходит, чтобы вы могли принять соответствующие решения. Иногда Windows периодически запускает различные процессы для индексации файлов или выполнения системных проверок и прерываний, что может привести к неожиданному замедлению работы. Если вы обнаружите, что программа потребляет ресурсы, но у вас нет возможности просто Завершить задачу, вы всегда можете перезагрузить систему, а затем проверить диспетчер задач, чтобы убедиться, что она все еще работает.

Создать плавающий монитор ЦП

Диспетчер задач также позволяет отслеживать загрузку процессора в режиме реального времени, если вы можете сэкономить место на экране.Чтобы создать плавающий монитор ЦП, нажмите вкладку Производительность в Диспетчере задач, щелкните ЦП, затем наведите указатель мыши на диаграммы, показывающие ядра ЦП, щелкните правой кнопкой мыши и выберите Сводка графика. . Вы можете изменить его размер, чтобы он подошёл к вашему рабочему столу — это приятное и занудное дополнение!

Используйте монитор ресурсов, чтобы получить дополнительные сведения

Если вас не устраивает то, что показывает вам Диспетчер задач, в Windows есть более точно настроенный монитор ресурсов, который показывает немного больше информации о том, что происходит с вашим процессором и памятью.

Чтобы открыть эту программу, просто нажмите "Пуск", затем "Выполнить" и введите Resmon, чтобы открыть монитор ресурсов.

Хотя Диспетчер задач предпочтительнее, если вас интересует только использование ЦП, Монитор ресурсов предлагает более подробную информацию об использовании памяти. Удобный графический интерфейс показывает объем используемой оперативной памяти, какие программы, а также сколько доступно, сколько установлено и многое другое. Вы можете видеть, сколько поглощает каждая программа, и даже автоматически искать в Интернете выделенную программу, если вы не уверены, почему она работает или что это вообще такое.

Отлично, но мне нужно больше информации

То, что мы рассмотрели выше, более чем достаточно, чтобы выяснить, что использует все ресурсы вашего процессора и памяти. Но если вы относитесь к тому типу людей, которые говорят: «Это здорово, но какой у меня процессор и насколько быстро работает моя память?» тогда мы вас тоже прикроем. Если вы действительно хотите заглянуть во все уголки и закоулки вашей системы, мы рекомендуем HWINfo.

Самая приятная особенность этой программы заключается в том, что когда вы наводите указатель мыши на одно из полей, она сообщает вам на простом английском языке, что означает эта информация, которая должна удовлетворить вашу тягу к спецификациям и дополнительной информации о вашем оборудовании. Если вам нужны дополнительные параметры, обязательно ознакомьтесь с нашей статьей «Как проверить свои характеристики в Windows 10».

Арс обсуждает проблемы пропускной способности и задержки внутри аппаратной архитектуры.

Джон Стоукс – 6 ноября 2002 г., 19:00 UTC

комментарии читателей

Поделиться этой историей

Введение

Начиная с давно минувших дебатов о DDR и RDRAM и заканчивая текущими спорами о реализации Apple DDR, в большинстве дискуссий о технологиях памяти часто неправильно понимают один вопрос: природу взаимосвязи между пропускной способностью и задержкой. Эта статья призвана дать вам базовое представление о сложном и тонком взаимодействии между пропускной способностью и задержкой, чтобы в следующий раз, когда вы увидите значения пропускной способности, указанные для системы, вы могли лучше понять, как эти числа преобразуются в реальную производительность. .

Эта статья была написана таким образом, что изложенные в ней понятия будут применимы для понимания широкого круга систем и частей систем: от внешней шины и шин памяти текущих систем P4 и Athlon до шин в новых процессорах Apple. XСерв. Таким образом, на протяжении всей статьи я намеренно избегал увязнуть в деталях конкретных реализаций в надежде, что общие концепции будут понятны читателю. Обратная сторона этой простоты заключается в том, что почти для каждого моего утверждения технически подкованный читатель, вероятно, мог бы указать на различные исключения, обходные пути и другие предостережения, характерные для конкретных систем и сценариев доступа к данным. Тем не менее, я надеюсь, что эта статья будет способствовать более информативным обсуждениям, когда на форумах, таких как собственный OpenForum Ars, появятся сравнения пропускной способности между различными системами.

Теоретическая оценка: пиковая пропускная способность

Большинство технических специалистов воспринимают пропускную способность шины как единичное число, прикрепленное к линии или шине, которое количественно определяет, сколько данных может передать линия или шина. С этой точки зрения пропускная способность рассматривается как неотъемлемое, фиксированное свойство самой передающей среды, число, на которое не влияют капризы передатчиков на обоих концах среды.

Когда люди говорят о пропускной способности шины таким образом, на самом деле они описывают только один тип пропускной способности: теоретическую пиковую пропускную способность шины. Пиковая пропускная способность шины является наиболее легко вычисляемой, самой большой (читай: наиболее удобной для маркетинга) и наименее релевантной пропускной способностью, которую вы можете использовать для количественной оценки объема данных, которые два компонента (т. е. ЦП и ОЗУ) могут обрабатывать. обмен в течение определенного периода времени.В большей части литературы по продуктам это теоретическое число, которое редко (если вообще когда-либо) приближается к реальной практике, будет цитироваться всякий раз, когда в литературе хотят говорить о том, какая полоса пропускания доступна для системы. Давайте подробнее рассмотрим, как рассчитывается это число и что оно представляет.

Думайте о спадающих фронтах или тактах тактовой частоты шины памяти как о крючках, на которые память может подвешивать стойку из 8 байтов для передачи в ЦП. Поскольку автобусные часы всегда бьют, это похоже на конвейерную ленту с пустыми крюками, которые проходят один раз за каждый такт. Эти пустые хуки представляют собой возможности для передачи кода и данных в ЦП, и каждый раз, когда на одном из них ничего нет, это становится потраченной впустую емкостью или неиспользованной полосой пропускания. В идеале система хотела бы, чтобы все эти хуки были заполнены, чтобы использовалась вся доступная полоса пропускания шины. Однако по причинам, которые я объясню намного позже, может быть трудно полностью использовать шину.

В дополнение к тактовой частоте памяти я включил тактовую частоту ЦП вверху для справки. Обратите внимание, что часы ЦП работают намного быстрее, чем часы шины, поэтому каждый такт шины соответствует нескольким (в данном случае около 7,5) циклам тактовой частоты ЦП. Также обратите внимание на отсутствие северного моста; ЦП для простоты напрямую подключен к основной памяти, поэтому сейчас, когда я использую термин «шина памяти», я на самом деле говорю об этой комбинации внешней шины/шины памяти.

На предыдущей и последующих диаграммах я попытался представить количество времени, которое требуется памяти для ответа на запрос ЦП (или задержку), в виде значения расстояния. Размер тактовых циклов ЦП останется фиксированным на каждой диаграмме, а количество тактовых циклов ЦП (и, по сути, расстояние), отделяющее ЦП от основной памяти, будет разным. На изображениях систем, где памяти требуется меньше тактовых циклов ЦП для ответа на запрос данных, память будет размещена ближе к ЦП; и наоборот для систем, в которых памяти требуется больше тактов для доставки товаров.

Просто чтобы показать вам, о чем я говорю, посмотрите на следующую картинку, чтобы увидеть, как я иллюстрирую систему с более низкой скоростью шины.

Теперь, когда мы разобрались с этим, давайте попробуем рассчитать пропускную способность. Если медленная шина работает со скоростью 100 миллионов тактовых циклов в секунду (100 МГц) и передает 8 байтов за каждый тактовый цикл, то ее пиковая пропускная способность составляет 800 миллионов байтов в секунду (800 МБ/с). Аналогичным образом, если более быстрая шина работает на частоте 133 МГц и передает 8 байтов за такт, то ее пропускная способность составляет 1064 МБ/с (или 1,064 ГБ/с).


8 байт * 100 МГц = 800 МБ/с
8 байт * 133 МГц = 1064 МБ/с

Оба этих числа являются теоретическими значениями пиковой пропускной способности, которые характеризуют только пропускную способность шины. Или, если вернуться к аналогии с «хуками», эти числа просто говорят вам, сколько хуков происходит каждую секунду. Однако это гораздо больше, чем просто пропускная способность шины, и как только мы учтем возможности как потребителя (ЦП), так и производителя (ОЗУ), мы увидим, что реальная пропускная способность системы в целом, как правило, немного меньше, чем может показаться на первый взгляд из-за пропускной способности передающей среды. Чем больше хуков остаются незаполненными (по какой-либо причине), тем больше снижается реальная пропускная способность системы.

И последнее, что я должен прояснить, прежде чем мы двинемся дальше, это то, что полный тактовый цикл состоит из одного такта вверх и одного такта вниз. По причинам, которые станут очевидными, когда мы будем говорить о передаче сигналов DDR, на своих диаграммах я немного разделил верхние и нижние доли, но вы также можете представить их слитыми вместе.

В огромном мире жестких дисков, твердотельных накопителей, ОЗУ, видеопамяти, модных технологий ЦП и многого другого мы почувствовали, что пришло время углубиться в скорость передачи данных.

Таким образом, даже если вы работаете с образцом сборки ПК в нашей основной таблице сборок, вы будете точно знать, какую скорость и общую пропускную способность вы получаете за свои деньги!

С чего начать? Процессор конечно! (ЦП, Кэш ЦП)

Итак, все начинается с процессора. Любые другие данные на любом другом оборудовании, по сути, пытаются не отставать от того, насколько быстро ваш процессор может обрабатывать данные.Чтобы ЦП мог обрабатывать такие огромные объемы данных, каждый современный ЦП поставляется с некоторым встроенным кэшем данных, который предназначен для того, чтобы ЦП мог быстро использовать хранящиеся там данные. Теперь, как и в случае с вашей современной оперативной памятью DDR4, которую вы покупаете, скорость стоит денег, особенно когда мы рассматриваем скорость кэш-памяти. По этой причине ЦП текущего поколения будет поставляться с 3 уровнями кэш-памяти (обычно помеченными L1, L2, L3), и вам повезет, если ЦП будет иметь более нескольких МБ кэш-памяти L3. Пропускная способность кеша (насколько быстро данные могут перемещаться через кеш) тесно связана с количеством инструкций за такт, а также с физической тактовой частотой, но теоретическая пропускная способность скорости передачи данных для кеша L3 составляет чудовищные 175 ГБ в секунду ( или 175 000 МБ/с, так что это имеет смысл с другими числами ниже). Вот почему что-то вроде блестящего нового i7-8700K поставляется только с 12 МБ кэш-памяти L3. Что-то большее и, откровенно говоря, стоимость ЦП взлетела бы до небес.

Почему Infinity Fabric просто потрясающая

Поэтому, несмотря на то, что Intel назвала AMD Infinity Fabric «клеем», следует отдать должное специалистам AMD, которые создали эту технологию, позволяющую ядрам своих процессоров (таких как новый Ryzen 7 2700X) эффективно «общаться». друг другу быстро. Теперь это система, которая подстраивается под требования ЦП, но ее производительность начинается со скорости передачи данных 30 ГБ/с и достигает головокружительных высот 512 ГБ/с (512 000 МБ/с) на верхней границе. По сути, именно благодаря этому AMD удается так эффективно распределять кеш-память между своими 4 кластерами ЦП — она может соответствовать безумной скорости кэш-памяти L3 для каждого ЦП… но дизайн ЦП — это совсем другая тема для другого дня!

Вы должны только… подождите, неправильный фильм. Фото Keystone/Getty Images

Системная память (ОЗУ)

Из-за высокой стоимости кэш-памяти для ЦП хорошим «посредником» между стандартными типами хранилища и ЦП и его кэшем стала память DRAM. За прошедшие годы произошло несколько улучшений скорости оперативной памяти, в немалой степени благодаря повышению скорости процессора. Таким образом, если вы возьмете хорошую современную оперативную память DDR4, такую ​​как этот комплект G.SKILL TridentZ, вы, как правило, получите пиковую скорость передачи данных около 25 600 МБ/с. Итак, вы уже видите в компьютере что-то, что немного медленнее, чем кеш, хотя все еще достаточно быстро для различных программ, которые должен запускать ЦП и для которых ЦП должен хранить данные, пока система включена. Опять же, здесь играет роль тактовая частота процессора, поскольку DDR ​​(удвоенная скорость передачи данных) передает данные как по восходящей, так и по падающей кривой тактовой частоты процессора.

Что насчет памяти GDDR? (Випамяти)

Таким образом, то же самое общее практическое правило применимо к видеопамяти, используемой в видеокартах. Доступно несколько классов, из которых одним из самых быстрых (и легкодоступных) является GDDR5X, который вы найдете, например, в GTX 1080 от NVIDIA и выше. Эта видеопамять GDDR5X имеет скорость передачи данных 45 640 МБ/с. По сравнению с самой быстрой системной памятью DDR4 (25 600 МБ/с) становится ясно, почему видеокарта (с ее сверхбыстрой памятью) делает несколько выделенных графических процессоров популярными для вычислительных задач, таких как рендеринг, кодирование, машинное обучение и общие математические вычисления. исследования.

Выделенный графический процессор стал популярным среди профессионалов благодаря настройке оперативной памяти GDDR, которая будет использоваться для потоковой обработки. Для некоторых математических задач, требующих отдельных элементов данных, использование нескольких ядер графического процессора оказалось более быстрым и экономичным, чем использование стандартных конфигураций ЦП. Для NVIDIA их платформа под названием CUDA (Compute Unified Device Architecture) позволяет графическому процессору использовать свою оперативную память GDDR для единой структуры памяти, способной к разбросанному чтению (то есть доступ к различным частям данных может быть получен в случайном или, по крайней мере, в различном порядке). ). Благодаря возможности одновременного использования нескольких графических процессоров в нескольких слотах расширения PCIe прирост производительности для вычислительных задач классифицируется как превосходный, поскольку большинство стандартных материнских плат соединяют многочисленные линии PCIe только с одним процессорным разъемом.

Этот плохой мальчик может обрабатывать так много линий PCIe…

Теперь о линиях PCIe материнской платы (PCIe x1-x16)

Когда-то в истории создания ПК были кошмарные времена, когда компоненты не использовали стандартный формат для установки на материнскую плату; тогда не было по-настоящему последовательного способа узнать наверняка, будет ли та или иная деталь вообще работать, когда вы ее установили… такие хорошие времена. К счастью, появился PCIe и сделал нашу жизнь строителей намного проще.Вы знаете, как все говорят, что в наши дни создание компьютера похоже на очень занудную версию Lego? Что ж, значительная часть этой аналогии связана с этим стандартом.

Итак, каждая «линия» PCIe имеет две пары проводов — одну пару для отправки данных и одну пару для приема данных. Когда вы видите префикс PCIe, например «x4», это означает, что рассматриваемому устройству требуется 4 полосы для максимальной пропускной способности данных. В настоящее время мы используем PCIe 3.0 и (как это часто бывает со стандартами) проблемы с 4.0 еще в 2013 году означают, что производители стремятся сразу перейти к стандарту 5.0 в 2019 году. Однако на данный момент стандарт 3.0 обеспечивает следующую передачу данных. ставки в зависимости от количества используемых дорожек:

Читайте также: