Как рассчитать пропускную способность видеокарты

Обновлено: 13.07.2026

Вы можете использовать различные эталонные тесты в MATLAB® для измерения производительности вашего графического процессора:

Используйте сценарий paralleldemo_gpu_bench в разделе Измерение производительности графического процессора, чтобы получить информацию о скорости шины PCI, чтении/записи памяти графического процессора и максимальной производительности вычислений для матричных вычислений с двойной точностью.

Повышение производительности с помощью расчетов с одинарной точностью

Вы можете повысить производительность графического процессора, выполняя вычисления с одинарной точностью, а не с двойной точностью. С другой стороны, в вычислениях ЦП вы не получаете этого улучшения при переключении с двойной точности на одинарную. Причина в том, что большинство карт GPU предназначены для графического отображения, требующего высокой производительности с одинарной точностью.

Найдите GPU на вики-странице выше.

Получите заявленные значения производительности с одинарной и двойной точностью из таблицы. Если значение GFLOPS с двойной точностью отсутствует, предположим, что соотношение для двойной точности в 24–32 раза меньше.

Поделите заявленное значение GFLOPS с одинарной точностью на значение GFLOPS с двойной точностью.

Примечание

Если в вашем ноутбуке установлена мобильная видеокарта, вы можете использовать ее для вычислений на GPU. Однако графический процессор ноутбука, вероятно, будет намного менее мощным, чем эквивалентный ему настольный компьютер, поэтому производительность снижается.

Основной рабочий процесс для повышения производительности

Целью вычислений на GPU в MATLAB является ускорение ваших приложений. В этом разделе обсуждаются основные концепции и методы, которые могут помочь вам повысить производительность графического процессора, например, конфигурация оборудования графического процессора и лучшие практики в вашем коде. В нем обсуждается компромисс между сложностью реализации и производительностью и описываются критерии, которые вы можете использовать для выбора между использованием функций gpuArray, arrayfun, MEX-файлов или ядер CUDA. Наконец, в нем описывается, как точно измерить производительность графического процессора.

При преобразовании кода MATLAB для работы на графическом процессоре лучше всего начинать с кода MATLAB, который уже работает хорошо. Хотя GPU и CPU имеют разные характеристики производительности, общие рекомендации по написанию хорошего кода MATLAB также помогут вам написать хороший код MATLAB для GPU. Первым шагом почти всегда является профилирование кода процессора. Строки кода, которые, как показывает профилировщик, занимают больше всего времени на ЦП, вероятно, будут теми, на которых вы должны сосредоточиться, когда пишете код для графического процессора.

Проще всего начать преобразование кода с помощью встроенных функций MATLAB, поддерживающих данные gpuArray. Эти функции принимают входные данные gpuArray, выполняют вычисления на графическом процессоре и возвращают выходные данные gpuArray. Список функций MATLAB, которые поддерживают данные gpuArray, находится в разделе Запуск функций MATLAB на графическом процессоре. Как правило, эти функции поддерживают те же аргументы и типы данных, что и стандартные функции MATLAB, которые вычисляются на ЦП.

Если все функции, которые вы хотите использовать, поддерживаются графическим процессором, выполнение кода на графическом процессоре может быть таким же простым, как вызов gpuArray для передачи входных данных в графический процессор и вызов функции Gather для извлечения выходных данных из графического процессора, когда законченный. Во многих случаях вам может понадобиться векторизовать код, заменив циклические скалярные операции матричными и векторными операциями MATLAB. Хотя векторизация обычно является хорошей практикой для ЦП, она обычно имеет решающее значение для достижения высокой производительности на графическом процессоре. Дополнительные сведения см. в разделе Векторизация для повышения производительности графического процессора.

Дополнительные инструменты для повышения производительности

Возможно, что даже после преобразования входных данных в массивы gpuArray и векторизации кода в вашем алгоритме есть операции, которые либо не являются встроенными функциями, либо недостаточно быстры для удовлетворения требований вашего приложения. В таких ситуациях у вас есть три основных варианта: использовать arrayfun для предварительной компиляции поэлементных частей вашего приложения, использовать функции библиотеки графического процессора или написать собственное ядро CUDA.

Если у вас есть чисто поэлементная функция, вы можете повысить ее производительность, вызвав ее с помощью arrayfun . Функция arrayfun на графическом процессоре превращает поэлементную функцию MATLAB в пользовательское ядро CUDA, тем самым уменьшая накладные расходы на выполнение операции. Часто есть подмножество вашего приложения, которое можно использовать с arrayfun, даже если все приложение не может. В примере Улучшение производительности поэлементных функций MATLAB® на графическом процессоре с помощью ARRAYFUN показаны основные концепции этого подхода; а пример Использование графического процессора ARRAYFUN для моделирования Монте-Карло показывает, как это можно сделать в моделировании для финансового приложения.

MATLAB предоставляет обширную библиотеку функций с поддержкой графического процессора в Parallel Computing Toolbox™, Image Processing Toolbox™, Signal Processing Toolbox™ и других продуктах. Однако существует множество библиотек дополнительных функций, не имеющих прямых встроенных аналогов в поддержке графических процессоров MATLAB.Примеры включают библиотеку NVIDIA Performance Primitives и библиотеку CURAND, которые включены в набор инструментов CUDA, поставляемый с MATLAB. Если вам нужно вызвать функцию в одной из этих библиотек, вы можете сделать это с помощью MEX-интерфейса графического процессора. Этот интерфейс позволяет вам извлекать указатели на данные устройства из MATLAB gpuArrays, чтобы вы могли передать эти указатели функциям графического процессора. Вы можете преобразовать возвращенные значения в gpuArrays для возврата в MATLAB. Дополнительные сведения см. в разделе Запуск MEX-функций, содержащих код CUDA.

Наконец, у вас есть возможность написать собственное ядро CUDA для нужной вам операции. Такие ядра можно напрямую интегрировать в MATLAB с помощью объекта CUDAKernel.

Пример, иллюстрирующий три подхода к вычислениям на GPU: набор Мандельброта, показывает, как реализовать простой расчет с использованием трех подходов, упомянутых в этом разделе. Этот пример начинается с кода MATLAB, который легко конвертируется для работы на графическом процессоре, код переписывается для использования arrayfun для поэлементных операций и, наконец, показывается, как интегрировать пользовательское ядро CUDA для той же операции.

Кроме того, вы можете написать ядро CUDA как часть MEX-файла и вызывать его с помощью API среды выполнения CUDA внутри MEX-файла. Любой из этих подходов может позволить вам работать с низкоуровневыми функциями графического процессора, такими как общая память и память текстур, которые напрямую недоступны в коде MATLAB. Дополнительные сведения см. в примере «Доступ к расширенным функциям CUDA с помощью MEX».

Измерение производительности графического процессора

Лучший способ измерить производительность графического процессора — использовать gputimeit . Эта функция принимает в качестве входных данных дескриптор функции без входных аргументов и возвращает измеренное время выполнения этой функции. Он заботится о таких аспектах бенчмаркинга, как повторение синхронизированной операции для получения лучшего разрешения, выполнение функции перед измерением, чтобы избежать накладных расходов на инициализацию, и вычитание накладных расходов функции синхронизации. Кроме того, gputimeit гарантирует, что все операции на графическом процессоре будут завершены до окончательного времени.

Например, рассмотрим измерение времени, затрачиваемого на вычисление lu-факторизации случайной матрицы A размера N x N . Вы можете сделать это, определив функцию, которая выполняет факторизацию lu и передав дескриптор функции gputimeit :

Вы также можете измерить производительность с помощью tic и toc . Однако, чтобы получить точное время на GPU, вы должны дождаться завершения операций перед вызовом toc. Есть два способа сделать это. Перед вызовом toc можно вызвать сбор для конечного вывода графического процессора: это приводит к завершению всех вычислений до того, как будет выполнено измерение времени. В качестве альтернативы вы можете использовать функцию ожидания с объектом gpuDevice в качестве входных данных. Например, если вы хотите измерить время, затрачиваемое на вычисление lu-факторизации матрицы A с помощью tic , toc и wait , вы можете сделать это следующим образом:

Вы также можете использовать профилировщик MATLAB, чтобы показать, как время вычислений распределяется в коде графического процессора. Обратите внимание, что для выполнения измерений времени профилировщик запускает каждую строку кода независимо, поэтому он не может учитывать перекрывающееся (асинхронное) выполнение, которое может произойти во время нормальной работы. Для синхронизации целых алгоритмов вы должны использовать tic и toc или gputimeit, как описано выше. Кроме того, профиль может не давать правильных результатов для определяемых пользователем функций MEX, если они выполняются асинхронно.

Векторизация для повышения производительности графического процессора

В этом примере показано, как повысить производительность, запустив функцию на графическом процессоре, а не на ЦП, и векторизовав вычисления.

Рассмотрите функцию, которая выполняет быструю свертку столбцов матрицы. Быстрая свертка, которая является обычной операцией в приложениях обработки сигналов, преобразует каждый столбец данных из временной области в частотную область, умножает его на преобразование вектора фильтра, преобразует обратно во временную область и сохраняет результат в выходная матрица.

Выполните эту функцию в ЦП для данных определенного размера и измерьте время выполнения с помощью функции MATLAB timeit. Функция timeit учитывает общие параметры сравнительного анализа, такие как учет времени запуска и накладных расходов.

На тестовом компьютере этот код отображает вывод:

Теперь выполните эту функцию на графическом процессоре. Вы можете сделать это легко, изменив входные данные на gpuArrays, а не на обычные массивы MATLAB. Синтаксис «like», используемый при создании вывода внутри функции, гарантирует, что y будет gpuArray, если данные являются gpuArray.

На том же компьютере этот код отображает вывод:

К сожалению, для этой проблемы GPU работает медленнее, чем CPU. Причина в том, что цикл for выполняет операции БПФ, умножения и обратного БПФ для отдельных столбцов длиной 4096. Лучший способ повысить производительность — векторизовать код, чтобы один вызов функции MATLAB выполнял больше вычислений. Операции FFT и IFFT легко векторизовать: fft(A) вычисляет FFT каждого столбца матрицы A . Вы можете выполнить умножение фильтра с каждым столбцом в матрице сразу с помощью бинарной скалярной функции расширения MATLAB bsxfun . Векторизованная функция выглядит так:

Выполните тот же эксперимент, используя векторизованную функцию:

Итак, векторизация кода помогает ускорить работу версий с процессором и графическим процессором. Однако векторизация помогает версии GPU гораздо больше, чем CPU. Улучшенная версия процессора почти в два раза быстрее оригинала; улучшенная версия графического процессора в 13 раз быстрее оригинала. Код GPU стал на 40 % медленнее, чем процессор в исходной версии, до примерно в пять раз быстрее в исправленной версии.

Устранение неполадок с графическими процессорами

Если на вашем компьютере есть только один графический процессор, вполне вероятно, что ваша видеокарта также выступает в качестве видеокарты. В этом случае ваш графический процессор, вероятно, подвержен тайм-ауту, установленному операционной системой (ОС). Вы можете проверить это для своего графического процессора следующим образом:

Похоже, моя новая RTX 2070 имеет 14000 МГц на GDDR6, однако GPU-Z читает около 2000. Я помню, что с GDDR5 вы просто умножаете это на 4, так как он «четырехкратный», но как мне рассчитать скорость GDDR6?

Земляная собака

Ваша карта 1750 МГц на складе IIRC. ДВОЙНАЯ СКОРОСТЬ ПЕРЕДАЧИ ДАННЫХ и четырехкратная прокачка. Точно так же, как вы бы сделали это с GDDR5. 2x значение, затем 4x.

эйдайраман1

Летчик в изгнании

< tr>

Имя системы	PCGOD
Процессор	AMD FX 8350@ 5,0 ГГц
Материнская плата	Asus TUF 990FX Sabertooth R2 2901 Bios
Охлаждение	Scythe Ashura , 2 светодиодных индикатора BitFenix 230 мм Spectre Pro (синий, зеленый), 2 светодиодных индикатора BitFenix 140 мм Spectre Pro
Память	16 ГБ Gskill Ripjaws X 2133 (2400 OC, 10-10-12-20-20, 1T, 1,65 В)
Видеокарты	AMD Radeon 290 Sapphire Vapor-X
Память	Samsung 840 Pro 256 ГБ, WD Velociraptor 1 ТБ
Дисплей(ы)	NEC Multisync LCD 1700V (адаптер порта дисплея)
Чехол	AeroCool Xpredator Evil Blue Edition
Аудиоустройство(а)	Creative Labs Sound Blaster ZxR
Источник питания	Seasonic 1250 XM2 Series ( XP3)
Мышь	Roccat Kone XTD
Клавиатура	Roccat Ryos MK Pro
Программное обеспечение являются	Windows 7 Pro 64

новичок1

Полузакрытая папка

Процессор	Intel Core i7 10850K@5,2 ГГц
Материнская плата	AsRock Z470 Taichi< /td>
Охлаждение	Corsair H115i Pro с вентиляторами Noctua NF-A14
Память	32 ГБ DDR4-3600
Видеокарты	RTX 2070 Super
Хранилище	500 ГБ SX8200 Pro + 8 ТБ с кэш-памятью SSD 1 ТБ
Дисплей(-и)	Acer Nitro VG280K 4K 28"
Case	Fractal Design Define S
Аудиоустройства	Встроенного достаточно для меня
Блок питания	eVGA SuperNOVA 1000w G3
Программное обеспечение	Windows 10 Pro x64

GDDR5X и GDDR6 в 8 раз превышают фактическую частоту.

Поэтому GPU-Z сообщит о 1750 МГц, что соответствует фактической тактовой частоте видеопамяти. Вы умножаете это на 8, чтобы получить эффективную тактовую частоту 14 000 МГц.

Удвоенная скорость передачи данных и четырехкратная перекачка. Точно так же, как вы бы сделали это с GDDR5. 2x значение, затем 4x.

Это не то, что означает двойная скорость передачи данных, ну, вроде того. Двойная скорость передачи данных, или DDR, означает, что вы умножаете фактическую тактовую частоту на 2. На самом деле GDDR5 следовало бы называть QDR, а не DDR, поскольку это уже не двойная скорость передачи данных, а четырехкратная скорость передачи данных. GDDR5X и GDDR6 поддерживают октоскорость передачи данных. Но по какой-то причине они все еще называют их DDR, я думаю, просто потому, что это то, что люди знают.

Обратите внимание, что скорость памяти/часы памяти на их веб-сайте совпадают и измеряются в Гбит/с.

3 ответа 3

У Titan 384-битная шина, а у GTX 680 всего 256, поэтому пропускная способность памяти на 50 % больше (при условии, что частота и задержки одинаковы).

Фактор A: Частота

ОЗУ работает с тактовой частотой. Оперативная память, работающая на частоте 1 ГГц, «тикает» 1 000 000 000 (миллиард) раз в секунду. С каждым тактом он может получить или отправить один бит на каждой дорожке. Таким образом, теоретический модуль ОЗУ только с одной полосой памяти, работающей на частоте 1 ГГц, будет передавать 1 Гигабит в секунду, поскольку в байтах 8 бит, что означает 125 МБ в секунду.

Фактор B: "Скорость накачки"

DDR-RAM (двойная скорость передачи данных) может передавать два бита за такт, и даже есть шины с «четверной накачкой», которые передают четыре бита за тик, но я не слышал о последних, используемых на видеокартах.

Фактор C: ширина шины.

Оперативная память не имеет единственной линии для отправки данных. Даже у Intel 4004 была 4-битная шина. Связанные вами графические карты имеют 256 полос шины и 384 полосы шины соответственно.

Все вышеперечисленные факторы умножаются для расчета теоретического максимума, при котором данные могут быть отправлены или получены:

**Максимальная пропускная способность в байтах в секунду = частота * скорость загрузки * ширина шины / 8 **

Теперь давайте посчитаем для двух видеокарт, которые вы связали. Оба они используют один и тот же тип ОЗУ (GDDR5 с частотой подкачки 2), оба работают на частоте 3 ГГц.

Фактор D: задержка — или в дело вступает реальность

Этот фактор НАМНОГО сложнее рассчитать, чем все вышеперечисленные вместе взятые. По сути, когда вы говорите своей оперативной памяти: «Эй, мне нужны эти данные», требуется некоторое время, пока она не найдет ответ. Эта задержка зависит от ряда факторов, и ее действительно сложно рассчитать, и обычно это приводит к тому, что системы с оперативной памятью выдают намного меньше, чем их теоретические максимумы. Здесь все тайминги, предварительная выборка и множество других вещей вступают в игру. Поскольку в маркетинге можно использовать не только цифры, где более высокие цифры означают «лучше», маркетинг фокусируется в основном на других вещах. И если вам интересно, именно этим GDDR5 отличается от DDR3 на вашей материнской плате.

Джейкоб Тувинер

В спецификации графического процессора, я уверен, вы ее видели, там куча цифр, верно?

Название графического процессора, тактовая частота ядра, объем встроенной видеопамяти и, наконец, тактовая частота видеопамяти.

Но насколько важны ваши часы памяти? А как насчет тактовой частоты ядра вашего графического процессора?

Частоты памяти вашего графического процессора на самом деле почти так же важны, как и часы вашего ядра, если не важнее.

В следующей статье мы расскажем, насколько важна тактовая частота памяти графического процессора для игр, чтобы вы могли принять более взвешенное решение.

Объяснение тактовой частоты памяти

Память или VRAM на вашем графическом процессоре используется для временного хранения ресурсов, таких как текстуры, которые используются в любой игре, в которую вы можете играть.

Это означает, что наличие более быстрой видеопамяти позволяет вашей видеокарте быстрее обрабатывать эти ресурсы, а наличие большего объема видеопамяти позволяет хранить больше ресурсов.

Таким образом, более высокая тактовая частота видеопамяти может значительно ускорить рендеринг ваших игр.

Разгон также может сильно повлиять на производительность вашей видеокарты, и, как и в случае с частотой ядра, вы можете разогнать память графического процессора.

Мы всегда предлагаем разгон, чтобы добиться максимальной производительности ваших компонентов.

В чем разница между тактовой частотой памяти и тактовой частотой ядра графического процессора?

Часы памяти – это частота видеопамяти графического процессора, а частота ядра – скорость чипа графического процессора. Вы можете сравнить тактовую частоту ядра графического процессора с тактовой частотой процессора и тактовой частотой оперативной памяти игрового ПК. Обычно тактовая частота ядра влияет на игровую производительность сильнее, чем тактовая частота памяти.

Влияет ли тактовая частота памяти на FPS?

Ну, я даже не знаю, что вам здесь сказать.

Шучу, конечно.

Подводя итог, я не могу дать однозначного ответа на вопрос, влияет ли тактовая частота памяти графического процессора на FPS в играх.

При выборе графического процессора вы, конечно же, захотите сравнить чистую производительность каждой отдельной видеокарты и модели видеокарты.

Одна вещь, которая различается между моделями сторонних производителей, — это часы памяти. Частота ядра также может варьироваться, но мы рассмотрим ее в другом месте.

Большинство людей, как правило, обращают внимание только на тактовую частоту ядра, чтобы понять, какой FPS им следует ожидать в играх, но влияет ли на это частота памяти?

Условно говоря, если бы вы разогнали тактовую частоту памяти графического процессора, в большинстве случаев это дало бы очень небольшой прирост производительности, он варьируется от игры к игре.

Некоторые игры выигрывают от частоты видеопамяти гораздо больше, чем другие, а те, похоже, не так ценят ее.

Таким образом, частота памяти графического процессора может влиять на FPS, будь то на 1% или на 10%, это просто зависит от того, в какую игру вы играете.

Объяснение тактовой частоты ядра

Что очень важно для FPS, так это фактическая тактовая частота графического процессора.

Это будет самое бесценное число, которое вы найдете на своей видеокарте, потому что чем больше, тем лучше.

Как правило, чем выше тактовая частота вашего ядра, тем выше частота кадров в секунду в играх, но это применимо только при сравнении того же типа видеокарты с другой моделью (например, 2080 FE и 2080 FE).2080 ROG Strix), так как разные карты имеют разное количество компонентов и структуру сборки.

Тактовая частота ядра графического процессора показывает, насколько быстро ваш графический процессор может обрабатывать графику. Таким образом, разгон ядра графического процессора всегда будет напрямую влиять на FPS, который вы получаете в играх.

Однако тактовая частота памяти, как мы объясняли ранее, является мерой того, насколько быстро встроенная память вашей видеокарты может хранить и повторно развертывать ресурсы, такие как текстуры, в игровом мире.

Увеличение этой тактовой частоты повысит эффективность видеопамяти при обработке игровых ресурсов, хранящихся в ней, что сделает вашу игру более плавной, но в большинстве случаев не слишком сильно улучшит FPS.

Имеет ли значение Boost Clock?

Увеличение частоты может показаться не таким уж важным, но для тех, кто планирует оставить свою видеокарту на базовых настройках, это может стать ключевым фактором при выборе следующей карты.

Что такое тактовая частота?

Ну, тактовая частота Boost похожа на турбо-скорость, установленную производителем, когда ваша видеокарта выполняет большую нагрузку.

Это означает, что когда ваш графический процессор интенсивно работает, он может увеличить свою частоту на 100 или 200 МГц, чтобы немного увеличить производительность при большой нагрузке.

При отсутствии разгона тактовая частота в режиме Boost будет чрезвычайно важна для вашей видеокарты, поскольку это будет максимально возможная тактовая частота, которую может достичь ваша карта. Чем выше эта тактовая частота, тем выше производительность (более высокий FPS), которую вы можете ожидать.

Однако, если вы планируете разгон, вы можете полностью игнорировать тактовую частоту вашей видеокарты. Разгон изменяет базовую тактовую частоту ядра графического процессора, фактически делая тактовую частоту разгона бесполезной, поскольку базовая тактовая частота может ее обогнать.

Ваша частота разгона не масштабируется при разгоне.

Тест тактовой частоты графического процессора и утилиты

Если у вас уже есть видеокарта, поиск и тестирование производительности графического процессора может быть полезной задачей при обновлении. Такие инструменты, как UserBenchmark и 3DMark, могут проверить производительность вашей видеокарты, оценить ее и сравнить с другими аналогичными или более мощными графическими процессорами.

UserBenchmark проверит все компоненты вашего компьютера и оценит их в процентильном диапазоне, поскольку он напрямую сравнивает ваше устройство с другими протестированными устройствами той же модели. Он оценивает его на основе производительности по сравнению с самым низким полученным тестом и самым высоким полученным тестом.

Это отличный способ сравнить то, что у вас есть, с тем, что вы могли бы иметь.

3DMark, с другой стороны, намного более интенсивный тест. 3DMark максимально нагружает вашу карту и просто надеется, что она заработает. Большинство современных карт могут по крайней мере дойти до конца теста, независимо от того, насколько низок результат.

В отличие от UserBenchmark, 3DMark не сравнивает вашу оценку сразу с результатами других тестовых карт, вы должны сделать это самостоятельно. Однако 3DMark дает пользователю лучшее представление об игровой производительности.

3DMark также предлагает платные услуги, которые позволяют вам использовать больше тестов, чтобы получить более обоснованное представление о том, на что способна ваша видеокарта. Он также доступен для Windows, Android и iOS.

Вы также можете попробовать использовать инструмент мониторинга графического процессора, такой как GPU-Z, чтобы правильно отслеживать температуру и тактовую частоту.

Что касается оверклокеров, MSI Afterburner — это универсальное решение для всех ваших потребностей в разгоне (с точки зрения графического процессора). Он довольно прост в использовании, и ваши настройки можно настроить практически для любой конфигурации, которая может вам понадобиться.

Читайте также: