Как проверить процессор на исправность и производительность
Обновлено: 21.11.2024
Архитектор ЦП RAS (надежность, доступность, удобство обслуживания) Описание работы
Присоединяйтесь к нашей команде по архитектуре процессоров ЦОД в качестве архитектора ЦП RAS. Помогите нам разработать расширенные возможности и решения RAS (надежность, доступность, удобство обслуживания) и обработки ошибок для микропроцессоров и систем на кристалле центра обработки данных. Вы поможете определить микропроцессоры Intel для центров обработки данных и серверов, начиная с первого концепта, заканчивая проектированием, проверкой и вплоть до производства. Архитекторы RAS тесно сотрудничают с бизнес-подразделениями Intel, командами разработчиков платформ, проектной группой и группой проверки, а также сотрудничают с фабриками Intel, чтобы помочь оптимизировать мощность, производительность и стоимость. Вы также будете работать с крупнейшими клиентами Intel, чтобы лучше понять потребности и приложения реального мира. .
- Определять, документировать и сообщать требования RAS и обработки ошибок к компонентам/подсистемам, а также проверять реализации на правильность и полноту.
- Оцените и определите меры по устранению ошибок для удовлетворения потребностей широкого круга сегментов рынка.
- Участие в разработке новых продуктов, понимание технических требований клиентов, разработка архитектурных решений для удовлетворения этих требований.
- Спецификации авторов и другие технические материалы
- Работать с командами дизайнеров и верификаторов, чтобы убедиться, что реализация соответствует спецификации.
- Степень бакалавра с 6-летним стажем, степень магистра с 4-летним стажем или докторская степень с 2-летним опытом работы в области проектирования и проверки архитектуры ЦП и логики.
- Область внимания должна включать архитектуру RAS и взаимодействие с программным обеспечением операционной системы и микропрограммой платформы в центре обработки данных.
- 6 лет опыта проектирования архитектуры/логики, включая 3 года опыта работы с функциями RAS процессора, обработкой ошибок, обнаружением и восстановлением
- Знание современных архитектурных методов, касающихся надежности микропроцессоров.
- Глубокое понимание взаимодействия архитектуры машинной проверки и потоков ошибок с прошивкой/программным обеспечением системы.
- Подробное знание архитектуры многопроцессорных систем, подсистем памяти и ввода-вывода, высокоскоростных межсоединений, операционных систем/гипервизоров, встроенного ПО платформы, кодов исправления ошибок (ECC).
- Опыт работы в средах разработки RTL.
- Опыт успешного взаимодействия с междисциплинарными командами, отслеживания результатов и этапов с вниманием к деталям.
- Хороший опыт отладки.
США, Орегон, Хиллсборо
Публикация заявления. Intel запрещает дискриминацию по признаку расы, цвета кожи, религии, пола, национального происхождения, возраста, инвалидности, статуса ветерана, семейного положения, беременности, гендерного самовыражения или идентичности, сексуальной ориентации или любого другого защищенного законом статуса.
Семейство масштабируемых процессоров Intel® Xeon® представляет несколько новых функций надежности, доступности и удобства обслуживания (RAS) для всей линейки продуктов (SKU будут обозначены как Bronze, Silver, Gold и Platinum). Недавно добавленные функции могут помочь улучшить взаимодействие с конечным пользователем благодаря способности платформы восстанавливаться после неправильного использования данных, возможностям обнаружения неверных инструкций и повторной попытке транзакции при попытке восстановления. Процессор также предлагает новый инновационный подход к отображению неисправных устройств DRAM, чтобы продлить срок службы модулей DIMM.
Адаптивная коррекция устройства с двойной памятью DRAM (ADDDC), расширенное обнаружение и исправление ошибок (AEDC), исключение при проверке локального компьютера (LMCE) — вот функции, которые будут изучены в этом дополнении.
Адаптивная коррекция двойного устройства DRAM (ADDDC)
Процессор Intel® Xeon® представляет собой инновационный подход к управлению ошибками, которые могут возникать при использовании модуля DIMM DDR4 DRAM в течение всего срока службы продукта. ADDDC развертывается во время выполнения, чтобы динамически отображать неисправное устройство DRAM и продолжать обеспечивать покрытие SDDC ECC на DIMM, что обеспечивает более длительный срок службы DIMM. Операция выполняется с высокой степенью детализации банка DRAM и/или ранга, чтобы иметь минимальное влияние на общую производительность системы.
С появлением ADDDC подсистема памяти всегда настроена на работу в режиме производительности. Когда количество исправлений на устройстве DRAM достигает целевого порогового значения, с помощью кода среды выполнения UEFI идентифицированная неисправная область DRAM адаптивно помещается в пошаговый режим, в котором идентифицированная неисправная область устройства DRAM сопоставляется с ECC. Находясь в ADDDC, строка кэша ECC продолжает охватывать обнаружение одиночных ошибок DRAM (x4) и применять алгоритм исправления к полубайту.
В зависимости от SKU процессора, каждый канал DDR4 поддерживает от одного до двух регионов, которые могут управлять одной или двумя неисправными модулями DRAM с детализацией банка и/или полного ранга.Динамический характер операции делает влияние на производительность синхронной операции в системе существенным только после того, как будет обнаружено, что устройство DRAM выходит из строя. Общее влияние блокировки на производительность системы теперь зависит от количества неисправных устройств DRAM на канале, при наихудшем сценарии два плохих ранга на каждом канале DDR4.
Серебряный/бронзовый SKU предлагает адаптивную коррекцию данных (ADC [SR]) с детализацией банка, а платиновый/золотой SKU предлагает адаптивную коррекцию устройства двойной DRAM (ADDDC [MR]) с детализацией банка и ранга, а также дополнительные аппаратные средства для отображения устройств.
Расширенное обнаружение и исправление ошибок (AEDC)
AEDC улучшает охват ошибок в основном механизме выполнения, используя проприетарную проверку обнаружения ошибок остаточного кода для выявления и исправления ошибок, с которыми процессор может столкнуться в своих внутренних конвейерах в механизме выполнения (массивы и логика). AEDC попытается исправить ошибку, повторив инструкцию. Успешно исправленная повторная попытка считается исправленным событием; в противном случае регистрируется и сигнализируется фатальная ошибка MCERR.
Технология AEDC в процессоре является автономной. Он использует существующую сигнализацию об ошибках и журналы, чтобы пометить ошибки, и не требует специальной помощи со стороны операционной системы, чтобы начать работу. AEDC предлагается для всех SKU продуктов.
Исключение проверки локального компьютера (LMCE)
LMCE – это новая операция RAS, которая переводит обработку неверных данных на ядро, которое выполняется с неверными данными. Путем локализации обработки ошибок таким образом система может предотвратить возникновение условия проверки нескольких компьютеров и повысить производительность MCA Recovery — Execution Path.
Благодаря локализации сигналов об ошибках каждое удаленное ядро, обнаружившее неверные данные, также может вызывать собственный LMCE, каждое из которых пытается выполнить восстановление, не мешая работе других ядер. LMCE может помочь в успешном восстановлении после ряда крайних случаев и улучшить успешные процессы восстановления.
Восстановление MCA — путь выполнения
Функция MCA Recovery — Execution Path позволяет системе продолжать работу, даже если процессор не может исправить ошибки данных в подсистеме памяти, и позволяет программным уровням (операционная система, VMM, СУБД и приложения ) для участия в восстановлении системы.
Восстановление может происходить при типах ошибок SRAR, а протокол архитектуры проверки компьютера требует, чтобы ошибка проверки компьютера (MCERR) транслировалась всем потокам и устанавливала точку встречи. В тех случаях, когда ядра используют неверные данные в непосредственной близости друг от друга, каждый поток, сигнализирующий об ошибке MCERR, создает несколько условий MCERR, которые приводят к нежелательному завершению работы системы.
LMCE может помочь преодолеть такие условия, локализовав сигнализацию MCERR только для потребляющего потока, позволяя каждому потоку восстанавливаться после неверных данных, которые он потреблял. Это изменение в протоколе требует, чтобы операционная система также знала о платформе, готовой к LMCE, а затем согласилась на поддержку потоков LMCE.
Как включается LMCE
Для поддержки LMCE требуется поддержка процессора, кода UEFI и операционной системы. По умолчанию операция отключена и может быть включена только при наличии ингредиентов в каждом из стеков. Прежде чем можно будет использовать LMCE, необходимо выполнить следующие шаги:
- Аппаратное обеспечение указывает коду UEFI, что поддержка LMCE доступна в SKU.
- В модели, ориентированной на встроенное ПО, код UEFI должен понимать поток LMCE и сигнализировать о готовности платформы поддерживать поток в операционной системе.
- Операционная система должна понимать потоки LMCE и проверять готовность платформы к поддержке LMCE. Если операционная система не знает об этой функции, LMCE остается выключенным.
Заключение
Процессоры Intel Xeon продолжают расширять предложения системных функций RAS во всех сегментах вычислительной отрасли. Платформы Intel® Xeon®, использующие любой из процессорных SKU, Bronze, Silver, Platinum или Gold, могут извлечь выгоду из улучшений. Новые возможности обеспечивают более высокую надежность и доступность системы благодаря инновационным механизмам обнаружения ошибок и повторных попыток, улучшениям методологии восстановления и подсистеме памяти с оптимизированной производительностью, способной продлить срок службы установленных модулей DIMM DDR4.
Инструмент мониторинга в реальном времени (RTMT) интегрируется с ПО Cisco Unified Presence Administration and Serviceability. RTMT отображает информацию о производительности для всех компонентов Cisco Unified Presence. RTMT предоставляет оповещение об устранении неполадок производительности. Он также периодически опрашивает счетчик производительности, чтобы отобразить данные для этого счетчика. Вы можете просматривать счетчики производительности в виде диаграммы или таблицы.
Мониторинг производительности позволяет выполнять следующие задачи:
• Отслеживать счетчики производительности, включая все узлы Cisco Unified Presence в кластере и серверы баз данных.
• Непрерывно контролируйте набор предварительно настроенных объектов И получайте уведомления в виде сообщения электронной почты.
• Связывайте настройки порога счетчика с уведомлением о предупреждении. Электронное письмо или всплывающее сообщение уведомляет администратора.
• Сохраняйте и восстанавливайте настройки, такие как отслеживаемые счетчики, настройки пороговых значений и оповещения, для настраиваемых задач по устранению неполадок.
• Отображение до шести счетчиков производительности на одной диаграмме для сравнения производительности.
Инструмент мониторинга в реальном времени (RTMT) отображает счетчики производительности в формате диаграммы или таблицы. Формат диаграммы выглядит как миниатюрное окошко с информацией. На панели мониторинга производительности RTMT отображается до шести диаграмм для каждой созданной вами вкладки категории. Вы можете отобразить конкретный счетчик, дважды щелкнув счетчик на панели мониторинга производительности. Поскольку представление диаграммы представляет собой представление по умолчанию, вы настраиваете счетчики производительности для отображения в формате таблицы при создании категории.
Вы можете удалить диаграмму счетчика (запись таблицы) с помощью пункта меню Удалить диаграмму/таблицу в Меню «Система» > «Производительность».
Совет. Частота опроса в каждом предустановленном окне мониторинга остается фиксированной, и значение по умолчанию составляет 30 секунд. Если скорость сбора для параметра службы AMC (Alert Manager and Collector) изменяется, частота опроса в предустановленном окне также обновляется. Кроме того, местное время клиентского приложения RTMT, а не время внутреннего сервера, служит основой для отметки времени на каждой диаграмме.
См. темы
• Просмотр описания счетчика , стр. 7–6
•Руководство по настройке и обслуживанию Cisco Unified Presence
Общий статус системы
Инструмент мониторинга в реальном времени (RTMT) предоставляет набор объектов мониторинга по умолчанию, которые помогают отслеживать состояние системы. Объекты по умолчанию включают счетчики производительности или состояние критических событий для системы и других поддерживаемых служб. Сводка системы в RTMT позволяет отслеживать важную общую информацию на одной панели мониторинга. В сводке системы вы можете просмотреть информацию о следующем предопределенном объекте:
•Использование виртуальной памяти
•Использование процессора
•Использование общих разделов
• Журнал истории предупреждений
Статус сервера
Категория "Серверы" отслеживает использование ЦП и памяти, процессы, использование дискового пространства и критически важные службы для различных приложений на сервере.
Монитор ЦП и памяти предоставляет информацию об использовании ЦП и виртуальной памяти. использования на каждом сервере. Для каждого ЦП на сервере информация включает процент времени, который каждый процессор тратит на выполнение процессов в различных режимах и операциях (Пользовательский, Хороший, Системный, Простой, IRQ, SoftIRQ и IOWait). Процент загрузки ЦП равен общему времени, затраченному на выполнение во всех различных режимах и операциях, за исключением времени простоя. Для памяти информация включает в себя общую, используемую, свободную, общую, буферную, кэшированную, общую память подкачки, использованную подкачку и свободную подкачку памяти в килобайтах, а также процент используемой виртуальной памяти.
Процессы монитор предоставляет информацию о процессах, запущенных в системе. RTMT отображает следующую информацию для каждого процесса: идентификатор процесса (PID), процент ЦП, состояние, общую память (КБ), Nice (уровень), VmRSS (КБ), VmSize (КБ), VmData (КБ), количество потоков, страницу. Количество ошибок и размер стека данных (КБ).
Категория мониторинга использования диска отображает процент использования диска для общего раздела и раздела подкачки. Он также отображает процент использования диска для каждого раздела (активный, загрузочный, общий, неактивный, подкачка, общая память) на каждом хосте.
Категория мониторинга критических служб содержит имя критической службы, состояние (независимо от того, запущена ли служба, отключена ли, активирована, остановлена администратором, запущена, остановлена или находится в неизвестном состоянии), а также время, в течение которого службы были запущены и работали в системе.
Подробное описание каждого состояния см. в Таблице 5-1.
Просмотр и мониторинг сводки системы и состояния сервера
Инструмент мониторинга в реальном времени (RTMT) отображает информацию о предопределенных системных объектах на панели мониторинга, когда вы выбираете «Система» в канале быстрого запуска или «Система» > «Сводка системы». Чтобы просмотреть информацию о сервере на панели мониторинга, выберите Сервер в канале быстрого запуска или Система > Сервер >
.
Перед началом работы
Просмотрите информацию о производительности мониторинг в RTMT.
Таблица 5-2 содержит информацию о предварительно определенном объекте, который отслеживает RTMT.
Советы по устранению неполадок
Чтобы увеличить масштаб на мониторе предопределенного объекта, нажмите и перетащите левую кнопку мыши на интересующую вас область диаграммы.Отпустите левую кнопку мыши, когда у вас есть выделенная область. RTMT обновляет отслеживаемое представление. Чтобы уменьшить масштаб и восстановить исходный вид монитора по умолчанию, нажмите клавишу «R».
Связанные темы
О мониторинге производительности в RTMT
Новый мировой рекорд TPC Benchmark подчеркивает превосходство PRIMERGY в вычислительных ресурсах для центров обработки данных на базе архитектуры x86
Сегодня Fujitsu объявляет о важном шаге вперед, поскольку серверы на базе архитектуры x86 продолжают продвигаться на арену критически важных вычислений. Предлагая предприятиям новую экономичность центров обработки данных по сравнению с устаревшими системами RISC/UNIX, Fujitsu сегодня представляет новые серверы PRIMERGY x86, которые установили новый мировой рекорд по производительности транзакционных баз данных.
Повсеместное распространение бизнес-аналитики, приложений для хранения данных и других требовательных к производительности серверных баз данных делает надежную масштабируемую производительность серверов критически важной для широкого круга секторов бизнеса. Спрос на гибкие и стабильные масштабируемые платформы, обеспечивающие более быструю окупаемость инвестиций, продолжает значительно расти.
Немедленная доступность 1 стоечного восьмипроцессорного сервера Fujitsu PRIMERGY RX900 S2 и четырехпроцессорного стоечного сервера PRIMERGY RX600 S6, побившего мировой рекорд, устраняет разницу в производительности, которая ранее привязывала предприятия к более дорогим и проприетарным серверным системам. С новым поколением серверов PRIMERGY компания Fujitsu выходит на новый уровень производительности для серверов x86, предоставляя клиентам непревзойденную гибкость, управляемость и удобство обслуживания, поскольку центры обработки данных неизбежно нуждаются в изменениях или росте.
PRIMERGY RX900 S2 предлагает многим отраслям, в частности финансовому и государственному секторам, высокий уровень надежности для запуска масштабируемых приложений, в котором раньше доминировали дорогие проприетарные системы RISC/UNIX. В сочетании с более низкой ценой PRIMERGY RX600 S6, предназначенной для клиентов из верхней части среднего рынка, а также для крупных предприятий, Fujitsu показывает предприятиям четкий путь для легкого управления и обслуживания наращивания производительности.
Новые модели PRIMERGY имеют бесклеевую конструкцию Fujitsu, а это означает, что для работы всех восьми ЦП не требуется дополнительное оборудование. Эта конструкция, основанная на технологии Intel QuickPath Interconnect, помогает избежать узких мест ввода-вывода, обеспечивая кратчайший путь между процессорами, модулями памяти и концентраторами ввода-вывода. В результате новые системы обеспечивают спокойствие для критически важных задач по доступной цене. Беспрепятственное масштабирование также является отличительной чертой моделей PRIMERGY, поскольку все компоненты процессора, памяти и ввода-вывода могут быть обновлены, что оставляет организациям запас для экономически эффективного роста в будущем без необходимости перестраивать целые стойки или покупать новые системы.
Йенс-Питер Сейк, старший вице-президент группы разработки продуктов Fujitsu Technology Solutions, говорит: «Это новое поколение серверов x86 выводит серверы Fujitsu PRIMERGY в другую лигу. Неуклонное сокращение доли рынка серверов UNIX в пользу систем на базе x86 теперь ускорится. Новые масштабируемые серверы Fujitsu PRIMERGY доказывают, что они в равной степени способны справляться с тяжелыми задачами, необходимыми в высокопроизводительных средах центров обработки данных, а также устанавливают новые, радикально более низкие цены для критически важных вычислений».
Рекордная производительность PRIMERGY RX900 S2
Совет по производительности обработки транзакций (TPC) при запуске PRIMERGY RX900 S2 оценивает серверную систему TPC-E с самой высокой производительностью 2 . Согласно рейтингу TPC-E, серверы Fujitsu PRIMERGY не только неизменно входят в число самых мощных серверов в мире, но и неоднократно предлагали лучшее соотношение цены и качества.
На PRIMERGY RX900 S2 можно надежно развернуть централизованные критически важные корпоративные рабочие нагрузки, отвечающие экстремальным требованиям к производительности. Вычислительная мощность обеспечивается за счет использования до 8 процессоров Intel Xeon E7-8800 с 80 процессорными ядрами, до 4 ТБ оперативной памяти, а также с высокой агрегированной пропускной способностью ввода-вывода более 100 гигабайт. Четырехпроцессорный сервер RX600 S6 поддерживает до 40 процессорных ядер нового поколения Intel Xeon E7-4800 и поддерживает до 2 ТБ основной памяти.
PRIMERGY RX900 S2 обеспечивает беспрецедентную непрерывность работы, поскольку его функции высокой доступности идеально сочетаются с новыми функциями надежности, доступности и масштабируемости процессора Intel Xeon серии E7-8800.
Совет по производительности обработки транзакций (TPC) определяет контрольные показатели обработки транзакций и базы данных для независимой оценки мощности и производительности современных систем оперативной обработки транзакций (OLTP).
Примечания для редакторов:
1 Устройство PRIMERGY RX900 S2 доступно во всем мире, кроме Японии. PRIMERGY RX600 S6 доступен по всему миру и готов к заказу с 4 июля 2011 г.
Нажмите «Связаться»
Технологические решения Fujitsu
Сигрун Харш, старший менеджер по связям с общественностью
Тел.: + 49 (0) 89 62060 4454
Мобильный: + 49 (0) 170 855 06 08
Об эталонном тесте TCP
TPC Benchmark™ E (TPC-E) — это рабочая нагрузка для оперативной обработки транзакций (OLTP), разработанная TPC. Тест TPC-E имитирует рабочую нагрузку OLTP брокерской фирмы. В центре внимания теста находится центральная база данных, которая выполняет транзакции, связанные со счетами клиентов фирмы. Хотя базовой бизнес-моделью TPC-E является брокерская фирма, схема базы данных, заполнение данными, транзакции и правила реализации были разработаны таким образом, чтобы в целом соответствовать современным системам OLTP.
О решениях Fujitsu Technology
Все остальные названия компаний или продуктов, упомянутые здесь, являются товарными знаками или зарегистрированными товарными знаками соответствующих владельцев. Информация, представленная в этом пресс-релизе, является точной на момент публикации и может быть изменена без предварительного уведомления.
Дата: 30 июня 2011 г.
Город: Мюнхен
Читайте также: