Слот оперативной памяти выдает ошибку

Обновлено: 21.11.2024

В этой главе описывается, как обнаруживать и устранять проблемы с модулями памяти Dual Inline Memory Modules (DIMM) сервера. Он включает следующие разделы:

Правила заполнения DIMM для сервера следующие:

    Каждый ЦП может поддерживать максимум восемь модулей DIMM.

Замените модуль DIMM при возникновении одного из следующих событий:

    Модуль DIMM не проходит проверку памяти в BIOS из-за неисправимых ошибок памяти (UCE).

Кроме того, модуль DIMM следует заменять каждый раз, когда в течение 24 часов из одного модуля DIMM возникает более 24 исправимых ошибок (CE), а другие модули DIMM не показывают дополнительных CE.

    Если более чем один модуль DIMM испытал несколько CE, другие возможные причины CE должны быть исключены квалифицированным специалистом службы поддержки Sun, прежде чем заменять какие-либо модули DIMM.

Сохраните копии журналов, отображающие ошибки памяти в соответствии с приведенными выше правилами, чтобы отправить их в Sun для проверки до обращения в Sun.

В этом разделе описывается поведение системы при двух типах ошибок DIMM: UCE и CE, а также описываются сообщения об ошибках DIMM BIOS.

Неисправимые ошибки DIMM

Для всех операционных систем (ОС) поведение UCE одинаково:

<р>1. Когда происходит UCE, контроллер памяти вызывает немедленную перезагрузку системы.

<р>2. Во время перезагрузки BIOS проверяет регистры Machine Check и определяет, что предыдущая перезагрузка была вызвана UCE, а затем сообщает об этом в POST после этапа memtest:

<р>3. BIOS сообщает об этом событии в журнале системных событий (SEL) служебного процессора, как показано в примере выходных данных IPMItool ниже:

Строки на дисплее начинаются с номеров событий (в шестнадцатеричном формате), за которыми следует описание события. ТАБЛИЦА 3-1 описывает содержимое дисплея:


ТАБЛИЦА 3-1 Строки на выходе IPMI

BIOS обнаружил и инициировал 4 процессора в системе.

BIOS обнаружила Sync Flood, вызвавший эту перезагрузку.

BIOS обнаружил аппаратную ошибку, вызвавшую Sync Flood.

BIOS извлекла и сообщила о некоторых аппаратных доказательствах, включая регистры ошибок проверки компьютера всех процессоров (события 14–18).

После того, как BIOS обнаружил, что произошел UCE, он обнаружил модуль DIMM и сбросил его. 0x03 относится к счетчику перезагрузок.

BIOS отключил неисправные модули DIMM от системной памяти и сообщил о них. Сообщается о каждом модуле DIMM в паре, поскольку свидетельство аппаратного UCE не может привести BIOS к дальнейшим действиям, кроме обнаружения неисправной пары.

Исправимые ошибки DIMM

Если в модуле DIMM за 24 часа обнаружено 24 или более исправимых ошибок, он считается неисправным и подлежит замене.

В настоящее время CE не регистрируются в журналах системных событий сервера. О них сообщается или они обрабатываются в поддерживаемых ОС следующим образом:

а. На панели задач появится всплывающее окно с сообщением об ошибке проверки компьютера.

б. Пользователь должен вручную открыть средство просмотра событий, чтобы просмотреть ошибки. Получите доступ к средству просмотра событий по этому пути в меню:

<р>в. Затем пользователь может просмотреть отдельные ошибки (по времени), чтобы просмотреть подробные сведения об ошибке.

Solaris FMA сообщает и (иногда) удаляет память с исправимыми ошибками кода исправления ошибок (ECC). Дополнительные сведения см. в документации по операционной системе Solaris. Используйте команду:

для просмотра ошибок ECC

Утилита HERD может использоваться для управления ошибками DIMM в Linux. Дополнительные сведения см. в Справочном руководстве по утилитам серверов x64.

    <УЛ> Если HERD установлен, он копирует сообщения из /dev/mcelog в /var/log/messages.

Загрузочный диагностический компакт-диск, описанный в главе 2, также фиксирует и регистрирует CE.

Сообщения об ошибках модуля BIOS DIMM

В BIOS отображаются и регистрируются следующие сообщения об ошибках DIMM:

Это сообщение об ошибке может быть вызвано следующими условиями:

Индикаторы неисправности DIMM

Когда вы нажимаете кнопку Press to See Fault на материнской плате или дополнительной плате, индикаторы рядом с модулями DIMM мигают, указывая на то, что система обнаружила 24 или более CE за 24-часовой период на этом модуле DIMM.


Примечание. Индикаторы DIMM Fault и Motherboard Fault работают на сохраненном питании до одной минуты, когда система выключена, даже после отключения питания переменного тока и отключения материнской платы (или мезонинной платы). системы. Запаса энергии хватает примерно на полчаса.

    Светодиод неисправности DIMM не горит — модуль DIMM работает правильно.

Примечание. Индикатор неисправности материнской платы работает независимо от кнопки «Нажмите, чтобы увидеть неисправность» и не работает от накопленного питания.

На РИСУНОК 3-1 показано расположение модулей DIMM и индикаторов на материнской плате. На РИСУНОК 3-2 показано расположение модулей DIMM и светодиодов на мезонинной плате.

РИСУНОК 3-1. Модули DIMM и индикаторы на материнской плате

РИСУНОК 3-2. Модули DIMM и индикаторы на мезонинной плате

Если ваши файлы журналов сообщают об ошибке ECC или проблеме с модулем DIMM, выполните указанные ниже действия, пока не сможете локализовать ошибку.

В этом примере файл журнала сообщает об ошибке с модулем DIMM в CPU0, слот 7. Светодиоды неисправности на CPU0, слоты 6 и 7 горят.

Чтобы изолировать и исправить ошибки DIMM ECC:

<р>1. Если вы еще этого не сделали, выключите сервер в режиме ожидания и снимите крышку.

<р>2. Проверьте установленные модули DIMM, чтобы убедиться, что они соответствуют правилам заполнения DIMM.

<р>3. Нажмите кнопку PRESS TO SEE FAULT и осмотрите светодиоды неисправности DIMM. См. РИСУНОК 3-1 и РИСУНОК 3-2.

Мигающий светодиод указывает на неисправный компонент.

    Для CE светодиоды правильно определяют модуль DIMM, в котором были обнаружены ошибки.

Примечание. Если ваш сервер оборудован мезонинной платой, модули DIMM и светодиодные индикаторы материнской платы будут скрыты под ней. Однако индикатор неисправности материнской платы загорается, указывая на наличие проблемы на материнской плате (только при подключенном питании переменного тока). Если индикатор неисправности материнской платы на мезонинной плате загорается, извлеките мезонинную плату, как описано в руководстве по обслуживанию вашего сервера, и проверьте индикаторы на материнской плате.

<р>4. Отсоедините шнуры питания переменного тока от сервера.


< TD ROWSPAN="1" COLSPAN="1" WIDTH="95%" ABBR="CautionText">Внимание! Перед работой с компонентами прикрепите антистатический браслет к заземлению корпуса (любой неокрашенной металлической поверхности). Печатные платы и жесткие диски системы содержат компоненты, чрезвычайно чувствительные к статическому электричеству.


Примечание. Чтобы восстановить информацию об ошибке, просмотрите SP SEL. , как описано в Руководстве пользователя Sun Integrated Lights Out Manager 2.0 .

<р>5. Извлеките модули DIMM из слотов DIMM в ЦП.

Подробности см. в руководстве по обслуживанию вашего сервера.

<р>6. Визуально осмотрите модули DIMM на наличие физических повреждений, пыли или любых других загрязнений на разъеме или цепях.

<р>7. Визуально осмотрите слот DIMM на наличие физических повреждений. Ищите треснувший или сломанный пластик на разъеме.

<р>8. Очистите модули DIMM от пыли, очистите контакты и переустановите их.


< TD ROWSPAN="1" COLSPAN="1" WIDTH="95%" ABBR="CautionText">Внимание! Для очистки модулей DIMM от пыли используйте только сжатый воздух.

< /p> <р>9. Если очевидных повреждений нет, замените неисправные модули DIMM.

Для UCE: если индикаторы указывают на неисправность пары, замените оба модуля DIMM. Убедитесь, что они вставлены правильно и защелки выталкивателя закреплены.

<р>10. Снова подключите шнуры питания переменного тока к серверу.

<р>11. Включите сервер и снова запустите диагностический тест.

<р>12. Просмотрите файл журнала.

Если тесты выявляют одну и ту же ошибку, проблема связана с ЦП, а не с модулями DIMM.

У меня есть машина с 4 слотами для оперативной памяти DDR2, в настоящее время по 2 модуля в слотах 1 и 2. Как только я вставляю больше оперативной памяти в слоты 3 и 4, раздается звуковой сигнал об ошибке?

Ляль

Участвуйте в еженедельном розыгрыше Amazon GC, наушников и динамика стоимостью 25 евро!

Конкурс завершается 20 марта 2022 г. Конкурсы Каждую неделю узнайте больше о том, как Red Hat может помочь вам добиться простоты и цифровых инноваций, и ответьте на вопрос. Детали конкурса Просмотреть все конкурсы

Ллойд Грейни

Сначала убедитесь, что вы используете тот же тип памяти для нового материала, который соответствует старому. Смешивание типов памяти и скорости невозможно на некоторых материнских платах (Acer, я смотрю на вас).

Убедитесь, что вы не смешиваете модули ECC и модули без ECC.

Убедитесь, что размер новых модулей памяти не превышает максимальный объем памяти, поддерживаемый материнской платой.

В прошлом я видел сбой слота памяти, и ПК загружался только тогда, когда модуль памяти был в определенном слоте (что требовало замены материнской платы).

25 ответов

b0b

Какая модель платы? и какую оперативную память вы используете (марку, двухстороннюю/одностороннюю и т. д.)?

На плате может быть физический предел, или некоторые платы принимают двустороннюю память только в том случае, если вы превысите определенный размер.

Также, конечно, убедитесь, что память, которую вы устанавливаете, работает. Проверьте новую память в слотах 1 и 2 без старой памяти.

nsweeting2

Также проверьте скорость. Новая оперативная память может быть несовместима со старой оперативной памятью. Я сомневаюсь, что вы достигли предела, не используя все слоты. Кроме того, все предложения бобов хороши.

Omni Tech Solutions — поставщик ИТ-услуг.

Кроме того, убедитесь, что если это двухканальный режим, они должны работать синхронно, иначе могут возникнуть проблемы.

Какой тип памяти ddr2? У нас есть проблемы с некоторыми рабочими станциями HP, которые очень требовательны. Есть буквы после некоторого ОЗУ.

Как PC2-5300u и pc2-5300p. Некоторые доски не принимают ни того, ни другого. Не знаю почему, но я знаю, что это не работает.

b0b

Сомневаюсь, что вы достигли предела, не используя все слоты.

Вы будете удивлены. У меня была плата Intel с 4 слотами, которая отказывалась видеть более 2 ГБ. Вы можете установить 2 модуля по 1 ГБ (если он двусторонний) или 4 модуля по 512 МБ.

О, и в этом отношении! Убедитесь, что на плате нет перекрестной двухканальной конфигурации, например, слоты 1 и 3 должны иметь одинаковый размер, а слоты 2 и 4 — одинаковые. Наличие памяти в слотах 1 и 2 вернуло бы ее к одноканальной, таким образом, не обнаруживая этой проблемы. Этот случай редок, но я видел его на одной или двух платах.

Джастин_Мак

Если слоты памяти имеют цветовую кодировку, вероятно, они двухканальные, как говорит b0b.

Антигражданин1

Попробуйте заменить новый ОЗУ исходным ОЗУ, исключив при этом оригинальный ОЗУ. Если компьютер по-прежнему издает звуковой сигнал, значит, ваша новая оперативная память повреждена.

Я бы проверил звуковые коды, может быть, это поможет вам сузить круг причин

Рамблер

Вы УВЕРЕНЫ, что на плате есть 4 слота DDR2? потяните детали Mo/Bo и проверьте их в Интернете, мне кажется, что у вас есть слоты DDR2 и DDR3 на этой плате, поэтому я хотел бы сначала подтвердить эту деталь

вы не указали, сколько ОЗУ было установлено, и конфигурацию [например, 2x1 ГБ DDR2 и т. д.], или почему вы хотите/должны добавить больше, возможно, вам придется купить большие [2 ГБ?] планки ОЗУ для установки в 2, или, может быть, даже получить DDR3 [если плата двухскоростная] и вместо этого загрузить их в слоты

платы имели двойные слоты, когда DDR3 была новой и ДОРОГОМ :o)

поэтому я предполагаю, что этот ПК немного тормозит, работает под управлением XP и замедляется

как только вы отсортируете оперативную память, не забудьте установить виртуальную память в соответствии с новым размером

Я знаю, что старая передовая практика заключалась в увеличении размера ОЗУ в 1,5 раза в начале до 3-кратного размера ОЗУ в конце для пользовательского значения виртуальной памяти, но я обнаружил, что в деловом мире, где ПК может работать неделями, фиксированный размер 2x RAM для начального и конечного значения создаст полный раздел на жестком диске, который будет противостоять фрагментации и даст вам разумное и очевидное увеличение скорости

ITSlave

Привет, ребята,

У меня есть машина с 4 слотами оперативной памяти DDR2, в настоящее время есть 2 модуля в слотах 1 и 2. Как только я вставлю больше оперативной памяти в слоты 3 и 4, он издает звуковой сигнал об ошибке?

Есть предложения?

Спасибо,

L*

Являются ли слоты разного цвета? Если да, то это может быть двухканальная память, для которой одновременно требуются две флешки.

ОП Ляль

Привет, ребята, спасибо за все ответы, очень ценю это!

Хорошо, по умолчанию он имеет цветовую кодировку и в настоящее время вставлено 2 модуля памяти ddr2. Я также вынул оперативную память (которая была на плате) и заменил ее новой оперативной памятью, и она отлично работает, но как только я вставляю все 4 единицы, она не работает. Все 4 слота по умолчанию DDR2!

b0b

поэтому я недавно сделал сборку itx с материнской платой msi b550i (спецификации приведены ниже).

У меня он работает, загружается, Windows установлена, биос обновлен до самой последней версии, НО он не позволяет мне загрузиться со второй флешкой. Примечательно, что на материнской плате всего два слота для оперативной памяти.

Когда я пытаюсь загрузиться с двумя планками оперативной памяти, мобильное устройство не публикует сообщения и имеет индикатор отладки в разделе "DRAM".

Вот что я пробовал:

Убедитесь, что обе планки оперативной памяти работают — система будет выполнять пост+загрузку с использованием любой из планок в DIMMA1

Ни одна из планок ОЗУ не будет работать сама по себе в DIMMB1

Планки оперативной памяти не будут работать вместе в DIMMA1+DIMMB1

XMP включен ИЛИ отключен, не работает

Проверенная оперативная память, которая, как я знаю, работает на другой моей машине, такая же проблема

Ослаблен кулер процессора

Не знаю, куда двигаться дальше. Я вижу, что несколько других людей опубликовали темы с похожей проблемой, но в этих темах нет решения.

Заранее спасибо :)

ЦП: Ryzen 5600x

Mobo: материнская плата MSI B550i itx

Оперативная память: 2*16 ГБ Crucial Ballistix 3600 CL16

Блок питания: CM V750 Gold

Графический процессор: MSI GTX 1080 Duke

Поменяйте материнскую плату, она сломана

Вы купили эти две планки ОЗУ в одной упаковке? ОЗУ может быть очень привередливой, ОЗУ одной и той же марки и модели, изготовленные из двух разных партий, иногда не будут работать вместе, поэтому производители продают пакеты ОЗУ, изготовленные из одной партии, чтобы у них было больше шансов на совместную работу. . Иногда вам везет (как мне), иногда нет. Если они из одного пакета, я бы посмотрел, можете ли вы попробовать две другие планки RAM и посмотреть, делают ли они то же самое, если у вас есть друг, которого вы могли бы одолжить. Если произойдет то же самое, это мобо, и требуется RMA

Обратите внимание, что не все ошибки, о которых сообщает MemTest86, связаны с плохой памятью. Тест неявно проверяет ЦП, кэши L1 и L2, а также материнскую плату. Тест не может определить, что вызывает сбой. Однако большинство сбоев будет связано с проблемой модуля памяти. Если это не так, единственным вариантом является замена деталей до тех пор, пока неисправность не будет устранена.

Иногда возникают ошибки памяти из-за несовместимости компонентов. Модуль памяти может нормально работать в одной системе и не работать в другой. Это не редкость и является источником путаницы. В этих ситуациях компоненты не обязательно плохие, но имеют предельные условия, которые в сочетании с другими компонентами вызовут ошибки.

Часто память работает в другой системе или производитель утверждает, что она исправна. В этих случаях память не обязательно плохая, но не может надежно работать на полной скорости. Иногда эти ошибки исправляют более консервативные тайминги памяти на материнской плате. В других случаях единственным вариантом является замена памяти на более качественную и высокоскоростную память. Не покупайте дешевую память и не ждите, что она будет надежно работать. Иногда ошибки теста «перемещения блока» возникают даже при использовании памяти известной марки и качественной материнской платы. Эти ошибки допустимы и должны быть исправлены.

Все допустимые ошибки памяти должны быть исправлены. Вполне возможно, что конкретная ошибка никогда не появится при нормальной работе. Однако работа с предельным объемом памяти сопряжена с риском и может привести к потере данных и даже повреждению диска. Даже если нет явных признаков проблем, вы не можете считать, что ваша система не затронута. Иногда периодически возникающие ошибки могут вызывать проблемы, которые не проявляются в течение длительного времени. Вы можете быть уверены, что Мерфи доберется до вас, если вы узнаете об ошибке памяти и проигнорируете ее.

Нас часто спрашивают о достоверности ошибок, о которых сообщает MemTest86. В подавляющем большинстве случаев ошибки, сообщаемые тестом, действительны. Есть некоторые системы, из-за которых MemTest86 путается с размером памяти и пытается протестировать несуществующую память. Это приведет к тому, что большое количество последовательных адресов будет считаться неверным, и, как правило, будет много ошибочных битов. Если у вас есть относительно небольшое количество ошибочных адресов и только один или два бита с ошибкой, вы можете быть уверены, что ошибки действительны. Также без исключения допустимы периодические ошибки. Часто поставщики памяти задаются вопросом, поддерживает ли MemTest86 их конкретный тип памяти или набор микросхем. MemTest86 предназначен для работы со всеми типами памяти и всеми наборами микросхем.

MemTest86 не может диагностировать многие типы сбоев ПК. Например, неисправный ЦП, который вызывает сбой Windows, скорее всего, вызовет точно такой же сбой MemTest86.

Почему я получаю ошибки только во время теста 13 Hammer Test?

Тест Hammer предназначен для обнаружения модулей ОЗУ, подверженных ошибкам помех, вызванным утечкой заряда. Это явление описано в исследовательской статье Юнгу Кима и др. «Переворачивание битов в памяти без доступа к ним: экспериментальное исследование ошибок помех DRAM». Согласно исследованиям, этому дефекту подвержено значительное количество модулей оперативной памяти, выпущенных в 2010 году или новее. Проще говоря, уязвимые модули ОЗУ могут подвергаться ошибкам нарушения при многократном доступе к адресам в одном и том же банке памяти, но к разным строкам в течение короткого периода времени. Ошибки возникают, когда повторный доступ вызывает потерю заряда в ячейке памяти до того, как содержимое ячейки может быть обновлено при следующем интервале обновления DRAM.

Начиная с MemTest86 v6.2, пользователь может увидеть предупреждение, указывающее, что ОЗУ может быть уязвимо для высокочастотных переворотов битов молотка строк. Это предупреждение появляется, когда ошибки обнаружены во время первого прохода (максимальная скорость молотка), но ошибки не обнаружены во время второго прохода (более низкая скорость молотка). См. Алгоритмы тестирования MemTest86 для описания двух проходов, выполняемых во время теста Hammer (тест 13). При выполнении второго прохода адресные пары забиваются только с той скоростью, которая считается максимально допустимой производителями памяти (200К обращений за 64мс). После превышения этой скорости целостность содержимого памяти больше не может быть гарантирована. Если ошибки обнаружены в обоих проходах, об ошибках сообщается как обычно.

Ошибки, обнаруженные во время теста 13, хотя и обнаруживаются только в экстремальных случаях доступа к памяти, скорее всего, являются реальными ошибками. При типичном использовании домашнего ПК (например, при просмотре веб-страниц, обработке текстов и т. д.) маловероятно, что модель использования памяти попадет в экстремальный случай, который сделает ее уязвимой для ошибок, вызывающих помехи. Это может вызвать большую озабоченность, если вы используете высокочувствительное оборудование, такое как медицинское оборудование, системы управления самолетами или серверы банковских баз данных. Невозможно с какой-либо точностью предсказать, будут ли эти ошибки возникать в реальных приложениях. Потребуется провести крупное научное исследование 1000 компьютеров и моделей их использования, а затем провести криминалистический анализ каждого приложения, чтобы изучить, как оно использует оперативную память во время выполнения. На сегодняшний день мы видели только 1-битные ошибки в результате запуска теста Hammer.

Есть несколько действий, которые можно предпринять, когда вы обнаружите, что ваши модули оперативной памяти уязвимы для ошибок нарушения:

  • Ничего не делать
  • Замените модули оперативной памяти
  • Используйте модули оперативной памяти с функциями проверки ошибок (например, ECC)

В зависимости от вашей готовности жить с возможностью того, что эти ошибки проявятся как реальные проблемы, вы можете ничего не делать и пойти на риск. Для домашнего использования вы можете быть готовы жить с ошибками. По нашему опыту, у нас есть несколько компьютеров, которые стабильно работают дома или в офисе, несмотря на ошибки в тесте Hammer.

Вы также можете заменить оперативную память модулями, прошедшими тест Hammer. Выбирайте модули ОЗУ другой марки/модели, так как вполне вероятно, что модули ОЗУ той же модели все равно не пройдут тест Hammer.

Для чувствительного оборудования, требующего высокой доступности/надежности, вы без вопросов замените ОЗУ и, вероятно, переключитесь на ОЗУ с исправлением ошибок, такое как ОЗУ ECC. Даже 1-битная ошибка может привести к катастрофическим последствиям, скажем, для остатка на банковском счете. Обратите внимание, что не все материнские платы поддерживают память ECC, поэтому перед покупкой памяти ECC ознакомьтесь со спецификациями материнской платы.

Обнаружение и устранение ошибок молотка строк

Способность MemTest86 обнаруживать и сообщать об ошибках молотка строк зависит от нескольких факторов и от того, какие меры по их устранению используются. Чтобы генерировать ошибки, необходимо многократно обращаться к соседним строкам памяти. Но аппаратные функции, такие как несколько каналов, чередование, скремблирование, хеширование каналов, схемы NUMA и XOR, делают почти невозможным (для произвольного модуля ЦП и ОЗУ) узнать, какие адреса памяти соответствуют каким строкам в ОЗУ. Также могут быть предусмотрены различные меры по смягчению последствий. Различные микропрограммы BIOS могут устанавливать разные значения интервала обновления (tREFI). Чем короче интервал, тем более устойчивой к ошибкам будет оперативная память. Но более короткие интервалы приводят к более высокому энергопотреблению и увеличению накладных расходов на обработку. Некоторые ЦП также поддерживают обновление псевдоцелевой строки (pTRR), которое можно использовать в сочетании с ОЗУ, совместимым с pTRR. Это поле позволяет RAM-накопителю указать уровень MAC (Maximum Active Count), который может поддерживать RAM. Типичным значением может быть 200 000 активаций строки. Некоторые процессоры также поддерживают алгоритм Targeted Row Refresh (TRR) Объединенного технического совета по электронному дизайну (JEDEC). TRR представляет собой улучшенную версию ранее реализованного алгоритма pTRR и не вызывает снижения производительности или дополнительного энергопотребления. В результате проверка строк, реализованная в MemTest86, возможно, не является наихудшим возможным случаем, а уязвимости в базовой оперативной памяти могут быть необнаружимы из-за мер по смягчению последствий в BIOS и ЦП.

Почему я получаю ошибки только при совместном тестировании модулей оперативной памяти, а не при тестировании по отдельности?

Большинство систем памяти в настоящее время работают в многоканальном режиме, чтобы увеличить скорость передачи между модулями ОЗУ и контроллером памяти. Рекомендуется использовать модули с идентичными характеристиками (т.е. «совпадающие модули») при работе в многоканальном режиме. Некоторые материнские платы также имеют проблемы совместимости с некоторыми марками/моделями оперативной памяти при работе в многоканальном режиме.

Если вы видите ошибки при запуске MemTest86 с несколькими установленными модулями ОЗУ, но не при их индивидуальном тестировании, скорее всего, виновата многоканальная конфигурация. Это может быть связано с несоответствием характеристик ОЗУ или просто с использованием марок/моделей ОЗУ, несовместимых с материнской платой. Большинство поставщиков материнских плат публикуют список известных совместимых моделей оперативной памяти, которые были протестированы на совместимость с вашей материнской платой. Замените модули соответствующим набором заведомо исправных модулей и посмотрите, добьётесь ли вы лучших результатов.

MemTest86 сообщил адрес памяти сбоя. Что это значит?

Когда MemTest86 обнаруживает ошибки во время тестов памяти, пользователю сообщается адрес памяти, фактические и ожидаемые данные. Адрес памяти — это место в системной памяти, где содержащиеся данные не соответствуют ожидаемым. Это адрес, который ЦП указывает контроллеру памяти при запросе данных из DRAM. Затем контроллер памяти декодирует этот адрес памяти, чтобы идентифицировать конкретный канал, DIMM, ранг, микросхему DRAM, банк, строку и столбец в DRAM, используя схему декодирования адреса, характерную для набора микросхем.

Схема декодирования адреса — это процесс, используемый контроллером памяти для генерации соответствующих адресных сигналов для микросхемы DRAM. В зависимости от контроллера памяти этот процесс может стать довольно сложным, поскольку это не просто прямое сопоставление битов системного адреса с битами адреса DRAM. Для повышения производительности памяти используются такие стратегии, как чередование каналов (для двух-, трех- и четырехканальных установок), чередование рангов/банков/строк и переключение адресов для увеличения параллелизма при доступе к памяти. Для некоторых наборов микросхем, таких как AMD, схема декодирования адреса может быть настроена/определена через регистры PCI, как описано в спецификациях набора микросхем. Однако для других наборов микросхем (например, Intel) схема декодирования адресов является частной и недоступной для общественности. Это значительно усложняет идентификацию адреса DRAM и, соответственно, неисправного модуля. По этой причине MemTest86 не имеет возможности сообщать об адресах DRAM и, следовательно, о неисправных модулях DIMM и ошибках памяти.

Как MemTest86 сообщает об ошибках ECC?

Обратитесь к технической информации ECC для получения отчетов ECC в MemTest86 и других технических деталей ECC.

Если я знаю схему декодирования адреса, могу ли я настроить MemTest86, чтобы сообщать о неисправном модуле?

Для систем, где известна схема декодирования адреса, MemTest86 предоставляет несколько параметров файла конфигурации, чтобы помочь пользователям определить неисправный модуль, соответствующий адресу памяти:

Для каждого из этих 3 параметров можно использовать список битовых позиций, чтобы указать, какие биты адреса памяти использовать исключающее ИЛИ (исключающее ИЛИ), чтобы определить соответствующий [канал памяти|слот|выбор микросхемы (CS )] (0 или 1) неисправного модуля. Это полезно только в том случае, если вы знаете, что контроллер памяти сопоставляет конкретный адрес с [каналом памяти|слотом|выбором микросхемы (CS)], используя эту схему декодирования на основе XOR. Если эти параметры указаны, а MemTest86 обнаруживает ошибку памяти, [канал памяти|слот|выбор микросхемы (CS)] будет рассчитан и отображен вместе с неисправным адресом.

Как узнать, какой модуль оперативной памяти неисправен?

После обнаружения ошибки памяти определение неисправного модуля SIMM/DIMM не является однозначной процедурой. Различные процессоры по-разному сопоставляют адреса памяти с физическими планками памяти. Такие функции, как двухканальное ОЗУ (с чередованием), хеширование каналов и NUMA, очень усложняют сопоставление адресов с модулями, банками и строками. При большом количестве поставщиков процессоров и материнских плат и возможных комбинаций слотов памяти было бы трудно, если вообще возможно, собрать полную информацию о том, как конкретная ошибка будет связана с неисправным модулем памяти. Однако есть шаги, которые могут быть предприняты для определения неисправного модуля. Вот некоторые методы, которые вы можете использовать:

Это простейший метод изоляции неисправных модулей, но его можно использовать только в том случае, если из системы можно удалить один или несколько модулей. Выборочно удалив модули из системы, а затем запустив тест, вы сможете найти неисправные модули. Обязательно отметьте, какие именно модули находятся в системе, когда тест проходит и когда тест не проходит.

Если ни один из модулей не может быть удален, вы можете повернуть модули, чтобы найти неисправный. Этот прием можно использовать только при наличии в системе трех и более модулей. Меняйте расположение двух модулей одновременно. Например, поместите модуль из слота 1 в слот 2 и поместите модуль из слота 2 в слот 1. Запустите тест, и если бит или адрес сбоя изменятся, вы узнаете, что модуль с ошибкой является одним из только что перемещенных. Используя несколько комбинаций перемещения модуля, вы сможете определить, какой модуль неисправен.

Если вы не можете использовать ни один из предыдущих методов, вам остается выборочно заменить модули, чтобы найти неисправность.

Как исправить ошибки памяти?

В зависимости от того, что вызывает ошибки памяти, вы можете попробовать следующие варианты:

  • Замените модули оперативной памяти (наиболее распространенное решение)
  • Установите тайминги RAM по умолчанию или консервативные
  • Увеличьте уровень напряжения ОЗУ.
  • Уменьшите уровень напряжения процессора.
  • Примените обновление BIOS, чтобы устранить проблемы несовместимости
  • Отметить диапазоны адресов как "недопустимые"

После того как вы точно определили, какой модуль (модули) ОЗУ вышел из строя, замена их новым набором модулей ОЗУ обычно устраняет ошибки. Выбирая, какие модули использовать в качестве замены, рассмотрите возможность использования того, который указан как совместимый поставщиком материнской платы, поскольку он был бы проверен самим поставщиком.

Иногда ошибки памяти проявляются только тогда, когда тайминги ОЗУ установлены слишком агрессивно в BIOS (например, при разгоне). Для определенных модулей, поддерживающих более высокую производительность XMP, рассмотрите возможность использования стандартных, отличных от XMP, временных характеристик, чтобы увидеть, получите ли вы лучшие результаты. Обратитесь к руководству по материнской плате, чтобы узнать, как установить или сбросить тайминги ОЗУ до значений по умолчанию.

Для некоторых конфигураций (особенно при использовании агрессивных таймингов ОЗУ) может потребоваться более высокое напряжение, чтобы ОЗУ работало в стабильных условиях. Если вы используете нестандартные тайминги ОЗУ, небольшое увеличение напряжения (например, с 1,5 В до 1,55 В) может повысить стабильность. Увеличивайте напряжение на свой страх и риск, так как чрезмерное напряжение может повредить компоненты вашей системы

Более высокое напряжение ЦП может привести к перегреву, что приведет к ошибкам памяти, что приведет к зависанию/сбою системы. Обратитесь к поставщику материнской платы за инструкциями по настройке уровней напряжения ЦП.

В некоторых случаях проблемы с несовместимостью ОЗУ можно устранить с помощью обновления BIOS. Обратитесь к поставщику материнской платы за обновлениями BIOS с исправлениями совместимости с оперативной памятью.

Некоторые операционные системы позволяют пользователю передать список «плохих» диапазонов памяти, чтобы предотвратить использование или выделение памяти операционной системой в этом диапазоне. Дополнительные сведения см. в разделе Добавление страниц RAM в черный список.

Читайте также: