Проверить согласованность рейда, что это такое

Обновлено: 01.07.2024

На протяжении многих лет одной из самых частых проблем при восстановлении RAID является перестроение. По моим оценкам, почти 40 процентов RAID, которые мы не можем восстановить, связаны исключительно с тем, что технический специалист выполнил восстановление до проверки следующих трех элементов.

По какой-то причине RAID вышел из строя. Во многих случаях это связано с тем, что аппаратное обеспечение массива может иметь некоторые проблемы. Могут быть проблемы с кабелем, проблемы с перегревом, проблемы с объединительной панелью или сотня и одна другая проблема с оборудованием, которые могут привести к деградации RAID.

Простое поверхностное сканирование всех дисков в массиве может дать представление о состоянии дисков. Отчет с описанием любых аномалий, обнаруженных для каждого диска, всегда важен при диагностике массива.

<р>3. Согласованность RAID

В основе целостности RAID 5 лежит простой алгоритм XOR, который хранится поблочно в полосе массива. Прошивка RAID 5 использует этот алгоритм для обеспечения согласованности данных, хранящихся на RAID. Это также гарантирует, что в случае выхода из строя одного диска и ухудшения состояния массива у технического специалиста будет достаточно времени для быстрого резервного копирования важных данных, своевременного отключения всех пользователей и корректного закрытия всех обработчиков баз данных, которые могут находиться и открыть на массиве. Другими словами, не допускайте грязного закрытия вашего магазина обмена.

Ухудшенный RAID 5 НИКОГДА НЕ ДОЛЖЕН БЫТЬ ПРОИЗВОДСТВЕННЫМ. Однако обычно это не так, и именно поэтому восстановление RAID — это многомиллионный бизнес. Ухудшенный RAID 5, работающий в производственной среде более двадцати четырех часов, теперь содержит данные на проблемном диске, который считается устаревшим. Если второй диск выйдет из строя, весь массив выйдет из строя, поскольку RAID 5 не может работать с двумя отключенными дисками.

Когда мне звонит техник и сообщает, что их RAID не работает из-за того, что массив потерял два диска, я сразу же предполагаю, что один из дисков устарел, и сразу же советую техническому специалисту не выполнять перестроение. За все время восстановления RAID я могу по пальцам одной руки пересчитать, что клиент потерял два диска одновременно.

Хотя пункты 1 и 2 не являются моим хлебом насущным, я знаком с методами, используемыми для соответствующих проверок. Однако с пунктом 3 я хорошо знаком и могу помочь вам установить, действительно ли в вашем массиве есть устаревший диск. Ниже приведен набор шагов, а также бесплатное программное обеспечение, которое вы можете использовать перед началом любой перестройки.

Шаг 1. Извлеките все диски из массива. Удалите диски, сконфигурированные как часть массива, подальше от оборудования. Сюда не входят диски с горячей заменой, а только те диски, которые настроены в массиве и работают в момент снижения производительности.

Шаг 2. Создайте образы всех дисков в массиве. Это служит нескольким целям. Во-первых, во время сеанса работы с образами вы можете обнаружить поврежденные сектора на дисках. Во-вторых, вы никогда не захотите работать с оперативными данными, так как диски могут быть на последнем издыхании, и любое восстановление, перестроение или диагностический запуск оперативных данных могут убить диск. Наконец, если что-то случится с дисками, у вас будут образы, чтобы воссоздать исходный набор данных.

Шаг 3. Загрузите комплект средств диагностики RAID с нашего веб-сайта и установите его на компьютер с ОС Windows NT. Программное обеспечение очень простое в использовании и очень понятное. В программном обеспечении есть опции, которые в настоящее время не активны, потому что я представлю их в следующих постах. Так что я просто открываю маленькое окно, чтобы сообщить вам, что это будущая модернизация программного обеспечения или функция неактивна.

В настоящее время программное обеспечение по умолчанию использует размер полосы 64 КБ или 128 секторов. Хотя размер полосы для этой конкретной функции не имеет отношения к тесту, тем не менее, он используется в 95 процентах пятерок RAID, с которыми я работаю, и может дать нам более реалистичную карту типа мира.

Программное обеспечение выполнит проверку согласованности вашего набора изображений и предоставит вам отчет о том, повреждена ли полоса. Он не скажет вам, какой диск является устаревшим, если полоса повреждена, только то, что восстановление с использованием этого набора дисков нецелесообразно.

Проверка согласованности RAID

Экранное сообщение «Вам нужно проверить один из ваших дисков на согласованность» может появиться в любое время, и пользователи будут страдать, потому что они не знают, что происходит и как решить проблему. Вот почему я пишу этот пост.

В этой статье вы узнаете, как правильно справиться с необходимостью проверки диска на непротиворечивость в Windows, как восстановить файлы после проверки диска и как исправить ошибку проверки непротиворечивости диска несколькими наиболее эффективными способами. .

Сообщение об ошибке: необходимо проверить один из ваших дисков на непротиворечивость

Один из ваших дисков необходимо проверить на согласованность

Один из ваших дисков необходимо проверить на согласованность

Существует несколько ситуаций, когда Windows просит вас проверить целостность жесткого диска:

  • Проверка диска завершается автоматически и полностью, после чего вы можете загрузиться в систему как обычно.
  • Проверка диска на непротиворечивость зависает, в результате чего вы не можете загрузить систему в обычном режиме.

Файлы повреждены после проверки диска

Чаще всего, если вы видите на экране сообщение о том, что "необходимо проверить целостность одного из ваших дисков", вы запустите проверку диска, чтобы устранить проблемы, существующие на диске вашего компьютера. Этот процесс проверки не всегда проходит гладко. Однако, даже если проверка прошла успешно, у вас будут проблемы и довольно серьезные. Вы потеряете доступ ко всем файлам на диске или они просто будут фрагментированы.

Нажмите любую клавишу, чтобы пропустить проверку диска, которая не работает

Нажмите любую клавишу, чтобы пропустить диск Проверка не работает

Нажмите любую клавишу, чтобы пропустить проверку диска, которая не работает

Если пользователь опасается выполнять проверку диска, он попытается отклонить запрос. И чаще всего пользователи, как правило, нажимают любую клавишу, чтобы пропустить проверку диска, как указано в подсказке на экране. Однако это действие не гарантирует, что ни один из ваших дисков не будет проверен на непротиворечивость. Если вы боитесь потерять все свои данные, продолжайте читать, и вы узнаете, как защитить и, при необходимости, восстановить данные.

Восстановление потерянных данных с помощью DiskInternals RAID Recovery

Сделайте это с помощью профессионального приложения DiskInternals RAID Recovery. Существуют варианты восстановления вручную и автоматического восстановления (включает пошаговый мастер).

DiskInternals RAID Recovery восстанавливает файлы с RAID, подключенного к выделенному RAID-контроллеру, совместимому с Adaptec, Dell, HP, MegaRAID и DDF. С помощью этого приложения вы можете бесплатно создавать образы дисков для последующего безопасного тестирования вашего компьютера. Восстановленные файлы и папки в основном экспортируются в локальные или удаленные расположения (включая FTP), кроме того, виртуальные диски могут быть смонтированы как локальные диски, доступные для проводника Windows и т. д.

Процесс восстановления обходит ограничения ОС Windows, а также поддерживает именованные файлы в формате Unicode и многоуровневые папки. Вы можете бесплатно просмотреть найденную информацию, а затем решить для себя, стоит ли покупать лицензию в непринужденной обстановке. Однако будьте уверены, вы будете в восторге от того, насколько вы сможете защитить свои данные.

Этот качественный инструмент получил тысячи положительных отзывов благодаря своим инновационным функциям и возможностям. Остановимся на этом подробнее:

  • Восстанавливает информацию из сильно поврежденных пулов, которые больше не монтируются;
  • Автоматически определяет основные параметры пула и файловой системы, включая порядок дисков;
  • Программа работает, даже если новый пустой пул создается поверх исходного;
  • Восстанавливать удаленные файлы, а также восстанавливать предыдущие версии файлов;
  • Всегда подсчитывает контрольные суммы, чтобы убедиться, что данные в файле верны.

Чтобы начать восстановление файлов в Windows 10, сначала загрузите рекомендуемое приложение RAID Recovery™ на свой компьютер или сервер. Затем установите программное обеспечение в Windows 7–11. Вы также можете установить его в Windows Server 2003–2019.

DiskInternals RAID Recovery — Мастер RAID

DiskInternals RAID Recovery - Мастер RAID

Откройте приложение RAID Recovery™, если вам нужен автоматический режим, активируйте мастера, затем обязательно выберите целевой массив.

DiskInternals RAID Recovery - Мастер RAID DiskInternals RAID Recovery - Мастер RAID DiskInternals RAID Recovery - Мастер RAID

Затем выберите приоритетный режим восстановления:

  • Режим быстрого восстановления (попробуйте сначала, будет быстро).
  • Режим полного восстановления (более глубокое сканирование и результаты будут намного лучше).

Тогда у вас будет доступ только для чтения ко всем файлам, найденным во время сканирования. Это необходимо для того, чтобы вы могли воспользоваться функцией предварительного просмотра и проверить, насколько успешно прошла процедура восстановления данных.

После того как вы просмотрели все результаты и теперь уверены, что ваши данные вернулись и правильно восстановлены, приобретите лицензию RAID Recovery™, и вы получите неограниченный доступ к своим файлам. Вы можете экспортировать выбранные файлы на любой подходящий накопитель, а также можете получить техническую поддержку после покупки лицензии - это здорово.

DiskInternals RAID Recovery - Мастер RAID DiskInternals RAID Recovery - Мастер RAID DiskInternals RAID Recovery - Мастер RAID

Если необходимые файлы уже сохранены и вы довольны результатом восстановления RAID, поздравляем и искренне рады за вас!

Советы по восстановлению:

  • Не торопитесь и будьте терпеливы, пока каждый шаг не будет выполнен правильно.
  • Просмотрите все данные перед восстановлением.
  • Не сохраняйте данные снова на тот же диск.
  • При выборе диска для быстрого сканирования выберите правильный диск; иначе вы не найдете свои файлы.

Решения — исправление ошибки проверки диска на непротиворечивость

Чаще всего автоматическая проверка диска может появляться в следующих случаях:

  • Батарея разряжена.
  • Корпус компьютера перемещается во время загрузки или работы системы.
  • USB-устройство отключается преждевременно, и система не успевает завершить текущую работу с ним.
  • Компьютер часто выключается неправильно или незаконно.
  • Внезапный сбой питания и перебои в подаче электроэнергии происходят во время работы компьютера.

Попробуем решить проблему "проверки целостности диска" самостоятельно с помощью следующих методов.

Проверить диск на наличие ошибок в Windows

Проверить диск на наличие ошибок в Windows

Проверка диска на наличие ошибок в Windows

Если вы все же смогли войти в ОС, следующим шагом будет проверка жесткого диска на наличие ошибок в Windows. Вы также можете попытаться исправить их полностью или протестировать жесткий диск с помощью дополнительных инструментов, чтобы найти и устранить проблему.

Отключить проверку диска при запуске в Windows

Если Windows по-прежнему запускает CHKDSK при каждой перезагрузке, необходимо прекратить проверку файловой системы на диске. Многие пользователи не знают, как это сделать, поэтому ниже приведены 4 распространенных способа отмены проверки.

Способ первый: отключить проверку в редакторе реестра

Отключить проверку в реестре редактор

Отключить проверку в редакторе реестра

Нажмите кнопку «Пуск»; затем введите «regedit» в строке поиска и нажмите клавишу «Ввод».

Затем щелкните правой кнопкой мыши файл regedit.exe и выберите "Запуск от имени администратора".

Перейдите к «HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Control\Session Manager», найдите и дважды щелкните «BootExecute». После этого измените «autocheck autochk *» на «autocheck autochk /k:F *» (F обозначает букву диска для проверки диска).

Второй способ: используйте дефрагментацию диска

Откройте проводник Windows (щелкните правой кнопкой мыши «Пуск» и выберите «Проводник») и найдите диск, на котором выполнялась проверка диска. Затем щелкните правой кнопкой мыши этот диск и выберите строку «Свойства» из представленного списка.

Используйте дефрагментацию диска - шаг 1

Используйте дефрагментацию диска — шаг 1

На вкладке "Инструменты" откройте "Дефрагментация" и нажмите кнопку "Дефрагментация сейчас".

Используйте дефрагментацию диска - шаг 2

Используйте дефрагментацию диска — шаг 2

Если вам нравится работать через командную строку, вы можете ввести "chkdsk *: / s" (* буква целевого диска) и выполнить задание тоже.

Способ третий: исправить ошибку файловой системы

Чтобы исправить ошибку файловой системы, перезагрузите компьютер и удерживайте нажатой кнопку F8. В новом окне восстановите компьютер и войдите в режим командной строки. Здесь введите "chkdsk *: /r /f" (* буква целевого диска).

Метод четвертый: отформатируйте диск

Если ничего не помогло, вам все равно придется отформатировать соответствующий жесткий диск. Конечно, вы потеряете все данные, но это не проблема, если вы приобрели приложение DiskInternals RAID Recovery.

Предупреждение. Рекомендуется использовать инструмент «Проверка диска» для сканирования поврежденных секторов на жестком диске. Затем выберите защиту поврежденных секторов и используйте их в дальнейшем или замените существующий жесткий диск на новый.

Заключение

Если на экране вашего монитора появляется ошибка «необходимо проверить один из ваших дисков на непротиворечивость», вы должны в первую очередь сохранять спокойствие, так как необдуманные действия приведут к повреждению данных.

Поэтому настоятельно рекомендуется сначала восстановить данные (в этом вам поможет DiskInternals RAID Recovery), а затем попытаться исправить ошибку проверки целостности диска вышеописанными способами.

Когда вы уверены, что необходимые данные в безопасности, вы можете попробовать описанные выше методы, чтобы исправить ошибку.

Мы в Gillware используем множество контроллеров LSI MegaRAID, одни из самых популярных контроллеров. Хотя компания LSI Technologies была приобретена компанией Avagotech в 2014 году, все по-прежнему называют их контроллерами LSI, поэтому мы тоже будем это делать. Помимо семантики, в этом посте мы хотим обсудить распространенный фактор снижения производительности, с которым вы можете столкнуться в своем RAID-массиве: запланированные проверки согласованности.

СВЯЗАННЫЕ СТАТЬИ:
  • Службы восстановления данных RAID
  • Объяснение стандартных уровней RAID
  • Советы по отказу от RAID 5: как обеспечить возможность восстановления данных
  • Восстановление данных RAID 5: советы и обзор

Проверки согласованности

Чтобы дать больше информации о рассматриваемой проблеме, мы немного обсудим проверки согласованности. По умолчанию контроллер LSI MegaRAID выполняет фоновую проверку целостности всех своих RAID-массивов один раз в неделю. Констатируя очевидное и не вдаваясь в слишком скучные детали, проверки непротиворечивости прочесывают ваши данные, чтобы обеспечить их непротиворечивость. Это означает, что он проверяет ваши виртуальные диски на наличие ошибок четности или блоков. Если он находит ошибку или плохой блок, его можно перезаписать с правильными данными.

При выполнении проверки непротиворечивости для выполнения проверки выделяется определенный процент емкости, значение по умолчанию – 30 % (это значение можно изменить). Есть также два типа проверок согласованности, которые вы можете запускать: параллельные или последовательные. Параллельный — это параметр по умолчанию, который проверяет все диски одновременно или одновременно. Последовательный — это когда он проверяет каждый диск по отдельности и по порядку, поэтому теоретически нагрузка на ваш массив меньше.

Как проверки согласованности влияют на производительность?

Заключение

Если у вас не было нештатных ситуаций, таких как отключение питания, ошибка "устройство не обнаружено" или другие причины думать, что с вашим RAID-массивом что-то не так, то нет смысла так часто запускать проверки согласованности. Раз в несколько месяцев (от 8 до 12 недель) или даже несколько раз в год должно быть достаточно, и если вы чувствуете, что что-то не так, просто назначьте один сеанс на субботу, когда ваши пользователи не будут жаловаться на низкую производительность.

На следующих рисунках представлена ​​более подробная информация о том, как проверить и изменить некоторые из этих значений с помощью команд StorCLI:

выполнить команду StorCLI

Здесь вы можете увидеть команду для запуска StorCLI, а затем показать информацию о проверках согласованности: /c0 show cc. В приведенной ниже информации мы видим, что текущий режим проверки согласованности — Concurrent, задержка выполнения (при запуске) — каждые 168 часов или один раз в неделю, а также когда будет выполняться следующая проверка, в данном случае в 12:00. утра 26 февраля.

автоматическая проверка согласованности команд выкл

Чтобы полностью отключить автоматические проверки согласованности, введите команду /c0 set cc=off. Следующая информация должна указывать на то, что режим CC выключен.

проверка согласованности набора команд

На приведенном выше рисунке показано, как настроить последовательный запуск проверки согласованности, запуск каждые 1344 часа (8 недель), а также время запуска следующей проверки согласованности и, следовательно, запуска расписания. Команда /c0 set cc=seq delay=1344 starttime=2016/02/27 04. Обратите внимание, что задержка должна быть установлена ​​в часах, а окончательное значение «04» устанавливает запуск проверки в 4:00 утра. двадцать седьмое. Вы должны выбрать значение >24, чтобы установить час работы. Мы выбрали 27-е только потому, что это была суббота. Кроме того, чтобы проверка выполнялась одновременно, используется та же команда, за исключением замены «cc=seq» на «cc=conc».

команда показать проверку согласованности скорость

Чтобы отобразить емкость, на которую настроена ваша проверка, с помощью StorCLI, введите команду /c0 show ccrate. Значение, показанное на этом рисунке, является ставкой по умолчанию или 30%.

проверка согласованности набора команд скорость

Наконец, чтобы задать скорость загрузки, которая будет использоваться при проверке согласованности, введите команду /c0 set ccrate=15.Очевидно, вы можете изменить число на любой %, который вы хотите использовать в чеке, но в этом случае мы просто использовали 15 %, поэтому чек не использует столько емкости, сколько по умолчанию 30.

На mdadm softraid 6 (около 12 дисков, 60 ТБ) возникали случайные ошибки записи в больших файлах (> 100 ГБ). Была проверена вся система - RAM, NIC, карта LSI RAID. Наиболее подозреваемым является LSI, потому что его батарея BBU разряжена, а обратная/сквозная запись не установлена ​​правильно. Теоретически каждый фрагмент данных резервируется с избыточностью XOR, RAID5 1x, RAID 6 2x. Но это вступает в силу только в случае выхода из строя одного из активных дисков.

Есть ли в mdadm команда, которая могла бы запустить полную проверку согласованности данных с учетом бэкапа XOR? Это означает, что я могу идентифицировать неправильно написанные фрагменты?

После того, как я выбросил BBU, я хочу знать, какие файлы исправны, а какие повреждены и должны быть заменены. Если это невозможно решить, мне придется создать массив с нуля и получить все файлы из их резервной копии.

1 Ответ 1

Выполнить (замените md125 вашим фактическим массивом):

Он прочитает все диски, вычислит полосы четности и проверит их правильность. Для RAID6 он также будет исправлять ошибки одиночного несоответствия (когда только один диск вышел из синхронизации) за счет использования всех остальных дисков благодаря двойной четности, которая позволяет обнаруживать двойные ошибки и исправлять одиночные ошибки, включая те, которые могли произойти. из-за частоты битовых ошибок на диске. Это важно для современных очень больших дисков.

Он будет сообщать обо всех важных сообщениях в журнале ядра, доступном для чтения через dmesg. Вы можете отслеживать статус через файл /proc/mdstat или mdadm --detail /dev/md125 .

Очень полезно периодически запускать проверку, так как она не только исправит ошибочные записи, но и заблаговременно обнаружит и выкинет умирающие устройства массива, поэтому лучше настроить запуск этой проверки через системный планировщик (таймеры cron или systemd) . Некоторые дистрибутивы Linux (например, Debian) делают это по умолчанию.

Хотя первый синдром четности на самом деле представляет собой просто XOR, второй — нет. Второй синдром рассчитывается с использованием довольно сложной математики, называемой полем Галуа. Программный RAID для Linux использует поле, которое позволяет использовать RAID6 с не более чем 257 активными устройствами (не считая горячего резерва). Этот расчет является довольно интенсивным для процессора, поэтому лучше запускать эту проверку, когда ваша система не имеет большой нагрузки. Вы также можете ограничить его нагрузку, ограничив скорость проверки, установив /sys/block/md125/md/sync_speed_max с некоторым произвольным значением ( 200000 , что означает 200 МБ/с по умолчанию). Linux также тестирует и сообщает об оптимальном алгоритме расчета синдрома избыточности RAID для вашей системы при загрузке, поэтому вы можете проверить, какой из них будет использоваться и насколько быстро он будет работать, читая журналы загрузки.

Читайте также: