Как починить рейд 1, один диск не работает

Обновлено: 30.06.2024

Редактировать: мой последний пост самый свежий, большинство других постов — просто бред по сравнению с ситуацией, как она выглядит сейчас.

Я пытаюсь починить компьютер моей племянницы. Она очень любит данные, которые производит, а также склонна убивать диски. Я понятия не имею, как ей это удается. Я голосую за невезение. Во всяком случае, из-за этого мы решили в последний раз поместить два в RAID 1. И вот один диск вышел из строя. Это основной процессор на базе чипа Sil 3112 на Asus A7N8X-E Deluxe. В последний раз я видел эту систему за пару дней до сбоя диска из-за не связанной с этим проблемы. В то время запуск сказал, что диски в массиве 0 находятся в режиме синхронизации. Я не придал этому особого значения, так как система обычно работает круглосуточно и без выходных.

Теперь, как я понимаю, все, что мне нужно сделать, чтобы привести его к одному диску, это удалить неисправный диск, и он должен загрузиться с предупреждением. Но это не работает. На данный момент я предполагаю, что в этой системе была неполная синхронизация. Или есть другое объяснение? Нужно ли мне заходить в инструмент настройки RAID и сначала удалять RAID?

Я пытаюсь получить руководство с сайта Asus, но похоже, что у них нет части руководства по RAID, а основное руководство загружается с мизерной скоростью. Я ненавижу веб-сайт Asus. А буквально минуту назад в машине слева от меня умер еще один Antec Truepower. У меня такое же отвращение к источникам питания Antec. К счастью, у этого уже закончилась гарантия, и ничего другого не остается, как вставить новый в эту машину. И, к счастью, у меня есть новые блоки питания для каждого блока питания Antec, который у меня все еще работает, поскольку я знаю, что все они должны быть заменены раньше, чем позже. В любом случае, я отвлекся.

Почему я не могу загрузиться с исправного диска? Есть советы из опыта? Я имел дело с RAID 5 и 6 раньше, но это мой первый сбой RAID 1, и я немного ошеломлен, что он не работает, как я подозревал.

С наилучшими пожеланиями
Бо Эрикссон

Это сумасшествие.
Я не могу убедить ничего, кроме инструментов Maxtor, даже в том, чтобы увидеть диски контроллеров Sil3112. HiRens BootCD бесполезен, Ultimate BootCD бесполезен.
У меня нет возможности увидеть диск, чтобы проверить MBR, файловые системы и т. д.

Инструмент Maxtor сообщает, что основной диск неисправен, и, если возможно, попробуйте сделать резервную копию сейчас. Проблема в том, что я вижу, что если основной диск медленно выходит из строя в зеркальной ситуации, то зеркало тоже может запутаться.

Я не хочу идти сегодня вечером на пасхальный ужин к моим братьям и говорить его дочери, что, возможно, я не смогу восстановить ее данные, несмотря на RAID 1, который мы настроили, чтобы не столкнуться с этой проблемой.

Мне очень нужна помощь. Я не могу поверить, что я ничего не могу спасти от этого. Забавно то, что я только что обновил этот компьютер, добавив больше оперативной памяти, улучшенную графику и запустив обычную очистку системы в целом. Все было нормально около 2-х дней. Так что невозможно, чтобы она не поверила, что я причинил это горе.

С наилучшими пожеланиями
Бо Эрикссон

Поэтому, ожидая предложений, я поместил зеркальный диск в открытый отсек моей основной установки для дополнительных дисков Sata, и он сразу же смонтировался как диск I: И я могу читать данные. Так что это хорошо. Теперь я знаю, что смогу спасти систему. Однако мне кажется странным полное отсутствие инструментов клонирования для клонирования в образ и обратно в Windows XP. По крайней мере, те, которые либо бесплатны, либо, по крайней мере, довольно дешевы.

Я мог бы отформатировать диск и просто скопировать все, а затем выполнить восстановительную установку. Это должно сработать. Но, вероятно, это будет медленнее.

Этот диск все равно не появится даже при ремонтной установке на компьютере племянницы. Но я сначала сделаю резервную копию данных, а затем начну эксперименты с диском как есть.

С наилучшими пожеланиями
Бо Эрикссон

Исходно от SDplus:
Теперь, насколько я понимаю, все, что мне нужно сделать, чтобы привести его к одному диску, это удалить неисправный диск, и он должен загрузиться с предупреждением. Но это не работает. На данный момент я предполагаю, что в этой системе была неполная синхронизация. Или есть другое объяснение? Нужно ли мне заходить в инструмент настройки RAID и сначала удалять RAID?

Как и любому массиву RAID, вам нужен инструмент управления. Если вы не можете найти его на веб-странице ASUS, значит ЧТО-ТО должно быть на веб-странице SI.

С наилучшими пожеланиями
Бо Эрикссон

Вы уверены, что первый диск был плохим? Дело не в кабеле или контроллере?

С наилучшими пожеланиями
Бо Эрикссон

Ну, хорошо, теперь это меня бесконечно расстраивает.
Я решил попробовать кое-что, так как уже сделал резервную копию данных. Что бы я ни делал, ни один загрузочный диск не мог увидеть диск, включая установочный диск WinXP. Поэтому я смело пошел дальше и стер RAID 1, установленный в BIOS, чтобы потенциально стереть эту информацию. Я знал, что диск будет казаться пустым, и так оно и было, но теперь все инструменты могли видеть диск.
Поэтому я запустил восстановление активного раздела и вернул раздел. Однако по-прежнему нет загрузки.

В этот момент установочный диск WinXP видит раздел и находит ОС, поэтому я продолжаю и делаю ремонтную установку, думая, что это правильно настроит диск.

Это было впервые для меня. Через некоторое время Windows заявляет, что исправила проблемы с жестким диском, и мне нужно перезагрузиться. Я был полон надежды, что он только что решил проблему с загрузкой, и теперь все в порядке. Но нет. Это было только исправление, чтобы сделать реальную ремонтную установку. Который прошел нормально. За исключением того, что диск все равно не загрузится. Теперь я попробовал все настройки BIOS для порядка загрузки и проверил активный статус. Просмотрел файлы файл-менеджерами.

Я просто не могу заставить систему загрузиться с этого диска.

Я просто знаю, что мне не хватает чего-то простого. У меня также есть странное чувство, что я узнаю это, и что какая-то простая mbr-команда исправит эту чертову вещь. Но я просто не могу вспомнить, что это было.

У меня есть сервер Dell R610 с двумя массивами Raid 1. У меня также есть карта Perc 6i, работающая с массивами. На прошлой неделе я пришел и обнаружил, что один диск вышел из строя. Это 143 ГБ. Я заказал еще один через Dell, и он на 300 ГБ.

Почитав немного, я понял, что это должно быть легко. Я вынимаю неисправный диск и заменяю его новым, и он восстанавливает массив. Это не так. Пробовал вставлять в другой отсек для дисков — не помогло. Пробовал найти "ребилд" в Open management - но нету где у него выбора в задачах. Я попытался назначить его в качестве горячего резерва. Я получаю сообщение об ошибке: «Управление хранилищем отображает только те диски, которые можно использовать в качестве горячего резерва. В настоящее время нет доступных, достаточно больших дисков или дисков правильного типа, которые можно было бы использовать в качестве горячего резерва для этого виртуального диска».

Массив видит новый диск. Я получаю это в Open Manage:

Физический диск 0:0:0

Используемое дисковое пространство RAID

Доступное дисковое пространство RAID

Политика кэширования жестких дисков без RAID

Я боюсь перезагружаться и пробовать настройку в биосе. Я знаю, что могут быть проблемы с этим маршрутом. Я ищу другие предложения? Что я упускаю?

10 ошибок при отключении электроэнергии и как их избежать

2022-03-23 ​​18:00:00 UTC Веб-семинар Веб-семинар: LogicMonitor — 10 ошибок при обработке сбоев и как их избежать Все подробности о событии Просмотреть все события

GypsyTheQueen

У вас будет возможность фактически "перестроить" только в том случае, если диск отображается как FAILED. Если диск отображается как READY, вы должны установить его в качестве горячего резерва, чтобы начать перестроение. Если диск отображается как FOREIGN, вы должны очистить эту конфигурацию, прежде чем сможете что-либо с ним делать. Вы не можете перестроиться в RAID-массив, который находится в состоянии сбоя. Вы можете восстановить только в том случае, если массив деградировал. Лучше пересобрать в ОС, если есть возможность (рекомендуется Dell). Вы можете сделать это с помощью программного обеспечения для администрирования сервера от Dell, и оно намного удобнее для пользователя.

Если вы делаете это с помощью утилиты Perc при загрузке, убедитесь, что вы добавили сменный диск в массив и инициализировали его. Как только он будет готов, вы сможете восстановить массив. Мне не повезло с неисправными дисками и этой картой. У меня есть привычка запускать 2 в рейде и 1 горячий резерв. В худшем случае можно переделать рейд и поставить бэкап.

У нас есть сервер с тремя дисками. Два из них находятся в RAID 1, определенном в BIOS. Один из них показывает ошибку на экране загрузки с соответствующим серийным кодом диска, выделенным красным цветом.

Я собираюсь заменить его, но очень боюсь сделать что-то не так.

Можно ли просто выключить сервер, заменить диск, включить его и дождаться синхронизации дисков?

Мы еще не купили сменный диск. Дефектный - это жесткий диск Hitachi емкостью 1,8 ТБ (2 ТБ?). Есть ли способ увидеть RPM (7200 или 5400), чтобы купить правильный, не выключая сервер? (У меня нет проблем с отключением, просто так удобнее).

Я предполагаю, что отсутствующий диск не повлияет на настройки конфигурации RAID 1 (сервер потеряет свой зеркальный диск только до тех пор, пока в слот не будет вставлен новый), но из любопытства я хотел бы быть уверенным. Останутся ли настройки RAID 1 без изменений?


В основном это зависит от того, есть ли у вас «настоящий» аппаратный рейд-контроллер или «поддельный», который в значительной степени зависит от программного драйвера. 1) обычно серверное оборудование должно даже разрешать горячую замену отказавшего диска 2) зависит от насколько «мертвый» диск, но обычно вы можете определить свойства оставшегося диск в массиве. 3) да, это теория

Возможно, это аппаратный контроллер; Вытащил диск без рейда с работающим сервером и вставил обратно без особых для него последствий. Но если есть другие способы проверить это, буду рад услышать.

"без существенных последствий" - как бы вы узнали, если бы вы сократили срок его службы или испортили данные, которые не можете проверить? НИКОГДА НЕ ДЕЛАЙТЕ ЭТОГО, ЕСЛИ ВЫ НЕ ЗНАЕТЕ, ЧТО ВАШЕ ОБОРУДОВАНИЕ И ОС ПОДДЕРЖИВАЮТ ПОДМЕНУ ХОСТА. Является ли это аппаратным или программным контроллером, не имеет значения для восстановления массива на исходном оборудовании хоста. Но не подключайте и не отключайте устройства, когда машина включена.

1 Ответ 1

Проверьте, поддерживает ли ваш сервер горячее подключение — это самый простой способ: вытащите неисправный жесткий диск, вставьте новый. Без горячей замены вам необходимо выключить сервер, заменить неисправный диск (проверьте идентификаторы на этом этапе), включить питание и, возможно, указать BIOS, какой диск должен быть зеркальным (обратите внимание на идентификаторы). Должна начаться перестройка/повторное зеркало.

Вы должны заменить диск на тип, соответствующий оставшемуся диску. Смешивать разные скорости - не очень хорошая идея. Если диски не зависят от поставщика, вы должны документировать точный тип. Кроме того, программное обеспечение RAID должно отображать точные типы дисков. Убедитесь, что размер нового диска не меньше размера оставшегося.

Заменять диск следует только после того, как замена будет доставлена. В зависимости от фактической проблемы неисправный диск может по-прежнему поддерживать другой диск. Кроме того, при использовании слотов с возможностью горячей замены не следует оставлять слот открытым на длительное время (может произойти сбой охлаждения).

<ПР> В: У меня настроен RAID-1 (зеркалирование), и отключилось питание во время активности диска. Что мне теперь делать?

<УЛ>
  • Метод (1): используйте инструменты рейда. Их можно использовать для синхронизации массивов рейдов. Они не исправляют повреждения файловой системы; после того, как массивы рейда синхронизированы, файловую систему все равно нужно исправить с помощью fsck. RAID-массивы можно проверить с помощью ckraid /etc/raid1.conf (для RAID-1, иначе, /etc/raid5.conf и т. д.). Вызов ckraid /etc/raid1.conf --fix выберет один из дисков в массив (обычно первый) и использовать его в качестве основной копии, а его блоки копировать в остальные в зеркале. Чтобы указать, какой из дисков должен использоваться в качестве главного, вы можете использовать флаг --force-source: например, ckraid /etc/raid1.conf --fix --force-source /dev/hdc3 Команда ckraid может можно безопасно запускать без опции --fix для проверки неактивного RAID-массива без внесения каких-либо изменений. Если вас устраивают предложенные изменения, укажите параметр --fix.
  • Метод (2): Параноидальный, трудоемкий, ненамного лучше первого. Предположим, что у вас двухдисковый массив RAID-1, состоящий из разделов /dev/hda3 и /dev/hdc3. Вы можете попробовать следующее:
    1. fsck /dev/hda3
    2. fsck /dev/hdc3
    3. решите, в каком из двух разделов было меньше ошибок, какие из них легче восстанавливались или какие данные были восстановлены. Выберите любой из них, чтобы он стал вашей новой «главной» копией. Допустим, вы выбрали /dev/hdc3 .
    4. dd if=/dev/hdc3 of=/dev/hda3
    5. mkraid raid1.conf -f --only-superblock
    Вместо последних двух шагов вы можете запустить ckraid /etc/raid1.conf --fix --force-source /dev/hdc3, что должно быть немного быстрее.
  • Метод (3): вариант вышеописанного для ленивых. Если вы не хотите ждать завершения длинных fsck, вполне нормально пропустить первые три шага выше и сразу перейти к последним двум шагам. Просто не забудьте запустить fsck /dev/md0 после того, как закончите. Метод (3) на самом деле просто замаскированный метод (1).
  • О: Резервирование уровней RAID предназначено для защиты от сбоя диска, а не от сбоя питания. Поскольку диски в массиве RAID-4 или RAID-5 не содержат файловой системы, которую может прочитать fsck, вариантов восстановления меньше. Вы не можете использовать fsck для предварительной проверки и/или ремонта; сначала вы должны использовать ckraid.

    Команду ckraid можно безопасно запускать без параметра --fix для проверки неактивного массива RAID без внесения каких-либо изменений. Если вас устраивают предлагаемые изменения, укажите параметр --fix.

    При желании вы можете попробовать обозначить один из дисков как "сбойный диск". Сделайте это с флагом --suggest-failed-disk-mask.

    В флаге должен быть установлен только один бит: RAID-5 не может восстановить два отказавших диска. Маска представляет собой двоичную битовую маску: таким образом:

    Кроме того, вы можете изменить секторы четности, используя флаг --suggest-fix-parity. Это позволит пересчитать паритет из других секторов.

    Флаги --suggest-failed-dsk-mask и --suggest-fix-parity можно безопасно использовать для проверки. Никакие изменения не вносятся, если флаг --fix не указан. Таким образом, вы можете экспериментировать с разными возможными схемами ремонта.

    О: Вы должны держать своего лучшего друга подальше от компьютера. К счастью, серьезных повреждений нанесено не было. Вы можете исправить это, запустив:

    <ПР>
  • создайте резервную копию файловой системы на /dev/hda3
  • дд, если=/dev/hda3 из=/dev/hdc3
  • mkraid raid1.conf -f --only-superblock
  • О: Потому что каждый компонентный раздел в зеркале RAID-1 является абсолютно корректной копией файловой системы. В крайнем случае, зеркалирование можно отключить, а один из разделов смонтировать и безопасно запустить как обычную файловую систему без RAID. Когда вы будете готовы к перезагрузке с использованием RAID-1, размонтируйте раздел и следуйте приведенным выше инструкциям, чтобы восстановить зеркало. Обратите внимание, что описанное выше работает ТОЛЬКО для RAID-1, а не для любого другого уровня.

    Возможно, вам будет удобнее изменить направление копирования выше: скопировать с нетронутого диска на тот, который был. Только не забудьте проверить финальный md.

    О: Да, запускать fsck на md-устройствах безопасно. На самом деле это единственное безопасное место для запуска fsck .

    A: Если диск выходит из строя, драйвер низкого уровня возвращает код ошибки драйверу RAID. Драйвер RAID пометит его как «плохой» в суперблоках RAID «хороших» дисков (поэтому позже мы узнаем, какие зеркала хорошие, а какие нет), и продолжит операцию RAID на оставшихся рабочих зеркалах. .

    Это, конечно, предполагает, что диск и низкоуровневый драйвер могут обнаружить ошибку чтения/записи и, например, не будут автоматически повреждать данные. Это справедливо для современных дисков (схемы обнаружения ошибок используются внутри) и является основой работы RAID.

    <УЛ>
  • Реконструкция RAID 1 и 5 на запасных дисках
  • Реконструкция четности RAID-5 после некорректного завершения работы
  • запасной диск для горячего добавления в уже работающий массив RAID 1 или 4/5
    • В настоящее время после удаления первого диска набор RAID будет работать в ухудшенном режиме. Для восстановления полноценного рабочего режима необходимо:
      • остановить массив ( mdstop /dev/md0 )
      • замените неисправный диск
      • запустите ckraid raid.conf, чтобы восстановить его содержимое
      • снова запустите массив ( mdadd , mdrun ).

      A: Ядро регистрирует событие с приоритетом KERN_ALERT в системном журнале. Существует несколько программных пакетов, которые будут отслеживать файлы системного журнала и автоматически издавать звуковой сигнал через динамик ПК, вызывать пейджер, отправлять электронную почту и т. д.

      Даже если один из дисков вышел из строя, вам все равно придется добавить его, как при обычной установке. (?? попробуйте использовать /dev/null вместо вышедшего из строя диска. будьте осторожны) Тогда массив будет активен в деградированном режиме с (n - 1) дисками. Если ``mdrun'' терпит неудачу, ядро ​​заметило ошибку (например, несколько неисправных дисков или нечистое завершение работы). Используйте ``dmesg'' для отображения сообщений об ошибках ядра из ``mdrun''. Если набор raid-5 поврежден из-за потери питания, а не из-за сбоя диска, можно попытаться восстановить его, создав новый суперблок RAID:

      <УЛ>
    • Активен массив RAID-5.
    • Один диск выходит из строя, пока массив активен.
    • Микропрограмма накопителя и низкоуровневые драйверы дисков/контроллеров Linux обнаруживают сбой и сообщают код ошибки драйверу MD.
    • Драйвер MD продолжает обеспечивать безошибочное устройство /dev/md0 для более высоких уровней ядра (с ухудшением производительности) за счет использования оставшихся рабочих дисков.
    • Системный администратор может размонтировать /dev/md0 и mdstop /dev/md0 как обычно.
    • Если неисправный диск не заменить, системный администратор все равно может запустить массив в обычном режиме с пониженной производительностью, запустив mdadd и mdrun .

    О: Если вас беспокоят RAID, High Availability и UPS, то, вероятно, неплохо быть суеверным. Это не повредит, не так ли?

    О: Нет. И, если вы не запускали fsck в режиме «только проверка; не обновлять», вполне возможно, что вы испортили свои данные. К сожалению, нередким случаем является случайное изменение порядка дисков в массиве RAID-5 после замены жесткого диска. Хотя суперблок RAID хранит правильный порядок, не все инструменты используют эту информацию. В частности, текущая версия ckraid будет использовать информацию, указанную с помощью флага -f (обычно это файл /etc/raid5.conf), вместо данных в суперблоке. Если указанный порядок неверный, то замененный диск будет реконструирован неправильно. Симптомом такого рода ошибок являются тяжелые и многочисленные ошибки fsck.

    И, если вам интересно, да, кто-то потерял все свои данные из-за этой ошибки. Перед изменением конфигурации RAID-массива настоятельно рекомендуется сделать резервную копию всех данных на ленте.

    Читайте также: