вторник, 15 января 2019 г.

Виртуализация. Крах ноды Proxmox VE, что делать?

Рано или поздно каждый администратор сталкивается с ситуацией, когда аппаратный сбой приводит к невозможности запустить ноду кластера Proxmox ve. Если у вас для всех виртуалок настроено HA, виртуалки просто перезапустятся на рабочей ноде. Но как быть если Вы HA не настраивали, например по причине загруженности нод и нехватки ресурсов для запуска виртуалок с легшей ноды? И в этом случае ваши VM для вас не потеряны(если конечно Ваши VM не хранились в локальном хранилище Вашей ноды, что я считаю верхом самонадеянности, ну или вы знали что делали и у Вас есть свежий бекап и эта заметка не для Вас).

Мигрируем VM на рабочую ноду

В режиме просмотра по серверам выделяем нужную виртуалку с неисправной ноды в правом верхнем углу жмем кнопку "More" -> "Manage HA", в открывшемся окне выбираем started/stopped в зависимости от того вы хотите чтоб VM сразу стартовала или необходимо просто мигрировать  ее в выключеном виде. Спустя небольшое время VM мигрирует на рабочую ноду.

 Удаляем из кластера артефакты погибшей ноды

На рабочей ноде проделываем следующее:

для Ceph:

Понижаем вес OSD ноды до 0
ceph osd crush reweight osd.<ID> 0.0
Переводим все OSD ноды в out
ceph osd out <ID>
останавливаем сервисы, обслуживающие OSD ноды:
service ceph stop osd.<ID>
После проделанных манипуляций во вкладке OSD веб интервейса можно наблюдать нечто этакое
Удаляем OSD ноды из крашмапа:
ceph osd crush remove osd.<ID>
в интерфейсе после этого список пуст:

Производим окончательное удаление:
ceph auth del osd.<ID>
ceph osd rm <ID>
В веб интерфейсе во вкладке "Ceph"->"Monitors" удаляем монитор сбойной ноды.

Удаление ноды из кластера Proxmox VE

pvecm delnode <nodename>
pvecm updatecerts
Обязательно вычищаем  ключи старой ноды на одном из узлов кластера в файле
/etc/pve/priv/known_hosts
Обратить внимание, что в файле 2 строки для каждой ноды (имя и адрес)

Итог:

Мы перенесли на рабочие ноды наши виртуальные машины и полностью удалили из кластера сбойную ноду.
После решения аппаратных проблем производится новая установка ноды и она снова вводится в кластер, как описано тут, тут и тут

Комментариев нет:

Отправить комментарий