Администрирование и не только: Виртуализация. Крах ноды Proxmox VE, что делать?

вторник, 15 января 2019 г.

Виртуализация. Крах ноды Proxmox VE, что делать?

Рано или поздно каждый администратор сталкивается с ситуацией, когда аппаратный сбой приводит к невозможности запустить ноду кластера Proxmox ve. Если у вас для всех виртуалок настроено HA, виртуалки просто перезапустятся на рабочей ноде. Но как быть если Вы HA не настраивали, например по причине загруженности нод и нехватки ресурсов для запуска виртуалок с легшей ноды? И в этом случае ваши VM для вас не потеряны(если конечно Ваши VM не хранились в локальном хранилище Вашей ноды, что я считаю верхом самонадеянности, ну или вы знали что делали и у Вас есть свежий бекап и эта заметка не для Вас).

Мигрируем VM на рабочую ноду

В режиме просмотра по серверам выделяем нужную виртуалку с неисправной ноды в правом верхнем углу жмем кнопку "More" -> "Manage HA", в открывшемся окне выбираем started/stopped в зависимости от того вы хотите чтоб VM сразу стартовала или необходимо просто мигрировать ее в выключеном виде. Спустя небольшое время VM мигрирует на рабочую ноду.

Удаляем из кластера артефакты погибшей ноды

На рабочей ноде проделываем следующее:

для Ceph:

Понижаем вес OSD ноды до 0

ceph osd crush reweight osd.<ID> 0.0

Переводим все OSD ноды в out

ceph osd out <ID>

останавливаем сервисы, обслуживающие OSD ноды:

service ceph stop osd.<ID>

После проделанных манипуляций во вкладке OSD веб интервейса можно наблюдать нечто этакое

Удаляем OSD ноды из крашмапа:

ceph osd crush remove osd.<ID>

в интерфейсе после этого список пуст:

Производим окончательное удаление:

ceph auth del osd.<ID>

ceph osd rm <ID>

В веб интерфейсе во вкладке "Ceph"->"Monitors" удаляем монитор сбойной ноды.

Удаление ноды из кластера Proxmox VE

pvecm delnode <nodename>

pvecm updatecerts

Обязательно вычищаем ключи старой ноды на одном из узлов кластера в файле
/etc/pve/priv/known_hosts
Обратить внимание, что в файле 2 строки для каждой ноды (имя и адрес)

Итог:

Мы перенесли на рабочие ноды наши виртуальные машины и полностью удалили из кластера сбойную ноду.
После решения аппаратных проблем производится новая установка ноды и она снова вводится в кластер, как описано тут, тут и тут

Администрирование и не только

Страницы

вторник, 15 января 2019 г.

Виртуализация. Крах ноды Proxmox VE, что делать?

Мигрируем VM на рабочую ноду

Удаляем из кластера артефакты погибшей ноды

для Ceph:

Удаление ноды из кластера Proxmox VE

Итог:

Комментариев нет:

Отправить комментарий

Страницы

вторник, 15 января 2019 г.

Виртуализация. Крах ноды Proxmox VE, что делать?

Мигрируем VM на рабочую ноду

Удаляем из кластера артефакты погибшей ноды

для Ceph:

Удаление ноды из кластера Proxmox VE

Итог:

Комментариев нет:

Отправить комментарий

вторник, 15 января 2019 г.