Рано или поздно каждый администратор сталкивается с ситуацией, когда аппаратный сбой приводит к невозможности запустить ноду кластера Proxmox ve. Если у вас для всех виртуалок настроено HA, виртуалки просто перезапустятся на рабочей ноде. Но как быть если Вы HA не настраивали, например по причине загруженности нод и нехватки ресурсов для запуска виртуалок с легшей ноды? И в этом случае ваши VM для вас не потеряны(если конечно Ваши VM не хранились в локальном хранилище Вашей ноды, что я считаю верхом самонадеянности, ну или вы знали что делали и у Вас есть свежий бекап и эта заметка не для Вас).
Удаляем OSD ноды из крашмапа:
Производим окончательное удаление:
/etc/pve/priv/known_hosts
Обратить внимание, что в файле 2 строки для каждой ноды (имя и адрес)
После решения аппаратных проблем производится новая установка ноды и она снова вводится в кластер, как описано тут, тут и тут
Мигрируем VM на рабочую ноду
В режиме просмотра по серверам выделяем нужную виртуалку с неисправной ноды в правом верхнем углу жмем кнопку "More" -> "Manage HA", в открывшемся окне выбираем started/stopped в зависимости от того вы хотите чтоб VM сразу стартовала или необходимо просто мигрировать ее в выключеном виде. Спустя небольшое время VM мигрирует на рабочую ноду.Удаляем из кластера артефакты погибшей ноды
На рабочей ноде проделываем следующее:
для Ceph:
Понижаем вес OSD ноды до 0ceph osd crush reweight osd.<ID> 0.0
Переводим все OSD ноды в outceph osd out <ID>
останавливаем сервисы, обслуживающие OSD ноды:service ceph stop osd.<ID>
После проделанных манипуляций во вкладке OSD веб интервейса можно наблюдать нечто этакоеУдаляем OSD ноды из крашмапа:
ceph osd crush remove osd.<ID>
в интерфейсе после этого список пуст:Производим окончательное удаление:
ceph auth del osd.<ID>
ceph osd rm <ID>
В веб интерфейсе во вкладке "Ceph"->"Monitors" удаляем монитор сбойной ноды.Удаление ноды из кластера Proxmox VE
pvecm delnode <nodename>
pvecm updatecerts
Обязательно вычищаем ключи старой ноды на одном из узлов кластера в файле/etc/pve/priv/known_hosts
Обратить внимание, что в файле 2 строки для каждой ноды (имя и адрес)
Итог:
Мы перенесли на рабочие ноды наши виртуальные машины и полностью удалили из кластера сбойную ноду.После решения аппаратных проблем производится новая установка ноды и она снова вводится в кластер, как описано тут, тут и тут
Комментариев нет:
Отправить комментарий