У меня есть кластер, который делает бэкапы на выделенный сервер Proxmox Backup, обычно всё работает отлично. Из 54 ВМ, три — все с одного и того же узла — не смогли сохранить бэкап прошлой ночью:
Код:
313: 2021-11-15 01:04:04 INFO: Начало резервного копирования ВМ 313 (qemu)
313: 2021-11-15 01:04:04 INFO: статус = running
313: 2021-11-15 01:04:04 INFO: Имя ВМ: spktest05
313: 2021-11-15 01:04:04 INFO: включён диск 'scsi0' 'spk-ceph-pool1:vm-313-disk-0' 32ГБ
313: 2021-11-15 01:04:04 INFO: режим бэкапа: snapshot
313: 2021-11-15 01:04:04 INFO: приоритет ionice: 7
313: 2021-11-15 01:04:04 INFO: создаётся архив Proxmox Backup Server 'vm/313/2021-11-15T09:04:04Z'
313: 2021-11-15 01:04:04 INFO: отправлена команда гостевому агенту 'fs-freeze'
313: 2021-11-15 01:06:09 INFO: отправлена команда гостевому агенту 'fs-thaw'
313: 2021-11-15 01:06:09 ERROR: ВМ 313 команда qmp 'backup' не сработала — истёкло время ожидания
313: 2021-11-15 01:06:09 INFO: прерывание задания бэкапа
313: 2021-11-15 01:06:22 INFO: ВМ снова возобновлена
313: 2021-11-15 01:06:22 ERROR: Не удалось сделать бэкап ВМ 313 — команда qmp 'backup' не сработала — истёкло время ожидания
Ещё 10 ВМ с того же узла бэкапились без проблем, как до сбоя, так и после. У меня 12 узлов делают бэкапы, всего 60 ВМ и LXC. Сервер бэкапов — выделенный корпус Supermicro с двумя 40гб сетевыми картами, сейчас занято всего 2.5% места на диске. Подобные сбои бывают время от времени, но корень проблемы пока не нашёл.
Есть ли способ настроить повторную попытку бэкапа при ошибке? Может, кто-то подскажет, как копать и отлаживать эту проблему?
Код:
313: 2021-11-15 01:04:04 INFO: Начало резервного копирования ВМ 313 (qemu)
313: 2021-11-15 01:04:04 INFO: статус = running
313: 2021-11-15 01:04:04 INFO: Имя ВМ: spktest05
313: 2021-11-15 01:04:04 INFO: включён диск 'scsi0' 'spk-ceph-pool1:vm-313-disk-0' 32ГБ
313: 2021-11-15 01:04:04 INFO: режим бэкапа: snapshot
313: 2021-11-15 01:04:04 INFO: приоритет ionice: 7
313: 2021-11-15 01:04:04 INFO: создаётся архив Proxmox Backup Server 'vm/313/2021-11-15T09:04:04Z'
313: 2021-11-15 01:04:04 INFO: отправлена команда гостевому агенту 'fs-freeze'
313: 2021-11-15 01:06:09 INFO: отправлена команда гостевому агенту 'fs-thaw'
313: 2021-11-15 01:06:09 ERROR: ВМ 313 команда qmp 'backup' не сработала — истёкло время ожидания
313: 2021-11-15 01:06:09 INFO: прерывание задания бэкапа
313: 2021-11-15 01:06:22 INFO: ВМ снова возобновлена
313: 2021-11-15 01:06:22 ERROR: Не удалось сделать бэкап ВМ 313 — команда qmp 'backup' не сработала — истёкло время ожидания
Ещё 10 ВМ с того же узла бэкапились без проблем, как до сбоя, так и после. У меня 12 узлов делают бэкапы, всего 60 ВМ и LXC. Сервер бэкапов — выделенный корпус Supermicro с двумя 40гб сетевыми картами, сейчас занято всего 2.5% места на диске. Подобные сбои бывают время от времени, но корень проблемы пока не нашёл.
Есть ли способ настроить повторную попытку бэкапа при ошибке? Может, кто-то подскажет, как копать и отлаживать эту проблему?
