Доброе утро. У нас проблема после внедрения Proxmox Backup Server. Есть несколько Ceph-нод, дополнительно 7 машин, на которых работают виртуальные машины. Резервное копирование в кластере Proxmox настроено — много машин с pve1-7 одновременно в один час. Запуск бэкапов на PBS происходит в полночь, стартуют 7 процессов резервного копирования — по одному с каждого pve. В момент резервного копирования виртуальная машина надолго приостанавливается — зависает. Сервисы, работающие на ней, некоторое время недоступны. В этот момент мониторинг Zabbix сообщает о проблемах с соединением с агентом Zabbix на бэкапируемой машине. Мониторинг также указывает на недоступность других сервисов на бэкапируемой машине. Пример сообщения из Zabbix:
Код:
2022.03.01 00:08:14
Имя: агент Zabbix на hostname не доступен уже 5 минут
Хост: hostname
Уровень важности: средний
Значение элемента: Вверх (1)
Во время бэкапа в логах вижу:
Код:
INFO: Запуск резервного копирования ВМ 136 (qemu)
INFO: Бэкап стартовал в 2022-03-02 23:59:04
INFO: статус = running
INFO: Имя ВМ: testmachine
INFO: включён диск 'scsi0' 'rbddata-v2:vm-1366-disk-1' 32772M
INFO: включён диск 'scsi2' 'rbddata-v2:vm-1366-disk-0' 500G
INFO: режим резервного копирования: snapshot
INFO: приоритет ionice: 7
INFO: создание архива Proxmox Backup Server 'vm/1366/2022-03-02T22:59:04Z'
INFO: выполнение команды гостевого агента 'fs-freeze'
INFO: выполнение команды гостевого агента 'fs-thaw'
INFO: запуск задачи бэкапа 'cedc2164-16d4-463c-b9ca-0a121b4b8a26'
INFO: возобновление работы ВМ
INFO: scsi0: статус dirty-bitmap: OK (1.1 ГиБ из 32.0 ГиБ грязных)
INFO: scsi2: статус dirty-bitmap: OK (7.0 ГиБ из 500.0 ГиБ грязных)
Технические детали: pve1-7 имеют одинаковое оборудование и ПО:
Код:
root@pve1:~# pveversion -v
proxmox-ve: 7.1-1 (ядро: 5.13.19-4-pve)
pve-manager: 7.1-10 (версия: 7.1-10/6ddebafe)
pve-kernel-helper: 7.1-10
pve-kernel-5.13: 7.1-7
pve-kernel-5.4: 6.4-12
pve-kernel-5.13.19-4-pve: 5.13.19-9
pve-kernel-5.4.162-1-pve: 5.4.162-2
pve-kernel-5.4.128-1-pve: 5.4.128-2
pve-kernel-5.4.119-1-pve: 5.4.119-1
pve-kernel-4.15: 5.4-19
pve-kernel-4.15.18-30-pve: 4.15.18-58
pve-kernel-4.15.18-9-pve: 4.15.18-30
ceph: 14.2.21-1
ceph-fuse: 14.2.21-1
corosync: 3.1.5-pve2
criu: 3.15-1+pve-1
glusterfs-client: 9.2-1
ifupdown: residual config
ifupdown2: 3.1.0-1+pmx3
ksm-control-daemon: 1.4-1
libjs-extjs: 7.0.0-1
libknet1: 1.22-pve2
libproxmox-acme-perl: 1.4.1
libproxmox-backup-qemu0: 1.2.0-1
libpve-access-control: 7.1-6
libpve-apiclient-perl: 3.2-1
libpve-common-perl: 7.1-3
libpve-guest-common-perl: 4.1-1
libpve-http-server-perl: 4.1-1
libpve-storage-perl: 7.1-1
libqb0: 1.0.5-1
libspice-server1: 0.14.3-2.1
lvm2: 2.03.11-2.1
lxc-pve: 4.0.11-1
lxcfs: 4.0.11-pve1
novnc-pve: 1.3.0-1
proxmox-backup-client: 2.1.5-1
proxmox-backup-file-restore: 2.1.5-1
proxmox-mini-journalreader: 1.3-1
proxmox-widget-toolkit: 3.4-6
pve-cluster: 7.1-3
pve-container: 4.1-4
pve-docs: 7.1-2
pve-edk2-firmware: 3.20210831-2
pve-firewall: 4.2-5
pve-firmware: 3.3-5
pve-ha-manager: 3.3-3
pve-i18n: 2.6-2
pve-qemu-kvm: 6.1.1-2
pve-xtermjs: 4.16.0-1
qemu-server: 7.1-4
smartmontools: 7.2-pve2
spiceterm: 3.2-2
swtpm: 0.7.0~rc1+2
vncterm: 1.7-1
zfsutils-linux: 2.1.2-pve1
Proxmox backup server:
Код:
root@proxmoxbackup:~# proxmox-backup-manager versions
proxmox-backup-server 2.1.5-1, текущая версия: 2.1.5
24 x Intel® Xeon® CPU E5-2620 0 @ 2.00GHz (2 сокета)
ОЗУ: 256 ГБ
Хранилище: локальный софтверный RAID-5
Код:
2022.03.01 00:08:14
Имя: агент Zabbix на hostname не доступен уже 5 минут
Хост: hostname
Уровень важности: средний
Значение элемента: Вверх (1)
Во время бэкапа в логах вижу:
Код:
INFO: Запуск резервного копирования ВМ 136 (qemu)
INFO: Бэкап стартовал в 2022-03-02 23:59:04
INFO: статус = running
INFO: Имя ВМ: testmachine
INFO: включён диск 'scsi0' 'rbddata-v2:vm-1366-disk-1' 32772M
INFO: включён диск 'scsi2' 'rbddata-v2:vm-1366-disk-0' 500G
INFO: режим резервного копирования: snapshot
INFO: приоритет ionice: 7
INFO: создание архива Proxmox Backup Server 'vm/1366/2022-03-02T22:59:04Z'
INFO: выполнение команды гостевого агента 'fs-freeze'
INFO: выполнение команды гостевого агента 'fs-thaw'
INFO: запуск задачи бэкапа 'cedc2164-16d4-463c-b9ca-0a121b4b8a26'
INFO: возобновление работы ВМ
INFO: scsi0: статус dirty-bitmap: OK (1.1 ГиБ из 32.0 ГиБ грязных)
INFO: scsi2: статус dirty-bitmap: OK (7.0 ГиБ из 500.0 ГиБ грязных)
Технические детали: pve1-7 имеют одинаковое оборудование и ПО:
Код:
root@pve1:~# pveversion -v
proxmox-ve: 7.1-1 (ядро: 5.13.19-4-pve)
pve-manager: 7.1-10 (версия: 7.1-10/6ddebafe)
pve-kernel-helper: 7.1-10
pve-kernel-5.13: 7.1-7
pve-kernel-5.4: 6.4-12
pve-kernel-5.13.19-4-pve: 5.13.19-9
pve-kernel-5.4.162-1-pve: 5.4.162-2
pve-kernel-5.4.128-1-pve: 5.4.128-2
pve-kernel-5.4.119-1-pve: 5.4.119-1
pve-kernel-4.15: 5.4-19
pve-kernel-4.15.18-30-pve: 4.15.18-58
pve-kernel-4.15.18-9-pve: 4.15.18-30
ceph: 14.2.21-1
ceph-fuse: 14.2.21-1
corosync: 3.1.5-pve2
criu: 3.15-1+pve-1
glusterfs-client: 9.2-1
ifupdown: residual config
ifupdown2: 3.1.0-1+pmx3
ksm-control-daemon: 1.4-1
libjs-extjs: 7.0.0-1
libknet1: 1.22-pve2
libproxmox-acme-perl: 1.4.1
libproxmox-backup-qemu0: 1.2.0-1
libpve-access-control: 7.1-6
libpve-apiclient-perl: 3.2-1
libpve-common-perl: 7.1-3
libpve-guest-common-perl: 4.1-1
libpve-http-server-perl: 4.1-1
libpve-storage-perl: 7.1-1
libqb0: 1.0.5-1
libspice-server1: 0.14.3-2.1
lvm2: 2.03.11-2.1
lxc-pve: 4.0.11-1
lxcfs: 4.0.11-pve1
novnc-pve: 1.3.0-1
proxmox-backup-client: 2.1.5-1
proxmox-backup-file-restore: 2.1.5-1
proxmox-mini-journalreader: 1.3-1
proxmox-widget-toolkit: 3.4-6
pve-cluster: 7.1-3
pve-container: 4.1-4
pve-docs: 7.1-2
pve-edk2-firmware: 3.20210831-2
pve-firewall: 4.2-5
pve-firmware: 3.3-5
pve-ha-manager: 3.3-3
pve-i18n: 2.6-2
pve-qemu-kvm: 6.1.1-2
pve-xtermjs: 4.16.0-1
qemu-server: 7.1-4
smartmontools: 7.2-pve2
spiceterm: 3.2-2
swtpm: 0.7.0~rc1+2
vncterm: 1.7-1
zfsutils-linux: 2.1.2-pve1
Proxmox backup server:
Код:
root@proxmoxbackup:~# proxmox-backup-manager versions
proxmox-backup-server 2.1.5-1, текущая версия: 2.1.5
24 x Intel® Xeon® CPU E5-2620 0 @ 2.00GHz (2 сокета)
ОЗУ: 256 ГБ
Хранилище: локальный софтверный RAID-5
