+7 (495) 320-70-49
- Назад
- Телефоны
- +7 (495) 320-70-49
- Заказать звонок
info@proxmox.su
Москва, Бакунинская улица, 69с1
Пн-Пт: 09-00 до 18-00
Сб-Вс: выходной

Редкие сбои в резервном копировании, Proxmox Backup Server

Zephrant

Guest

15.11.2021 18:51:00

У меня есть кластер, который делает бэкапы на выделенный сервер Proxmox Backup, обычно всё работает отлично. Из 54 ВМ, три — все с одного и того же узла — не смогли сохранить бэкап прошлой ночью:

Код:
313: 2021-11-15 01:04:04 INFO: Начало резервного копирования ВМ 313 (qemu)
313: 2021-11-15 01:04:04 INFO: статус = running
313: 2021-11-15 01:04:04 INFO: Имя ВМ: spktest05
313: 2021-11-15 01:04:04 INFO: включён диск 'scsi0' 'spk-ceph-pool1:vm-313-disk-0' 32ГБ
313: 2021-11-15 01:04:04 INFO: режим бэкапа: snapshot
313: 2021-11-15 01:04:04 INFO: приоритет ionice: 7
313: 2021-11-15 01:04:04 INFO: создаётся архив Proxmox Backup Server 'vm/313/2021-11-15T09:04:04Z'
313: 2021-11-15 01:04:04 INFO: отправлена команда гостевому агенту 'fs-freeze'
313: 2021-11-15 01:06:09 INFO: отправлена команда гостевому агенту 'fs-thaw'
313: 2021-11-15 01:06:09 ERROR: ВМ 313 команда qmp 'backup' не сработала — истёкло время ожидания
313: 2021-11-15 01:06:09 INFO: прерывание задания бэкапа
313: 2021-11-15 01:06:22 INFO: ВМ снова возобновлена
313: 2021-11-15 01:06:22 ERROR: Не удалось сделать бэкап ВМ 313 — команда qmp 'backup' не сработала — истёкло время ожидания

Ещё 10 ВМ с того же узла бэкапились без проблем, как до сбоя, так и после. У меня 12 узлов делают бэкапы, всего 60 ВМ и LXC. Сервер бэкапов — выделенный корпус Supermicro с двумя 40гб сетевыми картами, сейчас занято всего 2.5% места на диске. Подобные сбои бывают время от времени, но корень проблемы пока не нашёл.

Есть ли способ настроить повторную попытку бэкапа при ошибке? Может, кто-то подскажет, как копать и отлаживать эту проблему?

Zephrant

Guest

31.12.2021 17:38:00

Я так и не нашёл, как увеличить тайм-аут. Но это начинает серьёзно беспокоить. Почти каждую ночь у меня несколько ВМ не проходят резервное копирование.
420 VM 420 FAILED 00:00:00 нельзя открыть файл '/etc/pve/nodes/test-prox-n101/qemu-server/420.conf.tmp.729468' - Устройство или ресурс заняты
902 VM 902 FAILED 00:00:00 нельзя открыть файл '/etc/pve/nodes/test-prox-n101/qemu-server/902.conf.tmp.729468' - Устройство или ресурс заняты
903 VM 903 FAILED 00:00:00 нельзя открыть файл '/etc/pve/nodes/test-prox-n101/qemu-server/903.conf.tmp.729468' - Устройство или ресурс заняты

Все три ВМ при этом выключены. Нет никаких причин, почему бы при резервном копировании возникали проблемы, но регулярно процесс подвисает, и их приходится утром вручную разблокировать.
Только что обновил Backup до версии 2.1-2, но проблема осталась. Ноды работают на pve-manager/7.1-8/5b267f33.

Zephrant

Guest

20.01.2022 00:34:00

Похоже, что все узлы делают резервное копирование одновременно. Есть ли какой-то способ распределить процессы, чтобы узлы работали по очереди? Это не гонка, мне все равно, сколько это займет времени, лишь бы уложиться в несколько часов.

fabian

Guest

20.01.2022 12:00:00

Ваш кластер Ceph и Corosync используют одни и те же физические каналы связи? Потому что это сообщение говорит о том, что corosync/pmxcfs перешёл в режим только для чтения, скорее всего из-за повышенной нагрузки на ваш кластер Ceph из-за резервного копирования.

Zephrant

Guest

20.01.2022 17:59:00

У каждого узла кластера есть по два 40G канала к двум коммутаторам в трэнке. Резервный сервер подключён двумя 10G каналами, поэтому его могут «завалить» сразу 12 высокопроизводительных узлов, делающих резервное копирование одновременно. CEPH работает на VLAN в том же трэнке, что и резервное копирование, но на другой VLAN. Есть советы, как замедлить процесс резервного копирования? Можно снизить скорость на резервном сервере до 1G...

fabian Guest	#6 0 21.01.2022 09:31:00 Нет, проблема в том, что общие каналы для ceph и corosync... нагрузка на первый вызовет сбои у второго (а если у вас настроен HA, то сбой означает, что узлы и их гостевые системы будут заблокированы!).

Zephrant

Guest

21.01.2022 20:54:00

Email: 430 test1 НЕУДАЧА 00:02:33 VM 430 команда qmp 'backup' завершилась ошибкой — таймаут. С резервного сервера: 2022-01-21T01:05:38-08:00: запуск нового бэкапа на хранилище 'store1': "vm/430/2022-01-21T09:07:33Z" 2022-01-21T01:05:38-08:00: загрузка 'index.json.blob' из предыдущего бэкапа. 2022-01-21T01:05:45-08:00: регистрация блоков в 'drive-scsi0.img.fidx' из предыдущего бэкапа. 2022-01-21T01:05:45-08:00: загрузка 'drive-scsi0.img.fidx' из предыдущего бэкапа. 2022-01-21T01:05:46-08:00: создан новый фиксированный индекс 1 ("vm/430/2022-01-21T09:07:33Z/drive-scsi0.img.fidx") 2022-01-21T01:06:10-08:00: регистрация блоков в 'drive-scsi1.img.fidx' из предыдущего бэкапа. 2022-01-21T01:06:10-08:00: загрузка 'drive-scsi1.img.fidx' из предыдущего бэкапа. 2022-01-21T01:07:46-08:00: создан новый фиксированный индекс 2 ("vm/430/2022-01-21T09:07:33Z/drive-scsi1.img.fidx") 2022-01-21T01:08:10-08:00: добавлен blob "/mnt/datastore/storage/vm/430/2022-01-21T09:07:33Z/qemu-server.conf.blob" (366 байт, сжатие: 366) 2022-01-21T01:08:10-08:00: бэкап завершился, но с ошибкой: бэкап закончился, но флаг завершения не установлен. 2022-01-21T01:08:10-08:00: удаление незавершённого бэкапа. 2022-01-21T01:08:10-08:00: ОШИБКА ЗАДАЧИ: бэкап закончился, но флаг завершения не установлен. Есть ли способ приоритетизировать трафик, чтобы это не было проблемой из-за общих каналов? Для отказоустойчивости не хочу выделять один из двух своих каналов под CEPH, и других двух каналов у меня просто нет.

fabian Guest	#8 0 24.01.2022 08:33:00 Ну, можно попробовать, в зависимости от того, какое сетевое оборудование используешь (трафик corosync идет только по определённым портам), но в идеале нужны выделенные каналы с низкой задержкой.

Читают тему

Главная Каталог 0 Корзина 0 Избранные Кабинет 0 Сравнение Акции Контакты Услуги Бренды Отзывы Компания Лицензии Документы Реквизиты Поиск Блог Обзоры