Информация
Услуги
  • Внедрение
  • Настройка
  • Поддержка
  • Ремонт
Контакты
Оплата
Новости
Доставка
Загрузки
Форум
Настройка
    info@proxmox.su
    +7 (495) 320-70-49
    Заказать звонок
    Аспро: ЛайтШоп
    Войти
    0 Сравнение
    0 Избранное
    0 Корзина
    Аспро: ЛайтШоп
    Войти
    0 Сравнение
    0 Избранное
    0 Корзина
    Аспро: ЛайтШоп
    Телефоны
    +7 (495) 320-70-49
    Заказать звонок
    0
    0
    0
    Аспро: ЛайтШоп
    • +7 (495) 320-70-49
      • Назад
      • Телефоны
      • +7 (495) 320-70-49
      • Заказать звонок
    • info@proxmox.su
    • Москва, Бакунинская улица, 69с1
    • Пн-Пт: 09-00 до 18-00
      Сб-Вс: выходной
    • 0 Сравнение
    • 0 Избранное
    • 0 Корзина
    Главная
    Форум
    Proxmox Backup Server
    Редкие сбои в резервном копировании

    Форумы: Proxmox Виртуальная Среда, Proxmox Backup Server, Proxmox Mail Gateway, Proxmox Datacenter Manager
    Поиск  Пользователи  Правила  Войти
    Страницы: 1
    RSS
    Редкие сбои в резервном копировании, Proxmox Backup Server
     
    Zephrant
    Guest
    #1
    0
    15.11.2021 18:51:00
    У меня есть кластер, который делает бэкапы на выделенный сервер Proxmox Backup, обычно всё работает отлично. Из 54 ВМ, три — все с одного и того же узла — не смогли сохранить бэкап прошлой ночью:

    Код:  
    313: 2021-11-15 01:04:04 INFO: Начало резервного копирования ВМ 313 (qemu)  
    313: 2021-11-15 01:04:04 INFO: статус = running  
    313: 2021-11-15 01:04:04 INFO: Имя ВМ: spktest05  
    313: 2021-11-15 01:04:04 INFO: включён диск 'scsi0' 'spk-ceph-pool1:vm-313-disk-0' 32ГБ  
    313: 2021-11-15 01:04:04 INFO: режим бэкапа: snapshot  
    313: 2021-11-15 01:04:04 INFO: приоритет ionice: 7  
    313: 2021-11-15 01:04:04 INFO: создаётся архив Proxmox Backup Server 'vm/313/2021-11-15T09:04:04Z'  
    313: 2021-11-15 01:04:04 INFO: отправлена команда гостевому агенту 'fs-freeze'  
    313: 2021-11-15 01:06:09 INFO: отправлена команда гостевому агенту 'fs-thaw'  
    313: 2021-11-15 01:06:09 ERROR: ВМ 313 команда qmp 'backup' не сработала — истёкло время ожидания  
    313: 2021-11-15 01:06:09 INFO: прерывание задания бэкапа  
    313: 2021-11-15 01:06:22 INFO: ВМ снова возобновлена  
    313: 2021-11-15 01:06:22 ERROR: Не удалось сделать бэкап ВМ 313 — команда qmp 'backup' не сработала — истёкло время ожидания

    Ещё 10 ВМ с того же узла бэкапились без проблем, как до сбоя, так и после. У меня 12 узлов делают бэкапы, всего 60 ВМ и LXC. Сервер бэкапов — выделенный корпус Supermicro с двумя 40гб сетевыми картами, сейчас занято всего 2.5% места на диске. Подобные сбои бывают время от времени, но корень проблемы пока не нашёл.

    Есть ли способ настроить повторную попытку бэкапа при ошибке? Может, кто-то подскажет, как копать и отлаживать эту проблему?
     
     
     
    Zephrant
    Guest
    #2
    0
    31.12.2021 17:38:00
    Я так и не нашёл, как увеличить тайм-аут. Но это начинает серьёзно беспокоить. Почти каждую ночь у меня несколько ВМ не проходят резервное копирование.  
    420    VM 420    FAILED    00:00:00    нельзя открыть файл '/etc/pve/nodes/test-prox-n101/qemu-server/420.conf.tmp.729468' - Устройство или ресурс заняты  
    902    VM 902    FAILED    00:00:00    нельзя открыть файл '/etc/pve/nodes/test-prox-n101/qemu-server/902.conf.tmp.729468' - Устройство или ресурс заняты  
    903    VM 903    FAILED    00:00:00    нельзя открыть файл '/etc/pve/nodes/test-prox-n101/qemu-server/903.conf.tmp.729468' - Устройство или ресурс заняты  

    Все три ВМ при этом выключены. Нет никаких причин, почему бы при резервном копировании возникали проблемы, но регулярно процесс подвисает, и их приходится утром вручную разблокировать.  
    Только что обновил Backup до версии 2.1-2, но проблема осталась. Ноды работают на pve-manager/7.1-8/5b267f33.
     
     
     
    Zephrant
    Guest
    #3
    0
    20.01.2022 00:34:00
    Похоже, что все узлы делают резервное копирование одновременно. Есть ли какой-то способ распределить процессы, чтобы узлы работали по очереди? Это не гонка, мне все равно, сколько это займет времени, лишь бы уложиться в несколько часов.
     
     
     
    fabian
    Guest
    #4
    0
    20.01.2022 12:00:00
    Ваш кластер Ceph и Corosync используют одни и те же физические каналы связи? Потому что это сообщение говорит о том, что corosync/pmxcfs перешёл в режим только для чтения, скорее всего из-за повышенной нагрузки на ваш кластер Ceph из-за резервного копирования.
     
     
     
    Zephrant
    Guest
    #5
    0
    20.01.2022 17:59:00
    У каждого узла кластера есть по два 40G канала к двум коммутаторам в трэнке. Резервный сервер подключён двумя 10G каналами, поэтому его могут «завалить» сразу 12 высокопроизводительных узлов, делающих резервное копирование одновременно. CEPH работает на VLAN в том же трэнке, что и резервное копирование, но на другой VLAN. Есть советы, как замедлить процесс резервного копирования? Можно снизить скорость на резервном сервере до 1G...
     
     
     
    fabian
    Guest
    #6
    0
    21.01.2022 09:31:00
    Нет, проблема в том, что общие каналы для ceph и corosync... нагрузка на первый вызовет сбои у второго (а если у вас настроен HA, то сбой означает, что узлы и их гостевые системы будут заблокированы!).
     
     
     
    Zephrant
    Guest
    #7
    0
    21.01.2022 20:54:00
    Email: 430    test1    НЕУДАЧА    00:02:33    VM 430 команда qmp 'backup' завершилась ошибкой — таймаут. С резервного сервера: 2022-01-21T01:05:38-08:00: запуск нового бэкапа на хранилище 'store1': "vm/430/2022-01-21T09:07:33Z" 2022-01-21T01:05:38-08:00: загрузка 'index.json.blob' из предыдущего бэкапа. 2022-01-21T01:05:45-08:00: регистрация блоков в 'drive-scsi0.img.fidx' из предыдущего бэкапа. 2022-01-21T01:05:45-08:00: загрузка 'drive-scsi0.img.fidx' из предыдущего бэкапа. 2022-01-21T01:05:46-08:00: создан новый фиксированный индекс 1 ("vm/430/2022-01-21T09:07:33Z/drive-scsi0.img.fidx") 2022-01-21T01:06:10-08:00: регистрация блоков в 'drive-scsi1.img.fidx' из предыдущего бэкапа. 2022-01-21T01:06:10-08:00: загрузка 'drive-scsi1.img.fidx' из предыдущего бэкапа. 2022-01-21T01:07:46-08:00: создан новый фиксированный индекс 2 ("vm/430/2022-01-21T09:07:33Z/drive-scsi1.img.fidx") 2022-01-21T01:08:10-08:00: добавлен blob "/mnt/datastore/storage/vm/430/2022-01-21T09:07:33Z/qemu-server.conf.blob" (366 байт, сжатие: 366) 2022-01-21T01:08:10-08:00: бэкап завершился, но с ошибкой: бэкап закончился, но флаг завершения не установлен. 2022-01-21T01:08:10-08:00: удаление незавершённого бэкапа. 2022-01-21T01:08:10-08:00: ОШИБКА ЗАДАЧИ: бэкап закончился, но флаг завершения не установлен. Есть ли способ приоритетизировать трафик, чтобы это не было проблемой из-за общих каналов? Для отказоустойчивости не хочу выделять один из двух своих каналов под CEPH, и других двух каналов у меня просто нет.
     
     
     
    fabian
    Guest
    #8
    0
    24.01.2022 08:33:00
    Ну, можно попробовать, в зависимости от того, какое сетевое оборудование используешь (трафик corosync идет только по определённым портам), но в идеале нужны выделенные каналы с низкой задержкой.
     
     
     
    Страницы: 1
    Читают тему
    +7 (495) 320-70-49
    info@proxmox.su

    Конфиденциальность Оферта
    © 2026 Proxmox.su
    Главная Каталог 0 Корзина 0 Избранные Кабинет 0 Сравнение Акции Контакты Услуги Бренды Отзывы Компания Лицензии Документы Реквизиты Поиск Блог Обзоры