sax Опубликовано 5 Октября 2020 Жалоба Поделиться Опубликовано 5 Октября 2020 Сегодня неожиданно с интервалом в 20 секунд перезагрузились сначала активное плечо кластера, затем и бывшее пассивное, которое только успело стать активным. В логах железок найдено следующее: Oct 5 19:59:26 BAH-FW-EXT2 failoverd[2450]: [10-05 19:59:26] active_failed: [cluster.cpp]: failure detected on interface eth0.608 Oct 5 19:59:26 BAH-FW-EXT2 failoverd[2450]: failure detected on interface eth0.608 Oct 5 19:59:26 BAH-FW-EXT2 failoverd[2450]: one or more subsystems failed, rebooting Oct 5 19:59:26 BAH-FW-EXT2 failoverd[2450]: Rebooted due to network error on eth0.608 at Mon Oct 5 19:59:26 2020 Oct 5 19:59:26 BAH-FW-EXT2 syslogd (GNU inetutils 1.9): restart Oct 5 19:59:46 BAH-FW-EXT1 failoverd[2485]: [10-05 19:59:46] active_failed: [cluster.cpp]: failure detected on interface eth0.606 Oct 5 19:59:46 BAH-FW-EXT1 failoverd[2485]: failure detected on interface eth0.606 Oct 5 19:59:46 BAH-FW-EXT1 failoverd[2485]: one or more subsystems failed, rebooting Oct 5 19:59:46 BAH-FW-EXT1 failoverd[2485]: Rebooted due to network error on eth0.606 at Mon Oct 5 19:59:46 2020 Oct 5 19:59:46 BAH-FW-EXT1 syslogd (GNU inetutils 1.9): restart Насколько удалось раскопать, данное сообщение появляется при сбое либо недоступности узла, описанного в testip секции channel файла настройки failover. Дело в том, что как раз во избежание незапланированных ребутов во всех параметрах testip файла failover прописано 127.0.0.1. Обе железки: Product: ViPNet Coordinator HW Platform: HW1000 Q3 License: HW1000 Software version: 4.2.0-1958 Кто-нибудь сталкивался с подобным? Куда копать, как исправлять? Цитата Ссылка на комментарий Поделиться на других сайтах Прочее
zero Опубликовано 6 Октября 2020 Жалоба Поделиться Опубликовано 6 Октября 2020 19 часов назад, sax сказал: Сегодня неожиданно с интервалом в 20 секунд перезагрузились сначала активное плечо кластера, затем и бывшее пассивное, которое только успело стать активным. В логах железок найдено следующее: Oct 5 19:59:26 BAH-FW-EXT2 failoverd[2450]: [10-05 19:59:26] active_failed: [cluster.cpp]: failure detected on interface eth0.608 Oct 5 19:59:26 BAH-FW-EXT2 failoverd[2450]: failure detected on interface eth0.608 Oct 5 19:59:26 BAH-FW-EXT2 failoverd[2450]: one or more subsystems failed, rebooting Oct 5 19:59:26 BAH-FW-EXT2 failoverd[2450]: Rebooted due to network error on eth0.608 at Mon Oct 5 19:59:26 2020 Oct 5 19:59:26 BAH-FW-EXT2 syslogd (GNU inetutils 1.9): restart Oct 5 19:59:46 BAH-FW-EXT1 failoverd[2485]: [10-05 19:59:46] active_failed: [cluster.cpp]: failure detected on interface eth0.606 Oct 5 19:59:46 BAH-FW-EXT1 failoverd[2485]: failure detected on interface eth0.606 Oct 5 19:59:46 BAH-FW-EXT1 failoverd[2485]: one or more subsystems failed, rebooting Oct 5 19:59:46 BAH-FW-EXT1 failoverd[2485]: Rebooted due to network error on eth0.606 at Mon Oct 5 19:59:46 2020 Oct 5 19:59:46 BAH-FW-EXT1 syslogd (GNU inetutils 1.9): restart Насколько удалось раскопать, данное сообщение появляется при сбое либо недоступности узла, описанного в testip секции channel файла настройки failover. Дело в том, что как раз во избежание незапланированных ребутов во всех параметрах testip файла failover прописано 127.0.0.1. Обе железки: Product: ViPNet Coordinator HW Platform: HW1000 Q3 License: HW1000 Software version: 4.2.0-1958 Кто-нибудь сталкивался с подобным? Куда копать, как исправлять? первое, что нужно сделать, перестать использовать прошивку с истекшим сертификатом и обновить на 4.2.1 Цитата Ссылка на комментарий Поделиться на других сайтах Прочее
sax Опубликовано 6 Октября 2020 Автор Жалоба Поделиться Опубликовано 6 Октября 2020 2 минуты назад, zero сказал: первое, что нужно сделать, перестать использовать прошивку с истекшим сертификатом и обновить на 4.2.1 Как только мне начальство купит техподдержку, всенепременно обновлюсь.) Цитата Ссылка на комментарий Поделиться на других сайтах Прочее
zero Опубликовано 6 Октября 2020 Жалоба Поделиться Опубликовано 6 Октября 2020 1 минуту назад, sax сказал: Как только мне начальство купит техподдержку, всенепременно обновлюсь.) Это Вы регулятору попробуйте объяснить Цитата Ссылка на комментарий Поделиться на других сайтах Прочее
sax Опубликовано 6 Октября 2020 Автор Жалоба Поделиться Опубликовано 6 Октября 2020 4 минуты назад, zero сказал: Это Вы регулятору попробуйте объяснить У нас ГИС пока без аттестата.) Цитата Ссылка на комментарий Поделиться на других сайтах Прочее
Vintik Опубликовано 6 Октября 2020 Жалоба Поделиться Опубликовано 6 Октября 2020 21 час назад, sax сказал: Сегодня неожиданно с интервалом в 20 секунд перезагрузились сначала активное плечо кластера, затем и бывшее пассивное, которое только успело стать активным. .... Кто-нибудь сталкивался с подобным? Куда копать, как исправлять? Сколько время они уже работали и без такого сбоя? Тут были уже подобные темы, но там такое или похожее, было буквально сразу при запуске. Цитата Ссылка на комментарий Поделиться на других сайтах Прочее
sax Опубликовано 7 Октября 2020 Автор Жалоба Поделиться Опубликовано 7 Октября 2020 13 часов назад, Vintik сказал: Сколько время они уже работали и без такого сбоя? Тут были уже подобные темы, но там такое или похожее, было буквально сразу при запуске. Сколько работали с последнего включения? Этот кластер с месяц примерно после планового останова. А так сбой впервые на 6 боевых кластеров и лет 5, наверное, как в failover везде прописали 127.0.0.1. Цитата Ссылка на комментарий Поделиться на других сайтах Прочее
Vintik Опубликовано 7 Октября 2020 Жалоба Поделиться Опубликовано 7 Октября 2020 Отлично! Значит те косяки о которых я думал к вам не должны относиться, там была скорее партия, как только так сразу начинались переключения, в вашем случае надо наверно понаблюдать логи, может просто разово мышка перегрузла провод и обойдётся. Цитата Ссылка на комментарий Поделиться на других сайтах Прочее
R.Sheyn Опубликовано 7 Октября 2020 Жалоба Поделиться Опубликовано 7 Октября 2020 Такое бывает на транках, когда линки гаснут, тогда он уходит в ребут даже если 127.0.0.1 прописано. разные номера вланов не должны смущать, когда падает транк, он ругается на первый попавшийся влан. Цитата Ссылка на комментарий Поделиться на других сайтах Прочее
sax Опубликовано 7 Октября 2020 Автор Жалоба Поделиться Опубликовано 7 Октября 2020 13 минут назад, R.Sheyn сказал: Такое бывает на транках, когда линки гаснут, тогда он уходит в ребут даже если 127.0.0.1 прописано. разные номера вланов не должны смущать, когда падает транк, он ругается на первый попавшийся влан. Спасибо, будем знать. Но на ответной циске, куда ПАК воткнут, порт не падал. Цитата Ссылка на комментарий Поделиться на других сайтах Прочее
Рекомендуемые сообщения
Присоединиться к обсуждению
Вы можете ответить сейчас, а зарегистрироваться позже. Если у вас уже есть аккаунт, войдите, чтобы ответить от своего имени.