Jump to content

Recommended Posts

Добрый день!

Есть два HW2000 Q3 собранные в кластер. Работали на 3й версии, обновили их до 4й (4.2.0-1112). Они проработали без проблем примерно неделю, а потом произошло спонтанное отключение электроэнергии. После восстановления питания HW начали спонтанно перезагружаться. Подумали может что-то "наелось" в кластере (хотя явных следов этому нет), отключили passive - не помогло, active все равно так же спонтанно перезагружается. Ладно, может что-то случилось с ним, выключаем его и загружаем второй - ситуация ни как не меняется, все равно спонтанная перезагрузка. Причем что самое - в rebootlog ни строчки, то есть причина перезагрузки непонятна совсем. Делали логгирование на удаленный хост - то же самое, идут строчки вида

Sep 21 14:54:56 hw2000-tagil-node2 iplircfg[5033]: [09-21 14:54:56] UdbDispatcher::Dispatch: command 201, GET_IFSTAT 
Sep 21 14:54:56 hw2000-tagil-node2 iplircfg[5033]: [09-21 14:54:56] UdbManager::DispatchCommand: [0x7f9b6f7fdb80] Command 201 processing complete on fd 58 
Sep 21 14:54:56 hw2000-tagil-node2 iplircfg[5033]: [09-21 14:54:56] UdbManager::DispatchCommand: [0x7f9b6f7fdb80] Command 201 processing start on fd 58 
Sep 21 14:54:56 hw2000-tagil-node2 iplircfg[5033]: [09-21 14:54:56] UdbDispatcher::Dispatch: command 201, GET_IFSTAT 
Sep 21 14:54:56 hw2000-tagil-node2 iplircfg[5033]: [09-21 14:54:56] UdbManager::DispatchCommand: [0x7f9b6f7fdb80] Command 201 processing complete on fd 58 

потом тишина на несколько минут и строчки загрузки системы. Что это может быть, как определить в чем проблема? Уже всю голову сломали.

 

Share this post


Link to post
Share on other sites

Вообще обрыв лога обычно говорит о проблеме питания. Особенно учитывая то, что проблемы с питанием как раз послужили активатором. Спонтанные перезагрузки с какой-то регулярностью происходят или совсем рандомно? Предлагаю, взять одну ноду в файловер конфе выставить test лупбэком(если сейчас не стоит) и просто подключить в розетку какую-нибудь, ничего не коммутировать и посмотреть будут ли ребуты.

Share this post


Link to post
Share on other sites

То есть одновременно на двух железках сдохли БП? Конечно допускаю, но все же очень сомнительно. Перезагрузки совсем спонтанные, может 3 часа проработать, а может и через 15 минут перезагрузиться, но в среднем около часа находится в рабочем состоянии. В файловере уже и так test лупбэком. Более того - failover stop даже сказано, и в [misc] reboot = no

 

Share this post


Link to post
Share on other sites

На обычном ПК такое поведение часто говорит как раз о проблемах с блоком питания. Тем более соответствующие настройки про перезапуск отключены. А учитывая, что ПАК по сути и есть ПК, хоть и "телекоммуникационный сервер", проблема вполне может быть в блоке питания.

Share this post


Link to post
Share on other sites

Мужики, я не отрицаю что на обоих ПАК могли сдохнуть БП одновременно. Мне больше для себя понять, ничего ли я не упустил в диагностике?

1) Физически выключил один координатор, на втором отключил failover с помощью failover stop

2) После перезагрузки смотрю информацию в everything.log и rebootlog

Может что-то еще можно сделать?

Share this post


Link to post
Share on other sites
11 часов назад, borisk_1976 сказал:

То есть одновременно на двух железках сдохли БП? Конечно допускаю, но все же очень сомнительно. Перезагрузки совсем спонтанные, может 3 часа проработать, а может и через 15 минут перезагрузиться, но в среднем около часа находится в рабочем состоянии. В файловере уже и так test лупбэком. Более того - failover stop даже сказано, и в [misc] reboot = no 

 

уже не раз было оговорено на форуме, что reboot = no  не спасёт Вас от перезагрузок кластера или ноды. читайте документацию. А логи лучше техподдержке на анализ предоставить. Там эксперты быстрее разберуться, что у них там в логе пишется

Share this post


Link to post
Share on other sites

azz, вы про это? "В случае сбоев, критичных для работоспособности ПО ViPNet на активном сервере, пассивный сервер переключается в активный режим для выполнения

функций сбойного сервера. При этом сбойный сервер перезагружается и становится пассивным." Если нет, то можно пояснить о чем?

 

Было бы здорово еще понять что за критичные случаи.

Share this post


Link to post
Share on other sites

Для тех кому лень поискать самому:

reboot — задает действия системы в случае обнаружения полной неработоспособности какого-либо демона или драйвера ViPNet Coordinator HW. Возможные значения:
o yes (по умолчанию) — включить механизм регистрации в watchdog-драйвере и перезагружать систему, если какой-либо демон или драйвер не может восстановить свою работу;
o no — выключить механизм регистрации в watchdog-драйвере и не перезагружать систему, если какой-либо демон или драйвер не может восстановить свою работу.

 

 

26 минут назад, borisk_1976 сказал:

Было бы здорово еще понять что за критичные случаи. 

Например не доступен testip - что свидельствует, что есть проблемы в канале, выход из строя активной ноды

Share this post


Link to post
Share on other sites

azz, я это знаю и читал, и как указано у меня выше, reboot = no стоит. Вы же пишите "Уже не раз было оговорено на форуме, что reboot = no  не спасёт Вас от перезагрузок кластера или ноды. читайте документацию". Вот я и спрашиваю - где в документации написано что не спасёт? Ткните носом, пожалуйста, меня ленивого. Так же я выше писал, что _все_ testip указаны 127.0.0.1. loopback недоступен? ну я тогда не знаю.... Не говоря уже о том, что failover stop сделано

 

Share this post


Link to post
Share on other sites
Только что, borisk_1976 сказал:

azz, я это знаю и читал, и как указано у меня выше, reboot = no стоит. Вы же пишите "Уже не раз было оговорено на форуме, что reboot = no  не спасёт Вас от перезагрузок кластера или ноды. читайте документацию". Вот я и спрашиваю - где в документации написано что не спасёт? Ткните носом, пожалуйста, меня ленивого. Так же я выше писал, что _все_ testip указаны 127.0.0.1. loopback недоступен? ну я тогда не знаю....

 

Вы не знаете из-за чего происходят перезагрузки. reboot = no не поможет, если у Вас нет проблем с демонами или драйверами(а судя по перезагрузкам - не помогло). Здесь нет экспертов, чтобы ответить Вам в чём может быть дело в такой ситуации. У Вас единственный выход обратиться в ТП, если контракт есть, конечно. А так, можете перепрошить устройства и заново всё собрать.

Share this post


Link to post
Share on other sites

azz, понятно. Большей части мои вопросы касались не "объясните почему так", а "все ли я сделал для того чтобы диагностировать проблему, или есть еще какие-то варианты"

ТП многозначительно молчит уже сутки, а система перезагружается. Да, и тут действительно дилемма, пересобрать все с нуля и (возможно), проблема уйдет и ТП потеряет бесценный опыт, либо бесценный опыт шаманства приобрету я.

Share this post


Link to post
Share on other sites
1 минуту назад, borisk_1976 сказал:

azz, понятно. Большей части мои вопросы касались не "объясните почему так", а "все ли я сделал для того чтобы диагностировать проблему, или есть еще какие-то варианты"

ТП многозначительно молчит уже сутки, а система перезагружается. Да, и тут действительно дилемма, пересобрать все с нуля и (возможно), проблема уйдет и ТП потеряет бесценный опыт, либо бесценный опыт шаманства приобрету я.

Если логи предоставили, скорее всего они на анализе у экспертов, иногда, к сожалению, это занимает время.

Share this post


Link to post
Share on other sites
3 часа назад, borisk_1976 сказал:

Может что-то еще можно сделать?

Я Вам уже посоветовал, возьмите одну ноду, никуда не коммутируйте, подключите в другую розетку и понаблюдайте. Если возникнет случайный ребут, значит проблема в БП, так как никаких процессов на этой ноде происходить не будет.

Share this post


Link to post
Share on other sites

В общем никакой магии. Что-то наелось в APCшном блоке розеток и он вот так вот спонтанно лишал координаторы электричества. Про то, что оба координатора запитаны с одного блока я техникам уже высказал :)

 

Share this post


Link to post
Share on other sites
55 минут назад, borisk_1976 сказал:

В общем никакой магии. Что-то наелось в APCшном блоке розеток и он вот так вот спонтанно лишал координаторы электричества. Про то, что оба координатора запитаны с одного блока я техникам уже высказал :)

 

А Вы в демонах и драйверах проблему искали :)

Share this post


Link to post
Share on other sites

Потому что весь инет пестрит сообщениями "vipnet координаторы перезагружаются", да и в самой доке на vipnet тоже есть пункт "проверьте, в течение 10 минут, что координаторы самовольно не перезагружаются" :)

 

Share this post


Link to post
Share on other sites
В 26.09.2018 в 11:31, borisk_1976 сказал:

Про то, что оба координатора запитаны с одного блока я техникам уже высказал

Это не им надо а начальству, не раз было как начинаешь говорить как надо 2 АПС и.... а потом получаешь - ненене это дорого.. так что служебку начальству, пусть один раз останутся без отпуска :rolleyes:

Share this post


Link to post
Share on other sites

Create an account or sign in to comment

You need to be a member in order to leave a comment

Create an account

Sign up for a new account in our community. It's easy!

Register a new account

Sign in

Already have an account? Sign in here.

Sign In Now

×

Important Information

By using this site, you agree to our Terms of Use.