Greetings of the day,<br><br>We are trying to figure a reliable Uptime monitoring solution.  Sometimes the server reboots too fast, within the limits of check_interval and max_check_attempts, that Nagios misses to generate an alert.  Which sometimes create a chaos and makes people lose faith in Nagios (no flame wars please).<br>
<br>We have tried different solutions over the months and here are some findings.<br><br>SNMPtraps sounds good but it has it's own cons and added complexity, so no thanks<br><a href="http://nagios.frank4dd.com/howto/windows-reboot-monitoring-nagios.htm">http://nagios.frank4dd.com/howto/windows-reboot-monitoring-nagios.htm</a><br>
<br>SNMP is out of question.  A good read for people relying on net-snmp for uptime:<br><a href="http://www.mail-archive.com/net-snmp-users@lists.sourceforge.net/msg27570.html">http://www.mail-archive.com/net-snmp-users@lists.sourceforge.net/msg27570.html</a><br>
<br>We rolled out NRPE for uptime and other monitoring requirements.  NRPE is awesome but to avoid raising too many alerts we made Uptime checks dependant upon NRPE (connection).  Now this creates it's own problems while the server is rebooting.  On a rainy day there would be two alerts - NRPE connection refused and then host going down, considering the fact that it takes server a while before it shuts down all services before going down itself.  However, on a snowy day there would be three alerts - NRPE connection refused then server going down and later Uptime threshold is less than (n) minutes.<br>
<br>SSH checks including all of them above are too bound to failure when the server is under heavy load and not honouring any external requests, I am sure most of us have witnessed that.<br><br>So I was wondering how is everyone reliably checking and notifying the intended audience of server reboots with high rate of success.<br>
<br>Can we please use this thread to develop a robust uptime check model, if there isn't one already?<br><br>Many thanks for your time.<br><br>Regards,<br>Ashish Kumar<br>  <br>  <br><br>