We're monitoring a local Jetty (Java webserver) process using an application status page. When everything's going well, it includes the string "OK", which we check for. This should be a clearly successful status test.<br>
<br>When everything's not going well, we get some sort of 4xx or 5xx error message. This should trigger alerts immediately.<br><br>When some things are going well and others aren't fully up to speed (slow database), we'll get a "DATABASE_TEST_RAN_LONG", which isn't ideal, but at least for a few occurances (n <= 5) we can live with.  In particular, we DON'T want a single result sounding off pagers in the middle of the night.<br>
<br>The current test looks like:<br><br>define command{<br>        command_name    check_jetty<br>        command_line    /usr/lib/nagios/plugins/check_http -H '$HOSTADDRESS$' -u /serviceStatus -e 200 -s OK<br>        }<br>
<br>What would be a sane process of getting Nagios to:<br><br> - Report all clear when we get a 200 status and "OK" text on page?<br> - Wait for 6 consecutive instances of "DATABASE_TEST_RAN_LONG" before alerting for that result.<br>
 - Alert immediately on any cases not matching one of the above?<br><br>I don't believe we can capture this in a single test unless I'm missing something.<br><br>Thanks in advance.<br><br>-- <br>Dr. Ed Morbius<br>
Chief Scientist<br>Krell Power Systems Unlimited<br>