<br><br><div class="gmail_quote">2009/7/14 Marc Powell <span dir="ltr"><<a href="mailto:marc@ena.com">marc@ena.com</a>></span><br><blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">
<div class="im"><br>
On Jul 14, 2009, at 9:46 AM, Paul Corcoran wrote:<br>
<br>
> HI,<br>
><br>
> I run a distributed Nagios environment consisting of 1 parent server<br>
> and 2 child servers.<br>
><br>
> The child servers perform all the service checking while the parent<br>
> server should be performing active service checks.<br>
<br>
</div>Both the child server and the central server are performing active<br>
<div class="im">service checks?</div></blockquote><div><br>Only the child servers are performing active service checks. The parent server will check services only after the freshness threshold of 15 minutes has passed<br>
 </div><blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;"><div class="im"><br>
<br>
> The host definitions are configured to perform host checks every 5<br>
> minutes. The retry interval is 1 minute and the max attempts is set<br>
> to 5.<br>
<br>
</div>On both or are you submitting passive host checks or are you expecting<br>
the central machine to initiate it's own active checks of hosts?</blockquote><div><br>At the moment I'm expecting the parent server to perform it's own active host checks<br> </div><blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">
<br>
<div class="im"><br>
> We are monitoring 580 hosts and approx 4000 services.<br>
><br>
> I noticed when a host down was detected the parent server did not<br>
> perform any retries of the host. This led to the status of the host<br>
> being stuck in a SOFT state and therefore no alerts were sent out as<br>
> required. I noticed that the child server performed the host checks<br>
> without any problem and the host was logged as being in a HARD down<br>
> state after 5 failed attempts.<br>
<br>
</div>I'm not sure what configuration you could have that would lead to<br>
this. Can you post the host{} definition and any relevant log entries?<br>
Are you only sending a single passive host result and have<br>
'passive_host_checks_are_soft' set in nagios.cfg?</blockquote><div><br>define host{<br>        host_name               test_www01<br>        alias                   test www01 Server<br>        address                 x.x.x.x<br>
        check_command           check-host-alive<br>        check_interval          5<br>        retry_interval          1<br>        max_check_attempts      5<br>        check_period            24x7<br>        notification_interval   60<br>
        notification_period     24x7<br>        notification_options    d,u,r<br>        contact_groups          ops<br>}<br><br>If this host goes down the parent server notices this and records a soft state. There was nothing in the logs indicating any retries. The child server did the requisite recheck at the appropriate intervals and flagged the state as HARD after the 5th failure.<br>
 </div><blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;"><br>
<div class="im"><br>
> Is there a specific variable in nagios.cfg that explicitly tells the<br>
> server to perform active checks?<br>
<br>
</div>There are a few --<br>
        - in nagios.cfg - execute_host_checks=<0/1><br>
        - in your host definition - active_checks_enabled [0/1], an<br>
appropriate check_period, check_interval and retry_interval set and an<br>
appropriate check_command set.</blockquote><div><br>execute_host_checks=1 is in the nagios.cfg file. <br></div><blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">
<br>
<div class="im"><br>
> Is it best practice to have the 2 child servers perform passive host<br>
> checks?<br>
<br>
</div>I have no opinion on this other that to say that if you trust the<br>
remote nagios' to correctly report on services, they can usually be<br>
trusted to correctly report on hosts.<br>
<div class="im"><br>
> Is it possible that processing all the passive service check info is<br>
> causing the parent server to lag behind in it's own process queue?<br>
<br>
</div>Not likely, IMHO, assuming you're using somewhat modern hardware. You<br>
can see for sure under Performance Info though. Look for high<br>
latencies (minutes)... This is a measure of how long after a check was<br>
scheduled to run that it actually it ran.</blockquote><div><br>The average latency at the moment for active hosts checks is 145645 seconds. This seems very excessive and there would appear to be a bottleneck somewhere that's causing this.<br>
<br>I think I'll probably have to go with passive hosts checks at this stage but it would be nice to know why this situation is occurring.<br><br>Thanks,<br><br>Paul<br> </div><blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">
<br>
<br>
--<br>
Marc<br>
<br>
<br>
------------------------------------------------------------------------------<br>
Enter the BlackBerry Developer Challenge<br>
This is your chance to win up to $100,000 in prizes! For a limited time,<br>
vendors submitting new applications to BlackBerry App World(TM) will have<br>
the opportunity to enter the BlackBerry Developer Challenge. See full prize<br>
details at: <a href="http://p.sf.net/sfu/Challenge" target="_blank">http://p.sf.net/sfu/Challenge</a><br>
_______________________________________________<br>
Nagios-users mailing list<br>
<a href="mailto:Nagios-users@lists.sourceforge.net">Nagios-users@lists.sourceforge.net</a><br>
<a href="https://lists.sourceforge.net/lists/listinfo/nagios-users" target="_blank">https://lists.sourceforge.net/lists/listinfo/nagios-users</a><br>
::: Please include Nagios version, plugin version (-v) and OS when reporting any issue.<br>
::: Messages without supporting info will risk being sent to /dev/null<br>
</blockquote></div><br>