<HTML dir=ltr><HEAD><TITLE>Re: [Nagios-users] Problem with OCP_daemon in distributes environment</TITLE>
<META content="text/html; charset=unicode" http-equiv=Content-Type>
<META name=GENERATOR content="MSHTML 9.00.8112.16430"></HEAD>
<BODY>
<DIV dir=ltr id=idOWAReplyText65269>
<DIV dir=ltr><FONT color=#000000 size=2 face=Arial>Hello Craig,</FONT></DIV>
<DIV dir=ltr><FONT size=2 face=Arial></FONT> </DIV>
<DIV dir=ltr><FONT size=2 face=Arial>First of all thanks for the fast response.</FONT></DIV>
<DIV dir=ltr><FONT size=2 face=Arial>Maybe i need to clear things out a bit more to why ACTIVE checks are happening on the central server.</FONT></DIV>
<DIV dir=ltr><FONT size=2 face=Arial>We have a distributed setup with a central machine in DMZ reachable for all remote nagios machines we have out there.</FONT></DIV>
<DIV dir=ltr><FONT size=2 face=Arial>One of those is the LAN machine i mentioned where OCP_daemon was setup today.</FONT></DIV>
<DIV dir=ltr><FONT size=2 face=Arial>The central Nagios machine in DMZ should/must perform active checks of all our equipment in the same DMZ, the others hosts only send passive data.</FONT></DIV>
<DIV dir=ltr><FONT size=2 face=Arial>The DMZ machine cannot perform ACTIVE checks on the services monitored by 1 or more of the remote machines.</FONT></DIV>
<DIV dir=ltr><FONT size=2 face=Arial>So, this is why there is a problem when the central server does not perform it's own checks.</FONT></DIV>
<DIV dir=ltr><FONT size=2 face=Arial></FONT> </DIV>
<DIV dir=ltr><FONT size=2 face=Arial>I've been testing around with repear frequencies on the central server because i saw reaper frequency exceeded messages in the nagios.debug (-1) output.</FONT></DIV>
<DIV dir=ltr><FONT size=2 face=Arial>These now stay away but the result is still te same.</FONT></DIV>
<DIV dir=ltr><FONT size=2 face=Arial>Also lowered the frequency of all template related check_interval's on the OCP_daemon remote machine but that does not help either.</FONT></DIV>
<DIV dir=ltr><FONT size=2 face=Arial></FONT> </DIV>
<DIV dir=ltr><FONT size=2 face=Arial>If you have any more suggestions, please let me know.</FONT></DIV>
<DIV dir=ltr><FONT size=2 face=Arial></FONT> </DIV>
<DIV dir=ltr><FONT size=2 face=Arial>Regards,</FONT></DIV>
<DIV dir=ltr><FONT size=2 face=Arial></FONT> </DIV>
<DIV dir=ltr><FONT size=2 face=Arial>Michel</FONT><BR></DIV>
<DIV dir=ltr>
<HR tabIndex=-1>
</DIV>
<DIV dir=ltr><FONT size=2 face=Tahoma><B>Van:</B> Craig Stewart [mailto:Craig.Stewart@corp.xplornet.com]<BR><B>Verzonden:</B> di 16-8-2011 21:47<BR><B>Aan:</B> Nagios Users List<BR><B>CC:</B> michel.vdv@wxs.nl<BR><B>Onderwerp:</B> Re: [Nagios-users] Problem with OCP_daemon in distributes environment<BR></FONT><BR></DIV></DIV>
<DIV>
<P><FONT size=2>Michel,<BR><BR>I just did the same thing for my set up and I didn't see this issue.<BR>That being said, I don't *want* the central master to execute service<BR>checks at all unless it's stale.<BR><BR>What may be happening is that the remote passive check may be getting<BR>inserted while the system is waiting to execute the next check.  This is<BR>probably resetting the clock as it were and the count down starts over.<BR><BR>For example:<BR><BR>- NOW is an arbitrary point in time.<BR>- Nagios schedules the check to be executed at NOW + 5 min. (recheck<BR>interval)<BR>- The passive check comes in at NOW + 3 min.  Nagios resets the clock to<BR>NOW + 3 min + check interval.<BR><BR>If the remote is submitting checks at a frequency less than the<BR>central's recheck interval, I can see this happening.  The clock never<BR>runs out, unless the remote system doesn't submit a check.<BR><BR>A couple things to check are the check intervals on both the central and<BR>the probe, and if you can tolerate the  hit, shut down the probe and see<BR>if the central server starts executing checks on it's own.<BR><BR>I may be out in left field as well.<BR><BR>Cheers!<BR><BR>Craig<BR>--<BR>Craig Stewart<BR>Systems Integration Analyst<BR>Craig.Stewart@corp.xplornet.com<BR>Xplornet - Broadband, Everywhere<BR><BR>On 08/16/2011 04:22 PM, michel.vdv@wxs.nl wrote:<BR>> Dear readers,<BR>> <BR>> I have a strange problem related to the use of OCP_daemon.<BR>> I've implemented this today on a "remote" nagios machine responsible for<BR>> monitoring our LAN hosts.<BR>> Until now all messages and performance data was sent from that machine<BR>> to our Central Nagios machine via obsess_over_hosts and<BR>> obsess_over_services.<BR>> But because a lot of services on the remote host combined with relative<BR>> short check_interval periods caused high service and host check<BR>> latencies i've started looking for an alternative and read about OCP_daemon.<BR>> I followed the install instructions and sending data via OCP_daemon<BR>> works fine and very fast, also the remote nagios machine's latencies<BR>> stay low.<BR>> However, the central server stays processing all passive service and<BR>> host check results (also from other send_nsca based hosts) but no longer<BR>> executes it's own ACTIVE checks.<BR>> Is soon as i stop nagios on the remote monitor and restart nagios on the<BR>> central server it starts executing ACTIVE checks again.<BR>> The load on both servers remained about the same since OCP_daemon and<BR>> the only thing i noticed is that the number of buffers/slots used for<BR>> the external command file (nagios.cmd) on the central server<BR>> reaches rather higher values than before but no more than 30 - 40% of<BR>> the available 4096 slots.<BR>> <BR>> Please advice me.<BR>> <BR>> Michel<BR>> <BR>><BR>> --<BR>> This message has been scanned for viruses and<BR>> dangerous content by *MailScanner* <<A href="http://www.mailscanner.info/">http://www.mailscanner.info/</A>>, and is<BR>> believed to be clean.<BR></FONT></P></DIV></BODY></HTML>