Yey !! That totally did it. Thx AZ I hadn't even considered messing with the resolver cuz I was sure it was a nagios issue so I had to fix nagios.<br>If that wasn't a text book example of how well mailinglists can work then I don't know what is...
<br><br>thx<br><br><div><span class="gmail_quote">On 11/7/06, <b class="gmail_sendername">Az</b> <<a href="mailto:az@whoever.org">az@whoever.org</a>> wrote:</span><blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">
stucky wrote:<br>> I use the check_by_ssh plugin for most of my stuff and I noticed that<br>> if the primary nameserver is unavailable nagios starts freaking out.<br>> All of a sudden all plugins time out. I tested it using the 'host'
<br>> command and it only takes about 1 second longer to lookup hosts using<br>> the secondary nameserver.<br>> The default timeout for check_by_ssh is 10 seconds. I cranked it up to<br>> 30 and still I get timeouts. I'm not sure I understand that one.
<br>> Has anyone else seen this.<br>We had a similar issue in that our primary DNS was doing strange things,<br>and it quite often took 5 or even 10 seconds to perform a DNS lookup.<br>What we were seeing was 70% of service checks (and subsequently host
<br>checks) failing by timing out. The key was the multiple of 5 seconds.<br>The resolver timeout on, say, RHEL3 is based on RES_TIMEOUT in<br>resolv.h... which was 5 seconds.<br><br>We added the following to our resolv.conf
, and found the problems went away:<br><br>    options timeout:2 rotate<br><br>This sets the timeout for waiting for a reply to 2 seconds, and tells<br>the resolve to rotate through your 'nameserver' entries rather than<br>
always hitting #1, then #2, etc.<br><br>Cheers.<br><br><br><br><br></blockquote></div><br><br clear="all"><br>-- <br>stucky