Also, you might want to find out the performance of your service checks.<br><br>The nagios profiler is a very good tool to find execution time of individual services. <div><br><div><a href="http://exchange.nagios.org/directory/Plugins/Network-and-Systems-Management/Nagios/Profiler-to-check-plugin-execution-time/details">http://exchange.nagios.org/directory/Plugins/Network-and-Systems-Management/Nagios/Profiler-to-check-plugin-execution-time/details</a><div>
<br><div class="gmail_quote">On Mon, Jun 11, 2012 at 12:40 PM, Giorgio Zarrelli <span dir="ltr"><<a href="mailto:zarrelli@linux.it" target="_blank">zarrelli@linux.it</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
Hi,<br>
<br>
I suggest to review your installation. Try with the large installation<br>
tweaks <a href="http://nagios.sourceforge.net/docs/3_0/largeinstalltweaks.html" target="_blank">http://nagios.sourceforge.net/docs/3_0/largeinstalltweaks.html</a>.<br>
<br>
Then, check whether you need all your checks at 5 mins or you can move<br>
some of them to 10 mins pace.<br>
<br>
Then, review your check plugins: Perl plugins eat more memory and CPU<br>
cycles then C compiled checks. If they support EPN<br>
<a href="http://nagios.sourceforge.net/docs/3_0/embeddedperl.html" target="_blank">http://nagios.sourceforge.net/docs/3_0/embeddedperl.html</a>, use it, it makes<br>
your plugin faster and lighter.<br>
<br>
Then, check your checks. Some checks return data slower then others. Let's<br>
say, SNMP checks are not lightning fast.<br>
<br>
Then, check your graphs. Graphing perfdata takes CPU cycles and uses<br>
memory. Do you need all your graphs?<br>
<br>
Then, get rid of NDOUtils. They are chocking all the way, not efficient,<br>
clumsy, old and heavy. If you want to store your data in MySQL, use Merlin<br>
instead.<br>
<br>
Anyway, did you tune your MySQL? Is it causing too much I/O? Is it<br>
munching too much RAM or CPU cycles?<br>
<br>
Did you tune your Apache or http server? Does it cope with your needs? Is<br>
it munching too much RAM or CPU cycles?<br>
<br>
If you want live infos about your hosts and services, let's say to use<br>
with Navis, grab MKlive: it's blazing fast and gives you access to the<br>
core Nagios process.<br>
<br>
Are you using a virtualized environment? If so, remember that I/O layer in<br>
virtualized environments has a poor performance, use fast and real disks<br>
and your I/O will drop dramatically.<br>
<br>
Try to move status.dat to /dev/shm. The latter is a ram disk ready to use<br>
and writing in ram is always faster then writing on disk.<br>
<br>
Avoid logging too much, it increases I/O and takes CPU and RAM.<br>
<br>
What iotop and iostat are telling you?<br>
<br>
What do you see in top or htop?<br>
<br>
If you can or wish, compile all from sources, it will go faster on your<br>
system.<br>
<br>
You can use passive checks with NSCA or NRDP to reduce load, even though I<br>
do not like them a lot.<br>
<br>
These are just few ideas that came to my mind.<br>
<br>
<br>
Let's talk about sharing load.<br>
<br>
You can use different methods:<br>
<br>
Merlin<br>
(<a href="http://www.op5.org/community/plugin-inventory/op5-projects/merlin" target="_blank">http://www.op5.org/community/plugin-inventory/op5-projects/merlin</a>): gives<br>
you loadbalancing and redundancy. I use it for Ninja, never used for load<br>
balancing and redundancy.<br>
<br>
DNX (<a href="http://dnx.sourceforge.net/" target="_blank">http://dnx.sourceforge.net/</a>): Something new, it's gaining momentum,<br>
good to offload the checks. Worth to give a try.<br>
<br>
Mod_gearman (<a href="http://labs.consol.de/lang/de/nagios/mod-gearman/" target="_blank">http://labs.consol.de/lang/de/nagios/mod-gearman/</a>): Love at<br>
first site :-) Easy, powerful, load balancing and fault tolerant. Compile<br>
gearmand with memcached support and all the result checks will go directly<br>
to ram, avoiding I/O on disk. It's really simple to setup, if one of the<br>
workers go down, the others will share its work. Be careful: security is a<br>
problem, there is not a good auth system, but using a VPN will solve the<br>
problem. Efficient, I use a virtual machine with 2 cores and 2 gb of ram<br>
to make about 5K checks. And the load is not a concern. You need more<br>
horse power? Add a worker. You have some checks timing out due to poor<br>
connections to the targets? Put a worker close to the target, but be<br>
careful, the timing, let's say the rta of a ping, will be from the worker<br>
perspective.<br>
<br>
Well, hope it helps.<br>
<div class="HOEnZb"><div class="h5"><br>
<br>
<br>
<br>
<br>
<br>
<br>
<br>
<br>
<br>
------------------------------------------------------------------------------<br>
Live Security Virtual Conference<br>
Exclusive live event will cover all the ways today's security and<br>
threat landscape has changed and how IT managers can respond. Discussions<br>
will include endpoint security, mobile security and the latest in malware<br>
threats. <a href="http://www.accelacomm.com/jaw/sfrnl04242012/114/50122263/" target="_blank">http://www.accelacomm.com/jaw/sfrnl04242012/114/50122263/</a><br>
_______________________________________________<br>
Nagios-users mailing list<br>
<a href="mailto:Nagios-users@lists.sourceforge.net">Nagios-users@lists.sourceforge.net</a><br>
<a href="https://lists.sourceforge.net/lists/listinfo/nagios-users" target="_blank">https://lists.sourceforge.net/lists/listinfo/nagios-users</a><br>
::: Please include Nagios version, plugin version (-v) and OS when reporting any issue.<br>
::: Messages without supporting info will risk being sent to /dev/null<br>
</div></div></blockquote></div><br></div></div></div>