Hi everybody,<br><br>Thank you very much. You are helping me a lot.<br><br>I´ve tried to implement the rrdcached and it seems that the PNP performance problem was solved. The perfdata files are not queuing any more. However I´m still testing it. Let us known the behavior along the time.<br>
<br>I forgot to say. My polling interval (hosts and services) is 15 minutes.<br><br>Andreas, you are right. It´s a big project and we intend in a new future hire a Nagios Support. Do you recommend one?<br><br>While this is not possible, anyone has a suggestion to solve the status.dat problem?<br>
<br>Just remember, the status.dat is too big (100 MB) and Tactical Overview is taking a long long time to run.<br><br>Thank you very much,<br>Rodney.<br><br><div class="gmail_quote">On Wed, Feb 3, 2010 at 6:06 AM, Andreas Ericsson <span dir="ltr"><<a href="mailto:ae@op5.se">ae@op5.se</a>></span> wrote:<br>
<blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;"><div class="im">On 02/02/2010 05:47 PM, Rodney Ramos wrote:<br>
> Hi everybody,<br>
><br>
> I´m using Nagios (3.2.0) to monitoring and colect perfomance data of 25.000<br>
> hosts, with 50.000 services.<br>
><br>
<br>
</div>That's quite a large environment. I think the brazilian government is<br>
monitoring a completely huge network as well.<br>
<div class="im"><br>
> I have two central machines (one for backup) and 10 distributed servers to<br>
> colect status and send them to the central servers.<br>
><br>
> It´s working but I´m having serious performance problems.<br>
><br>
> First the Tactical Overview on the central machines is taking almost 1<br>
> minute to refresh. I think that its because the status.dat file is too big<br>
> (almost 100 MB).<br>
><br>
<br>
</div>I'm not surprised. You'd probably want to get that data into a database to<br>
get some quick filtering on it.<br>
<div class="im"><br>
> Second, the adddon PNP 0.4.14 is taking a long time to process the<br>
> performance data files. These files are increasing faster than the capaciy<br>
> of <a href="http://process_perfdata.pl" target="_blank">process_perfdata.pl</a> script to process them.<br>
><br>
<br>
</div>I wouldn't use PNP on the same system as such a huge Nagios installation,<br>
to be honest. A separate system with a flushing/caching daemon piping<br>
output directly to a single instance of <a href="http://process_perfdata.pl" target="_blank">process_perfdata.pl</a> would be far<br>
better. I don't know if <a href="http://process_perfdata.pl" target="_blank">process_perfdata.pl</a> has to be hacked to accept<br>
input on stdin, but I can't imagine that would be very difficult. Then<br>
it's just a matter of flushing the performancedata files to that running<br>
instance. A really small daemon program could easily handle that if the<br>
performance data processor script just renames the perfdata file to<br>
something unique.<br>
<div class="im"><br>
><br>
> Can anyone help me to improve the performance of Nagios and PNP to this<br>
> enviroment?<br>
><br>
<br>
</div>Yes, but it sounds like an awful lot of work that I'm not very interested<br>
in doing for free. You have some pointers now, so try that. If that doesn't<br>
work, come back here and we'll try something different.<br>
<div class="im"><br>
> P.S.: All my Nagios servers are virtual machines with Red Hat. The central<br>
> servers have 2 CPUs and 2 GB of memory. The colectors have 1 CPU and 1 GB of<br>
> RAM. Do you think that change the central servers to physical machine I will<br>
> have a big performance improvement? How much?<br>
><br>
<br>
</div>Virtual machines have notoriously poor disk performance. Moving it to a<br>
physical machine will almost certainly remove or widen your current bottleneck<br>
by quite a lot.<br>
<div class="im"><br>
> I think that this is a good test for Nagios. I have a demand to put 100.000<br>
> hosts with 200.000 services in this enviroment!!!!. Is it possible? Has<br>
> someone a Nagios configuration so big?<br>
><br>
<br>
</div>What matters is how much data per second you intend to process, and how many<br>
checks per minute you intend to run. With a check interval of 6 months, I<br>
expect Nagios will run just fine with several million service checks configured.<br>
With a check interval of 10 seconds, you'd probably run into problems around<br>
10000 services.<br>
<font color="#888888"><br>
--<br>
Andreas Ericsson                   <a href="mailto:andreas.ericsson@op5.se">andreas.ericsson@op5.se</a><br>
OP5 AB                             <a href="http://www.op5.se" target="_blank">www.op5.se</a><br>
Tel: +46 8-230225                  Fax: +46 8-230231<br>
<br>
Considering the successes of the wars on alcohol, poverty, drugs and<br>
terror, I think we should give some serious thought to declaring war<br>
on peace.<br>
</font><div><div></div><div class="h5"><br>
------------------------------------------------------------------------------<br>
The Planet: dedicated and managed hosting, cloud storage, colocation<br>
Stay online with enterprise data centers and the best network in the business<br>
Choose flexible plans and management services without long-term contracts<br>
Personal 24x7 support from experience hosting pros just a phone call away.<br>
<a href="http://p.sf.net/sfu/theplanet-com" target="_blank">http://p.sf.net/sfu/theplanet-com</a><br>
_______________________________________________<br>
Nagios-devel mailing list<br>
<a href="mailto:Nagios-devel@lists.sourceforge.net">Nagios-devel@lists.sourceforge.net</a><br>
<a href="https://lists.sourceforge.net/lists/listinfo/nagios-devel" target="_blank">https://lists.sourceforge.net/lists/listinfo/nagios-devel</a><br>
</div></div></blockquote></div><br>