<br><font size=2 face="sans-serif">Hi all,</font>
<br>
<br><font size=2 face="sans-serif">I'd like to propose an overhaul of the
Performance Info (extinfo.cgi?&type=4).</font>
<br>
<br><font size=2 face="sans-serif">In the last weeks I prepared a migration
and update from our old 2.9 install to</font>
<br><font size=2 face="sans-serif">a new physical machine and nagios 3.0.
During that time I've been watching</font>
<br><font size=2 face="sans-serif">the Performance Info a lot, since performance
was an issue for us as the</font>
<br><font size=2 face="sans-serif">"migration machine" was running
inside a VM on an ESX. Sadly I came to the</font>
<br><font size=2 face="sans-serif">conclusion, that the way the info is
presented seems to be useless.</font>
<br>
<br><font size=2 face="sans-serif">The reason is simple:</font>
<br>
<br><font size=2 face="sans-serif">For example I get the number and percent
of the actively checked services</font>
<br><font size=2 face="sans-serif">in the last 1/5/15/60 minutes. So far
so good. But what exactly tells us this info?</font>
<br><font size=2 face="sans-serif">Right - nothing. I have no means to
interpret this information, as I cannot determine</font>
<br><font size=2 face="sans-serif">if the number of actively checked services
in the last minute (for example) is good</font>
<br><font size=2 face="sans-serif">or bad. What's missing is numbers to
compare the actively checked services</font>
<br><font size=2 face="sans-serif">to those that _should_ have been actively
checked in the last minute. In our</font>
<br><font size=2 face="sans-serif">scenario, I have loads of services scheduled
each minute (pings, disk, memory, etc.pp),</font>
<br><font size=2 face="sans-serif">but then I do have a lot services that
are only checked once per hour or once per</font>
<br><font size=2 face="sans-serif">day.</font>
<br><font size=2 face="sans-serif">So when nagios presents me with 68%
of my servicechecks were performed</font>
<br><font size=2 face="sans-serif">in the last minute - I have no clue
if that means everything is alright or what.</font>
<br>
<br><font size=2 face="sans-serif">What I would like to see is a comparable
performance info, telling me:</font>
<br>
<br><font size=2 face="sans-serif">x% of your active service checks in
the last minute, that should have been checked, have been checked.</font>
<br><font size=2 face="sans-serif">x% of your acrive service checks scheduled
in the last 15 minutes,that should have been checked, have been checked.</font>
<br><font size=2 face="sans-serif">etc.pp.</font>
<br>
<br><font size=2 face="sans-serif">So I can decide if I am putting too
much stress on the nagios server or not. And if,</font>
<br><font size=2 face="sans-serif">if it's the fault of too many concurrent
servicechecks for example, that are lagging behind.</font>
<br>
<br><font size=2 face="sans-serif">I do know that latency and execution
time is displayed too, but those informations are not</font>
<br><font size=2 face="sans-serif">really useful to me either. Which brings
me to the next point:</font>
<br>
<br><font size=2 face="sans-serif">Check Execution Time needs some means
to distinguish between checks that timed</font>
<br><font size=2 face="sans-serif">out and those that just took long. For
as long as I can think, the displayed values there</font>
<br><font size=2 face="sans-serif">look like:</font>
<br>
<br><font size=2 face="sans-serif">Check Execution Time:  0.01
sec 10.01 sec 0.494 sec </font>
<br>
<br><font size=2 face="sans-serif">0.01 is checks on localhost - they are
the minumum</font>
<br><font size=2 face="sans-serif">10.01 is checks that timed out, mainly
remote sites where the vpn is currently down for example - they are the
maximum</font>
<br><font size=2 face="sans-serif">0.5 is roughly the average at all times.</font>
<br>
<br><font size=2 face="sans-serif">I think people wouldn't even notice,
if you would hardcode those numbers in the cgi ;)</font>
<br><font size=2 face="sans-serif">Infos that are more or less static are
not useful as performance counters. To reflect the real circumstances,</font>
<br><font size=2 face="sans-serif">timed out checks need to be filtered
out, so I have means to see if some checks take longer then</font>
<br><font size=2 face="sans-serif">expected.</font>
<br>
<br><font size=2 face="sans-serif">/discuss</font>
<br>
<br><font size=2 face="sans-serif">S</font>
<br>
<br><font size=2 face="sans-serif">-- <br>
Sascha Runschke<br>
Netzwerk-  und  Systemmanagement<br>
Telefon : +49 (201) 102-1879 Mobil : +49 (173) 5419665 Fax : +49 (201)
102-1102105</font>
<br>
<br>
<br>
<span style="font-family:sans-serif,helvetica; font-size:10pt; color:#000000">GFKL Financial Services AG</span><br>
<span style="font-family:sans-serif,helvetica; font-size:10pt; color:#000000">Vorstand: Dr. Peter Jänsch (Vors.), Jürgen Baltes, Dr. Till Ergenzinger, Dr. Tom Haverkamp</span><br>
<span style="font-family:sans-serif,helvetica; font-size:10pt; color:#000000">Vorsitzender des Aufsichtsrats: Dr. Georg F. Thoma</span><br>
<span style="font-family:sans-serif,helvetica; font-size:10pt; color:#000000">Sitz: Limbecker Platz 1, 45127 Essen, Amtsgericht Essen, HRB 13522</span>