<html xmlns:v="urn:schemas-microsoft-com:vml" xmlns:o="urn:schemas-microsoft-com:office:office" xmlns:w="urn:schemas-microsoft-com:office:word" xmlns:m="http://schemas.microsoft.com/office/2004/12/omml" xmlns="http://www.w3.org/TR/REC-html40">

<head>
<meta http-equiv=Content-Type content="text/html; charset=us-ascii">
<meta name=Generator content="Microsoft Word 12 (filtered medium)">
<style>
<!--
 /* Font Definitions */
 @font-face
        {font-family:Calibri;
        panose-1:2 15 5 2 2 2 4 3 2 4;}
 /* Style Definitions */
 p.MsoNormal, li.MsoNormal, div.MsoNormal
        {margin:0in;
        margin-bottom:.0001pt;
        font-size:11.0pt;
        font-family:"Calibri","sans-serif";}
a:link, span.MsoHyperlink
        {mso-style-priority:99;
        color:blue;
        text-decoration:underline;}
a:visited, span.MsoHyperlinkFollowed
        {mso-style-priority:99;
        color:purple;
        text-decoration:underline;}
span.EmailStyle17
        {mso-style-type:personal-compose;
        font-family:"Calibri","sans-serif";
        color:windowtext;}
.MsoChpDefault
        {mso-style-type:export-only;}
@page Section1
        {size:8.5in 11.0in;
        margin:1.0in 1.0in 1.0in 1.0in;}
div.Section1
        {page:Section1;}
-->
</style>
<!--[if gte mso 9]><xml>
 <o:shapedefaults v:ext="edit" spidmax="1026" />
</xml><![endif]--><!--[if gte mso 9]><xml>
 <o:shapelayout v:ext="edit">
  <o:idmap v:ext="edit" data="1" />
 </o:shapelayout></xml><![endif]-->
</head>

<body lang=EN-US link=blue vlink=purple>

<div class=Section1>

<p class=MsoNormal>Hello all,<o:p></o:p></p>

<p class=MsoNormal><o:p> </o:p></p>

<p class=MsoNormal>I’m running Nagios 3.0.6 compiled from unmodified source
on CentOS 5.2 x86_64.  I noticed that notifications stopped early this
morning, and the logs said Nagios caught SIGSEGV, and it was shutting down. 
Nagios doesn’t appear to go all the way down, though.  All the CGIs
still work, but no checks are being performed.  There is a lock file, and nagios.cmd
still exists.  The first one I saw happened after Nagios had been running
fine for a while, but the same thing happens if I issue a killall –SIGSEGV
naigios command, defunct processes and all.  This is what I got after I
did the killall, then a service nagios start, then another killall.<o:p></o:p></p>

<p class=MsoNormal><o:p> </o:p></p>

<p class=MsoNormal># ps -fC nagios<o:p></o:p></p>

<p class=MsoNormal>UID        PID 
PPID  C STIME TTY         
TIME CMD<o:p></o:p></p>

<p class=MsoNormal>nagios    1469    
1  0 10:47 ?        00:00:00 /usr/local/nagios/bin/nagios
-d /usr/local/nagios/etc/nagios.cfg<o:p></o:p></p>

<p class=MsoNormal>nagios    1470  1469  0 10:47
?        00:00:00 [nagios] <defunct><o:p></o:p></p>

<p class=MsoNormal>nagios    1918    
1  6 10:51 ?        00:02:55
/usr/local/nagios/bin/nagios -d /usr/local/nagios/etc/nagios.cfg<o:p></o:p></p>

<p class=MsoNormal>nagios   16350  1918  0 11:25
?        00:00:00
/usr/local/nagios/bin/nagios -d /usr/local/nagios/etc/nagios.cfg<o:p></o:p></p>

<p class=MsoNormal>nagios   16351 16350  0 11:25
?        00:00:00 [nagios] <defunct><o:p></o:p></p>

<p class=MsoNormal><o:p> </o:p></p>

<p class=MsoNormal>Thanks to Paul Weaver’s suggestion earlier this month,
I’ve got a failover Nagios server running.  Once a minute, it checks
the primary server.  I didn’t set the conditions for failing over
correctly, so it didn’t take over in this case, though it sometimes does for
a moment when I restart the primary Nagios after I’ve updated its object
configuration files.  The output of its check_nagios command looks like
this after the primary Nagios gets a SIGSEGV:<o:p></o:p></p>

<p class=MsoNormal><o:p> </o:p></p>

<p class=MsoNormal># ./check_by_ssh -H primaryhostname
--command='/usr/local/nagios/libexec/check_nagios --filename=/usr/local/nagios/var/status.dat
--expires=60 --command=nagios'<o:p></o:p></p>

<p class=MsoNormal>NAGIOS OK: 3 processes, status log updated 228 seconds ago<o:p></o:p></p>

<p class=MsoNormal><o:p> </o:p></p>

<p class=MsoNormal>When I fixed the expiration, it gave me a warning state and
I could’ve failed over on that.  However, the way I did things, the
failover server thought everything was all right.  So, that’s my
problem to fix, but shouldn’t Nagios shut all the way down as well?<o:p></o:p></p>

<p class=MsoNormal><o:p> </o:p></p>

<p class=MsoNormal>Thanks!<o:p></o:p></p>

<p class=MsoNormal>-Chris<o:p></o:p></p>

</div>

<html>

<head>
<meta http-equiv="Content-Language" content="en-us">
<meta name="GENERATOR" content="Microsoft FrontPage 5.0">
<meta name="ProgId" content="FrontPage.Editor.Document">
<meta http-equiv="Content-Type" content="text/html; charset=windows-1252">
<title>New Page 1</title>
</head>

<body>

<p><font face="Arial" size="1">This message (including any attachments) is 
intended only for<br>
the use of the individual or entity to which it is addressed and<br>
may contain information that is non-public, proprietary,<br>
privileged, confidential, and exempt from disclosure under<br>
applicable law or may constitute as attorney work product.<br>
If you are not the intended recipient, you are hereby notified<br>
that any use, dissemination, distribution, or copying of this<br>
communication is strictly prohibited. If you have received this<br>
communication in error, notify us immediately by telephone and<br>
(i) destroy this message if a facsimile or (ii) delete this message<br>
immediately if this is an electronic communication.</font></p>
<p><font face="Arial"><font size="1">Thank you.</font><br>
 </font></p>

</body>

</html>
</body>

</html>