Neden IT Monitoring ve Log yönetimi birbirini tamamlar ?


Müşterilerimizle yaptığımız toplantılarda tam olarak anlaşılması için en çok gayret sarfettiğimiz konulardan biri de "IT Monitoring ve Log Yönetimi"nin birbirinin tamamlayıcısı olduğunu anlatmaktır.

Böyle söylediğimizde yadırgandığımız, sözlerimizin yanlış anlaşıldığı zamanlar oldu. Kimileri burun kıvırdı, kimleri görmeden inanmak istemedi, kimileri bunun bir pazarlama metodu olduğunu düşündü. Ancak örneklerle açıkladığınız zaman her seferinde de karşımızdaki kişinin anlattıklarımıza ikna olduğunu gördük.

Dolayısıyla bu yazımızda da aynısını yapacağız. Örneklerle ifade ederek neden birbirinin tamamlayıcısı olduğunu ifade etmeye çalışacağız.

Şöyle ki ;

Bir çok farklı cihazınve sistemin olduğu bir firmanın IT yöneticisi olduğunuzu düşünün. Windows / Linux sunucuları, uygulamalar, Network cihazları, PRI voice gatewayler, ESX sunucuları, Load Balancer, Media Gateway / SIP cihazları vs. IT sistemleri işinizin tam merkezine yerleşmiş, hata veren veya sorun yaşayan her sistem doğrudan müşteri memnuniyetsizliği veya gelir kaybına neden oluyor. Siz de , "bir şey" olmadan önce görmek ve hazırlıklı olmak için IT Monitoring sistemi arayışına girerek doğru ve proaktif bir karar veriyorsunuz.

Buraya kadar her şey güzel ve yolunda.

Ürünü seçtikten sonra POC'ye başladınız. Orada da işler yolunda giderken ve çok sayıda sistemi izleme şemsiyesi altına aldıktan sonra bir gün ansızın şöyle bir bilgi iletiliyor :

"XXX markasının YY media gateway cihazı ne yazık ki kısıtlı miktarda SNMP get çıktısı ve metrik üretiyor. SNMP trap ile de performans metrikleri alamıyoruz. Ürünün web sitesinde syslog kullanarak detaylı izleme önerilmiş. Loglarda epey detaylı bilgilere ulaşmak mümkün."

Mesajın ekinde de aşağıdaki örnek log gönderilmiş.

PPL Event Indication (API id 0x0043) decode example:

Jun 07 2010 12:07:54.104 X0[10.129.51.9]->H : 00 43 02 23 00 00 01 09 02 01 01 00 2e 00 02 01 03 00 2d 00 18 00 00 00 04 00 08 a6 c4 00 01 00 04 00 00 00 00 00 1d 00 04 00 00 00 03 Byte Description Values 0, 1 Message Type 0x0043 - PPL Event Indication 2, 3 Sequence Number 0x0223 4 Logical Node ID 0x00 5-10 AIB (SS7 Link AIB) 00 01 09 02 01 01 - ss7 stack id 1, ss7 link id 1 11,12 PPL Component ID 0x002e - MTP3 LSAC (signalling link activity control) 13,14 PPL Event 0x0002 - Signaling link failure 15 Number of ICBs 0x01 16 ICB Type 0x03 (Extended Data) 17,18 ICB ID 0x002D (Q.752 parameters) 19,20 ICB Length (2 Bytes) 0x0018 21,22 Parameter 1 Type 0x0000 (MTP3 Timestamp) 23,24 Parameter 1 Length 0x0004 25-28 Parameter 1 Value 00 08 a6 c4 29,30 Parameter 2 Type 0x0001 (Interval sequence number) 31,32 Parameter 2 Length 0x0004 33-36 Parameter 2 Value 00 00 00 00 37,38 Parameter 3 Type 0x001d (Link failure reason code) 39,40 Parameter 3 Length 0x0004 41-44 Parameter 3 Value 00 00 00 03 - Excessive error rate Note (Link failure reason code): 0x0001 Abnormal FIBR/BSNR 0x0002 Excessive delayed ACK (T7) 0x0003 Excessive error rate 0x0004 Excessive duration of congestion (T6) 0x0005 LSSU received (SIOS, SIO, SIN, SIE) 0x0006 Changeover MSU received

0x0007 Other

Burada bir yol ayrımına geldiğimizin farkında olduğunuzu düşünüyorum.

A) Bu cihazı izleme kapsamından çıkartacaksınız. (Peki bu durumda 80-100 kanallı bir media gateway'de aktif kaç çağrı olduğunu veya hattaki gürültünün miktarının yükseldiği gibi hayati bilgileri nasıl toplayacaksınız ? Doğrudan hizmet kalitesine veya müşteri memnuniyetine etki eden konular bunlar ? )

B) Temel SNMP metrikleriyle izleyecek (Interface up/down, Port Status up/down , Port Incoming traffic XX KB vb.) ve kısaca "eldekine razı olacaksınız". (Yine aynı sorun, yeterince veri yok, analiz yok. Ölçmüyorsanız yönetmiyorsunuzdur ! )

C) Log yönetimi ile entegre edecek ve loglardan veriye ulaşacaksınız.

Durumu bir tespitle tekrar ortaya koyacak olursak, hattaki gürültü miktarını veya bağlantı hatasını Monitoring ile öğrenemiyoruz, ancak cihazın loglarında bu bilgi veriliyor. Üstelik bu bağlantı hatası ile ortaya çıkan sorunu önden bilmeniz halinde, müşteri memnuniyetsizliğinden kendinizi koruyacaksınız.

O zaman yapılacak tek şey kalıyor geriye. Logları, bir Log Yönetimi sistemine yönlendirmek, gerekli tanımlamaları yapmak ve yukarıdaki hata mesajı yakalandığında sizi görsel, sesli ve yazılı olarak ( E-posta, SMS, GSM, Slack ) uyarmasını sağlamak ve ofisinizdeki büyük ekranlarda dönen Dashboarlarda görüntülemek.

Monitoring yazılımları size çok şey söyleyebilir ve bu bilgi de gerçekten hayatı kolaylaştırabilir. Kapalı / Açık , 0-1 , 100 byte - 2 Gb" gibi. Bilgi ; güçtür., çevikliktir. Ancak iş, temel metriklerin toplanmasından öte, bir hatayı yakalamak veya analiz etmek gibi detaylara geldiğinde bu değerler yetersiz kalacaktır.

Ne yazık ki üreticiler bu gibi senaryolar için daha çok loglarla bilgi iletmeyi tercih ediyorlar. O nedenle de loglardan faydalanmanın bir yolunu bulmalısınız.

Ortamınızda bu cihaz gibi onlarca media gateway, bir çok Vmware ESX sunucusu, Tomcat / Jboss / Spring Boot vs. middleware ve uygulamalar olduğunu düşünün. Sonra da uçan kuştan haber almanın dayanılmaz rahatlığını....

Üstelik bunu yapmak için lisans ücreti ödemek zorunda da değilsiniz.

Sorunsuz sistemler ve günler... :)

#ITMonitoring #logyönetimi

12 görüntüleme

© Monitoring.World

  • ikon-fb
  • ikon-twitter
  • ikon-ln
  • White YouTube Icon