28 Nisan ve 5 Mayıs tarihlerinde TIER II veri merkezimizde meydana gelen elektrik kesintileri sebebiyle, sunuculara erişimde aksaklık yaşandı. Her şeyden önce Radore olarak yaşanan aksaklıktan ötürü özür dileriz. Yaşanan süreçte bize ulaşan soru ve yorumlarınızla ilgili detaylı açıklamalarımızı aşağıda paylaşmak isteriz.

1- Ne oldu?

28 Nisan Cumartesi:

04:32: UPS-B altyapı odasını (TIER III veri merkezi yedek B güç hattının beslendiği 3. Grup ve TIER II veri merkezinin beslendiği 4. Grup UPS’lerin bulunduğu UPS Odası) besleyen dağıtım panosundaki şalter, güç devresini kesti. Bu durum nedeniyle UPS-B altyapısı, Akü Odası B’de bulunan akülerden beslenmeye başladı.

04:43: 11 dakikalık besleme süreci sırasında yangın algılama sistemi Akü Odası B’de yangın algıladı. Ardından otomasyon sistemi gazlı yangın söndürme altyapısını devreye alarak yangını otomatik olarak söndürdü. Yapılan müdahalede 4 adet akünün yandığı görüldü.

05:09: Teknik önlemlerin alınmasını takiben, UPS-B’yi besleyen dağıtım panosundaki şalter aracılığı ile güç tekrar devreye alındı. TIER II Veri Merkezi ve TIER III Veri Merkezi’nin B güç hattına güç verildi. Güç kesintisi sona erdi, kesinti toplamda 37 dakika sürdü.

05:45: Alev alarak yandığı tespit edilen 4 adet akü, toplamda 480 akü ile faaliyet gösteren Akü Odası-B sisteminden çıkarıldı.

15:07: TIER II Veri Merkezi’nde ve TIER III Veri Merkezi’nin B güç hattında kesinti tekrar etti. Veri Merkezi Altyapı ekibi olayın gelişimini anlık olarak takip etti. Yapılan incelemede şalter ile UPS-B Odası arasındaki busbar’da yanma meydana geldiği, şaltere ait düşük gerilim bobininin de yandığı tespit edildi.

15:15 – 18:32: UPS-B Odası’na ve Akü Odası B’ye farklı bir transformatörden ara bağlantı yapılarak güç verildi. Enerji kesintisi sona erdi, kesinti toplamda 3 saat 25 dakika sürdü.

18:45: Bu süreci takiben önlem olarak, TIER III Veri Merkezi B güç hattının kullanımı bazı müşterilerimizin onayıyla asgari seviyeye indirildi.

Sabah gerçekleşen kesinti sırasında, TIER III Veri Merkezi’nde kullanılan donanımların bazılarının TIER III anlayışına uygun olmayan şekilde, tek güç kaynaklı ve sadece B güç hattına bağlı olmaları sebebiyle güç kesintisi oluştu. Yaşanan aksaklık sonrası kurulumu bu yönde yapılan donanımların güç bağlantıları düzenlenerek A hattından enerji almaları ve çalışmaları sağlandı.

Hasar gören parçaların üretim ve testleri 6 gün içinde tamamlandı. Geçici ara bağlantının devreden çıkarılarak altyapının kalıcı ve stabil duruma geçirilmesi için gerekli yedekleme önlemleri alındı.

5 Mayıs Cumartesi:

01:03 ve 02:07: Altyapının kalıcı ve stabil duruma alınması için yedekli olarak kurgulanan montaj ve geçiş çalışması sırasında 2 kez anlık (01:03) , bir kez de yaklaşık 4 dakikalık (02:07-02:11) olmak üzere kesinti yaşandı.

TIER II yapısının ve servislerin sürekliliği tesis edilerek altyapı stabil hale getirildi.

2- Yaşanan teknik aksaklığın sebebi neydi?

28 Nisan’da yaşanan aksaklıklarla ilgili olarak Radore Veri Merkezi ve Veri Merkezi Altyapı ekiplerimiz, güç altyapısı tedarikçi ve servis sağlayıcılarımızla birlikte güvenlik süreçleri de dâhil olmak üzere 30 Nisan tarihinde detaylı inceleme ve tespitlerini yaptı. Aksaklığın güç taşıyıcı hattı olan busbar’ın eklem noktasında oluşan yanmadan kaynaklandığı netlik kazandı. Yanmanın sebebi hakkında inceleme devam etmektedir.

5 Mayıs’ta yaşanan anlık kesintiler, yedekli ve kesintisiz kurgulandığı halde, montaj ve geçiş aşamasında oluşan ve öngörülmeyen aksaklıklardır.

3- Radore veri merkezlerinin (TIER II ve TIER III) farkı ve güç altyapısı hakkında bilgi

Güç altyapımız, Radore’ye ait olan ikisi ana, biri yedek olmak üzere üç farklı dağıtım transformatöründen beslenir. Güç yedeklemesi için de 3 adet 1.100 kVA’lık dizel jeneratör bulunur. Bu jeneratörler için Radore’ye ait 3 adet 3,5 tonluk yakıt tankı ve 1 adet 70 tonluk MetroCity’ye ait paylaşımlı yakıt tankı mevcut. Bu altyapı ile hiç yakıt ikmali yapılamadığı ve elektrik tedariğindeki aksaklığının giderilmediği bir senaryo düşündüğümüzde bile sadece yakıt tanklarımız ve jeneratörlerimizle toplam 48 saat boyunca çalışır durumda kalabiliyoruz.

Sunucu kabinlerine iletilen güç TIER III veri merkezinde yedekli, TIER II veri merkezinde tek olmak üzere “busbar” hattı ile sağlanıyor. Buna ek olarak sunucu kabinleri iki ayrı UPS grubundan beslenen iki farklı PDU (Power Distribution Unit) ile de yedeklenmiş durumda. UPS sistemine ait akü grubu ise minimum 15 dakika besleme sağlayabilme kapasitesine sahip.

UPS sistemimiz biri yedek olmak üzere 5 x (N+1) şeklinde kurgulanmıştır. TIER III veri merkezi alanları için A ve B güç hatları ile çift besleme sağlıyoruz. A güç hattı 1. ve 2. Grup, B güç hattı ise 3. grup UPS’ler ile besleniyor. TIER II veri merkezinde ise 4. Grup UPS sistemini kullanıyoruz. Ayrıca ofis ve network altyapımız da bu alanlara özel minimum 120 dakika güç sağlayan 5. grup UPS’ler ile besleniyor.

TIER Standartları

Uptime Institute tarafından verilen “TIER” sertifikaları, elektrik, soğutma, fiziksel güvenlik, yangın, bina sağlamlığı, network yapısı gibi konularda, doğal afet, felaket ve benzeri olağanüstü hallerde dahi veri merkezinin ayakta kalabileceğinin ve hizmet vermeye devam edebileceğinin yeterlilik ve yetkinlik seviyesini gösterir. Toplamda dört adet TIER standardı vardır.

  • TIER I: Temel Kapasite – Küçük işletmelere hizmet verir. Sistemlerin elektrik ve mekanik yedeği yoktur. Güç kaynakları 10 dakikadan fazla güç kesintisine dayanıklı değildir. Uptime oranı % 99.671.
  • TIER II: Yedek Kapasite Bileşenleri – Güç ve soğutma sistemlerinin belli bir seviyeye kadar yedeği mevcuttur. Sahip olduğu güç kaynakları 24 saatlik elektrik kesintilerine dayanabilir. Uptime oranı % 99.741.
  • TIER III: Eş Zamanlı Bakım Yapabilme – Donanımların yenileme ve bakımı için bileşenlerin kapatılmasını gerektirmez. Güç ve soğutma sistemlerinin yedeği vardır. Güç kaynakları 72 saat süren elektrik kesintisine dayanabilir. Uptime oranı % 99.982.
  • TIER IV: Hata Toleranslı – TIER III’ün üzerine inşa edilen hata toleransı kavramına sahip altyapı topolojisinden oluşur. Yer seçiminde çok katı kuralları bulunur. Güvenlik önlemleri yüksek seviyededir. Güç kaynakları 96 saat süreli güç kesintilerine dayanabilir. 7/24 çalışabilecek personeli bulunur. Uptime oranı % 99.995.

Uptime oranları arasındaki fark az gibi gözükse de, standartlar kapsamında yaşanabilecek senelik kesinti sürelerinin toplamı bu oranlara göre, TIER I için 28,8 saat, TIER II için 22 saat, TIER III için 1,6 saat ve TIER IV içinse 0,4 saattir.

4- Bundan sonra ne olacak?

Yaşanan son vakalarla birlikte TIER II veri merkezimizde bu yılki toplam kesinti zamanımız 4 saat 6 dakika, uptime oranı % 99,95 olmuştur. Yukarda belirtildiği üzere Uptime Institute verilerine göre TIER II için kabul edilen oran %99,75’tir. (Radore TIER III Veri Merkezi %100 uptime ile hizmet vermeye devam etmektedir.)

  • Benzer arızalarda daha çabuk geri dönüş için ek senaryo ve manevra imkanları geliştirilecek.
  • Termal kamera ile yapılmakta olan kontroller sıklaştırılacak.
  • Otomasyon ve alarm sistemleri bu tür aksaklıkların erken tespit edilmesini sağlayacak şekilde yapılandırılacak.
  • Yeni düzenleme ve güçlendirmelerin devreye alınması için önümüzdeki tarihlerde kısa süreli bir çalışma daha yapılması planlanmaktadır. Bu çalışmanın tarihi, süresi ve kesinti riski önceden müşterilerimizle paylaşılacaktır.

Bunlara ek olarak, yapılabilecekler ve konu hakkındaki her türlü geri bildiriminizi Radore Yönetim Ekibi tarafından takip edilen geribildirim@radore.com ‘a göndermenizi rica ederiz. Bu çerçevede, yaşanan aksaklıktan ötürü bir kez daha derin üzüntülerimizi bildirir, gösterdiğiniz anlayışınız için teşekkür ederiz.


Radore TIER II Data Center Outage Report (April 28, May 5, 2018)

On April 28 and May 5, Radore TIER II data center suffered an interruption in access to servers due to a power outage. We apologize for any inconvenience. We would like to share our detailed explanation for your questions and comments that we received during the process.

1. What happened?

Saturday, 28th of April:

04:32: The switch on the distribution board that supplies the UPS-B infrastructure room (The UPS Room with the 3rd Group UPSs, which powers-up the TIER III data center auxiliary B power line and the 4th Group UPSs, which powers-up the TIER II data center) cut off the power cycle. As a result, the UPS-B infrastructure began to draw power from the batteries in Battery Chamber B.

04:43: During the 11 minutes long process of electrical supply; the fire detection system detected a fire in Battery Chamber B. Then, the automation system activated the gas fire-extinguishing infrastructure and automatically extinguished the fire. The intervention revealed that 4 batteries had been burnt.

05:09: After the technical measures were taken, the power was re-engaged via the switch in the distribution panel that supplies UPS-B. The power was engaged to the B power line of TIER III Data Center and TIER II Data Center. The power interruption was over. It lasted 37 minutes in total.

05:45: The 4 batteries that were found to be burnt were removed from the Battery Chamber-B system, which operates with 480 batteries.

15:07: The power interruption reoccurred in the B power line of TIER III Data Center and TIER II Data Center. The Data Center Infrastructure team tracked the development of the incident momentarily. It was found out that the busbar between the switch and the UPS-B Chamber was burnt and the low voltage coil of the switch was also burnt.

15:15 – 18:32 The UPS-B Chamber and Battery Chamber B were powered by an interconnection from a different transformer. The power outage was over. It lasted 3 hours 25 minutes in total.

18:45: As a precautionary measure, the use of the TIER III Data Center B power line has been reduced to a minimum with the approval of some of our customers.

During the interruption in the morning, some equipment used in the TIER III Data Center was out of power because some of them were connected to a single power source and only to the B power line, which did not comply with the TIER III conception. After the outage, the power connections of those installations were re-arranged and powered up via A power line.

The production, testing and assembly of the damaged parts were completed within 6 days and the continuity of the TIER II structure and services was established. The necessary measures for redundancy were taken to switch the temporary interconnection to a permanent one to ensure the stability.

 

Saturday, 5th of May:

01:03 and 02:07: During the assembly and transition phase which also designed as a redundant operation to maintain the persistency and stability of the infrastructure, there were 2 instantaneous (01:03) interruptions along with an approximately 4 minutes long interruption (02:07-02:11).

Infrastructure was stabilized by establishing the continuity of TIER II structure and services.

2.What was the cause of the technical problem?

With regard to the problems occurred on 28th of April, our Radore Data Center and Data Center Infrastructure teams have conducted detailed reviews and evaluations including security processes on 30th of April, with our power infrastructure suppliers and service providers. It was understood that the problem was caused by the burning that occurred at the joint point of the busbar, which is the power carrier line. Investigation as to the reason of the burning is still underway.

Although the assembly and transition phase is designed as an uninterruptible and redundant operation, the instantaneous interruptions have occurred on 5th of May are unforeseen incidents.

3. Information on the difference of Radore data centers (TIER II and TIER III) and power infrastructure

Our power infrastructure is supplied by three different distribution transformers belonging to Radore, two of them are main and one spare. There are also three 1,100 kVA diesel generators for power redundancy. For these generators, there are 3 fuel tanks of 3.5 tons owned by Radore and 1 fuel tank of 70 tons shared with MetroCity. With this infrastructure, even if we think of a scenario where no refueling can be done and the electricity supply lag is not remedied, we can work only with our fuel tanks and generators for a total of 48 hours.

The power is delivered to the server cabinets via busbar line, which is designed abundant in the TIER III data center and single in the TIER II data center. In addition, server cabinets are backed up with two different Power Distribution Units (PDUs) powered by two separate UPS groups. The battery group of the UPS system has a capacity to supply a minimum of 15 minutes.

Our UPS system is configured as 5x(N+1) with one spare unit. For TIER III data center areas, we provide double feeds with power lines A and B. Power line A is supplied by the 1st and 2nd Group. Power line B is supplied by the 3rd Group UPS. In the TIER II data center we use the 4th group UPS system. In addition, the office area and network infrastructure are supplied by the 5th group UPS devices, which are dedicated to these areas only and provide power for a minimum of 120 minutes.

  • TIER Standards

The “TIER” certificates issued by the Uptime Institute show the level of competence and efficiency to indicate how the data center can survive and continue to serve even at times of disasters such as electricity, cooling, physical security failures; fire, building security breaches; network structure failures; natural disaster and so on. There are four TIER standards in total.

  • TIER I: Basic Capacity – It serves small businesses. The systems do not have electrical and mechanical redundancy. Power supplies are not prone to power outage for more than 10 minutes. Uptime rate is 99.671%.
  • TIER II: Backup Capacity Components – Power and cooling systems are available to a certain level of redundancy. Power sources can withstand 24-hour power outages. Uptime rate is 99.741%.
  • TIER III: Simultaneous Maintenance – It does not require the components to be shut down for replacement and maintenance of the equipment. Power and cooling systems are redundant. Power supplies can last up to 72 hours. Uptime rate is 99.982%.
  • TIER IV: Fault Tolerant – consists of an infrastructure topology with a fault tolerance concept built on top of TIER III. There are very strict rules applicable to the selection of the place. Security measures are high-level. Power supplies can withstand 96 hours of power interruptions. Staff is available 24/7. Uptime rate is 99.995%.

Although the difference between the uptime rates seems to be small, the sum of the annual downtime that can be experienced under the standards is 28.8 hours for TIER I, 22 hours for TIER II, 1.6 hours for TIER III and 0.4 hours for TIER IV.

4. What will be the measures in the next period?

Along with the last case, this year’s total downtime for TIER II data center totaled 4 hours and 6 minutes. The uptime rate of our TIER II data center has been 99.95%. As stated above, according to Uptime Institute data, the accepted rate for TIER II is 99.75%, and the Radore TIER II data center still provides uptime at the rate of 99.95%, which is over the accepted rate. (The Radore TIER III Data Center continue to serve with 100% uptime.)

  • Additional scenarios and measures will be developed for faster system restore processes in case of similar failures.
  • The controls with the thermal camera will be tightened.
  • Automation and alarm systems will be configured to provide early detection of such problems.
  • A further short-term operation is planned for the upcoming days to introduce the new arrangements and strengthening. The date, duration and possibility of outage risk will be shared with our customers in advance.

In addition, we kindly ask you to send us your feedback on the matter to geribildirim@radore.com monitored by the Radore Management Team. In this context, we once again offer our sincerest apologies for the incident, and thank you for your understanding.