Edge AI projelerinde SLA; gecikme, yerel çalışma, model doğruluğu, ağ kararlılığı ve saha koşulları nedeniyle klasik servis taahhütlerinden farklı ele alınmalıdır.
Edge üzerinde çalışan yapay zekâ uygulamaları, klasik veri merkezi veya bulut tabanlı servislerden farklı bir operasyon mantığına sahiptir. Karar verme süreci verinin üretildiği noktaya yaklaştıkça; ağ gecikmesi, cihaz kapasitesi, yerel güvenlik, model güncelleme sıklığı ve fiziksel çevre koşulları doğrudan hizmet kalitesini etkiler. Bu nedenle kurumların mevcut SLA yaklaşımını aynen kullanması çoğu zaman yeterli olmaz; ölçülen metrikler, sorumluluk sınırları ve kesinti tanımları yeniden ele alınmalıdır.
Edge AI SLA, yalnızca “sistem ayakta mı?” sorusuna cevap vermez. Aynı zamanda modelin doğru zamanda çalışıp çalışmadığını, kararın kabul edilebilir gecikme içinde üretilip üretilmediğini, yerel cihazın veri kaybı yaşamadan operasyonu sürdürebildiğini ve merkezi sistemle senkronizasyonun ne kadar güvenilir olduğunu da kapsar. Bu yaklaşım özellikle üretim, perakende, lojistik, enerji, sağlık ve akıllı şehir uygulamalarında kritik hale gelir.
Geleneksel SLA’larda erişilebilirlik, yanıt süresi ve destek süresi öne çıkar. Edge AI senaryosunda ise bu metriklerin her biri daha dağıtık, daha değişken ve daha sahaya bağımlı bir yapıya dönüşür. Bir fabrika kamerasındaki görüntü analitiği ile merkezde çalışan raporlama servisi aynı SLA diliyle yönetilemez.
Edge AI uygulamalarında gecikme yalnızca performans metriği değildir; iş sonucunu doğrudan etkileyen bir kalite kriteridir. Örneğin üretim hattında kusur tespiti yapan bir model, hatalı ürünü milisaniyeler içinde ayıramazsa servis teknik olarak çalışıyor görünse bile iş hedefini karşılamaz.
Bu nedenle SLA hazırlanırken ortalama gecikme yerine çoğu durumda p95 veya p99 gecikme değerleri izlenmelidir. Ortalama değer iyi görünürken uç durumlarda yaşanan gecikmeler operasyonu aksatabilir. Kurumlar ayrıca cihaz üzerindeki işlem süresi, ağ geçidi yanıtı ve merkezi sisteme aktarım süresini ayrı ayrı ölçmelidir.
Edge mimarilerinde merkezi bulutla bağlantı geçici olarak kopsa bile yerel karar mekanizması çalışmaya devam edebilir. Bu durum SLA yorumunu değiştirir. Bağlantı yokken sistem üretimi durdurmuyorsa, klasik anlamda tam hizmet kesintisi tanımı doğru olmayabilir.
Pratikte SLA içinde üç farklı durum ayrıştırılmalıdır: yerel çıkarımın devam ettiği çevrimdışı çalışma, veri senkronizasyonunun geciktiği kısmi hizmet ve karar üretiminin durduğu tam kesinti. Bu ayrım yapılmadığında hem tedarikçi hem de müşteri tarafında yanlış beklentiler oluşur.
Yapay zekâ servislerinde hizmet kalitesi yalnızca altyapı sürekliliğiyle ölçülemez. Model çalışıyor olabilir ancak doğruluk oranı düşmüş, veri dağılımı değişmiş veya sahadaki koşullar eğitim verisinden uzaklaşmış olabilir. Bu nedenle Edge AI senaryolarında model performansı SLA’nın teknik eklerinde açıkça tanımlanmalıdır.
Model doğruluğu için tek bir yüzde vermek çoğu zaman yanıltıcıdır. Hatalı pozitif, hatalı negatif, güven skoru, veri sapması ve örnekleme yöntemi birlikte değerlendirilmelidir. Özellikle güvenlik, kalite kontrol veya sağlık gibi alanlarda hatanın türü, hatanın sayısından daha önemlidir.
SLA metninde modelin ne zaman yeniden eğitileceği, hangi eşiklerin alarm üreteceği ve model güncellemesinin ne kadar sürede sahaya dağıtılacağı belirtilmelidir. Aksi halde sistem teknik olarak çalışsa bile iş birimi beklediği faydayı alamaz.
Kategori açısından bakıldığında Edge AI, ağ ekipleri için sadece bant genişliği planlaması değildir. Yerel ağ kararlılığı, paket kaybı, segmentasyon, güvenli erişim, zaman senkronizasyonu ve cihaz yönetimi SLA’nın ayrılmaz parçaları haline gelir.
Örneğin kamera tabanlı analitik sistemlerde görüntünün tamamını buluta göndermek yerine sahada işlemek bant genişliğini azaltır. Ancak yerel ağda jitter yüksekse veya edge cihazları aynı anda güncelleme alıyorsa çıkarım performansı dalgalanabilir. Bu nedenle ağ SLA’sı, yalnızca internet çıkışını değil, saha içi bağlantı kalitesini de kapsamalıdır.
Kurumların sık yaptığı hatalardan biri, bulut sağlayıcısının yüksek erişilebilirlik taahhüdünü uçtaki tüm servis için geçerli kabul etmektir. Oysa saha cihazı, yerel switch, enerji beslemesi, sensör kalitesi ve fiziksel ortam farklı sorumluluk alanları oluşturur.
Bir diğer hata, tüm lokasyonlar için aynı SLA değerini yazmaktır. Merkez depo ile uzak saha istasyonu aynı bağlantı kalitesine, aynı bakım süresine veya aynı yedeklilik seviyesine sahip olmayabilir. Bu nedenle lokasyon bazlı sınıflandırma yapılmalı; kritik, standart ve düşük öncelikli uç noktalar için ayrı hedefler belirlenmelidir.
Edge AI SLA hazırlanırken ilk adım, iş sürecinin hangi noktada durduğunu netleştirmektir. Model yanıt vermezse üretim duruyor mu, yalnızca raporlama mı gecikiyor, yoksa güvenlik riski mi oluşuyor? Cevap, metriklerin ağırlığını belirler.
Yerel çıkarım süresi, ağ gecikmesi ve merkezi senkronizasyon ayrı ölçülmelidir.
Çevrimdışı çalışma süresi ve veri tamponlama kapasitesi açıkça tanımlanmalıdır.
Model doğruluğu, veri sapması ve yeniden eğitim koşulları izlenebilir hale getirilmelidir.
Edge cihazları için bakım penceresi, yedek cihaz politikası ve uzaktan güncelleme süreci belirtilmelidir.
Lokasyon bazlı risk sınıflandırması yapılmadan tek tip SLA taahhüdü verilmemelidir.
SLA’nın uygulanabilir olması için ölçüm verileri güvenilir kaynaklardan toplanmalıdır. Sadece merkezi izleme sistemi yeterli değildir; edge cihazın kendi sağlık durumu, model çalışma kayıtları, ağ telemetrisi ve uygulama logları birlikte değerlendirilmelidir.
Raporlama tarafında iş birimlerinin anlayacağı göstergeler tercih edilmelidir. “CPU kullanımı yüzde 90’a çıktı” bilgisi teknik ekip için anlamlıdır; ancak operasyon ekibi için “kusur tespiti süresi kabul edilen eşiğin üzerine çıktı” daha açıklayıcıdır. Bu ayrım, SLA raporlarının karar alma sürecine gerçekten katkı vermesini sağlar.
SLA metninde belirsiz ifadelerden kaçınmak gerekir. “Düşük gecikme”, “yüksek doğruluk” veya “kesintisiz çalışma” gibi kavramlar ölçülebilir değerlerle desteklenmelidir. Hangi metrik hangi araçla ölçülecek, hangi zaman aralığı esas alınacak ve istisna durumları nasıl değerlendirilecek açıkça yazılmalıdır.
Ayrıca sorumluluk matrisi oluşturulmalıdır. Model sağlayıcısı, ağ ekibi, cihaz üreticisi, saha operasyonu ve bulut platformu arasında görev paylaşımı net değilse, sorun anında çözüm süresi uzar. Edge AI projelerinde güçlü SLA, yalnızca taahhüt listesi değil; operasyon, ağ, güvenlik ve veri bilimi ekiplerinin aynı çerçevede çalışmasını sağlayan yönetim aracıdır.