Veri odaklı yaklaşım, günümüz iş süreçlerinin olmazsa olmazı haline geldi. Ancak veri toplama, eşleştirme ve analiz etme gibi işlemlerde ‘temiz veri’ kullanımı kritik bir öneme sahip.
Veri odaklı yaklaşım, günümüz iş süreçlerinin olmazsa olmazı haline geldi. Ancak veri toplama, eşleştirme ve analiz etme gibi işlemlerde ‘temiz veri’ kullanımı kritik bir öneme sahip.Temiz ve güvenilir veriler olmadan, veri analizi mümkün değildir. İlgili ve doğru veri olmadan analiz yapmak ve süreçler hakkında çıkarımlarda bulunmak neredeyse imkansızdır. Hatta kullanılan veriler eski veya yanlışsa veri analizi, yarardan çok zarar veren bir işleme dönüşür. Bilgi teknolojileri alanında faaliyet gösteren Mindtree’nin strateji başkanı Suman Nambiar, temiz veriye nasıl ulaşılacağı konusunda tavsiyelerde bulunuyor.
Kirli veri, kirli kararlar
2017 tarihli Harvard Business Review araştırmasında yapılan bir ankette, şirketlerin yalnızca yüzde 3’lük bir bölümünün veri kalitesi standartlarını karşıladığı sonucuna ulaşıldı.
Nambiar’a göre, çoğu işletme fikir odaklı kuruluşlar olmaya çalışıyor. Ancak bunu yapmak için farklı analitik teknikleri kullanmak gerekiyor. Özellikle veri depolama işleminde kirli, yanlış ve geçerliliği olmayan verileri kaldırmak, kullanılacak veri setinden ayırmak gerekiyor.
Temiz veri için birkaç adım
Nambiar, çalışılacak verinin erişilebilir ve şeffaf olmasının ‘temiz veri’ için ilk adım olduğunu söylüyor. Daha sonra ise standart haline getirilmiş kurallar ile bir veri altyapısı oluşturulması gerekiyor. Bu aşama, verilerin nereden geldiği ve verilerde herhangi bir sapma olup olmadığını anlamada kritik bir öneme sahip.
Son dönemde kuruluşlar, yapay zeka ve makine öğrenmesi ile verilere erişme, verileri eşleştirme ve temizleme işlemlerini otomatik olarak yapabiliyor. Böylelikle işlemler daha hızlı bir şekilde gerçekleştirilebiliyor ve insan kaynaklı hataların önüne geçiliyor. Hatta bunun için Apache Griffin gibi açık kaynaklı yazılımlar da kullanılabiliyor.
Nambiar, son olarak ise verinin sürekli artan bir yığın olduğunun unutulmaması gerektiğini, sürekli kontrolün gerekliliğini vurguluyor, veri kalitesi ölçümünün sürekli yapılması gerektiğini söylüyor.