Deborah Tylor, veri bilimci olarak dolandırıcılığın ortaya çıkarılmasına yardımcı olabilecek modeller için 3 terabayttan fazla veri kümesini taramakla görevlendirildi. Modeli ilk olarak sadece CPU ile çalışan bir sunucuda düzenlemek istedi. Fakat ertesi gün ofise geldiğinde, işlemin başarısız olduğunu gördü. Tekrar denedi ve tekrar başarısız oldu. Cloudera’da çalışan Nasheb Ismaily, bu başarısızlıklardan sonra IRS’de veri analistlerini destekleyen teknik ekibin yöneticisi Rahul Tikekar’a ulaştı.
Tikekar, “böyle bir fırsatı duyar duymaz kabul ettim. Bağımsız sunucularda NVIDIA GPU’larımız var. Bunları dağıtılmış bir kümede çalıştırmak için Spark’ı kullanmayı bir süredir planlıyorduk. Bu yüzden bizim için mükemmel bir zamanlamaydı. Deb çok iyi bir kullanım örneğine sahipti” dedi.
Problem Çözülüyor
Kodları değiştirmeden yapılan ilk testte, Tylor’ın işleri 5 kat hızlandı. Yine de bu gelişmeye rağmen hala bazı bölümlerde gecikmeler yaşanmaya devam etti.
Ismaily, kodu incelemek ve test etmek için NVIDIA’dan bir veri bilimi ekibini çağırdı. Ekip kısa bir sürede, bazı dallanmış veri yapılarının hala CPU’larda çalıştığını fark etti. GPU’larda veri analizi yapmak için kullanılan RAPIDS’i Spark’ın arayüzüne yerleştirecek bir kod yazdılar ve sorun çözüldü.
Tikekar, “Tylor başka bir test çalıştırdı. Bu sefer bütün veri, dağıtılmış Spark yığınıyla GPU’lara ulaştı.Hız da inanılmaz bir artış oldu. Deb artık bütün modeli sadece 4 düğümlü bir yığında çalıştırıyor” dedi.
IRS’de Tikekar’ın patronu olan Joe Ansaldi, “Cloudera ve NVIDIA’nın güçlerini birleştirmesi, bizim kritik görevlerdeki kullanım durumlarını güçlendirmek için veri odaklı içgörüleri kullanmamızı sağlayacak. Şu anda bu entegrasyonla 20 kattan fazla hızlanma elde edildi ve veri mühendislerimizin, iş akışlarının maliyeti yarıya düştü” dedi.
Yapay Zeka Rotası
Ekip, veri hazırlama(çıkarma/dönüştürme/yükleme) aşamasında elde ettiği kazanımlar ile öğrendiklerini uygulamayı planlıyor.
Tikekar, “Cloudera ve NVIDIA ile yapılan ortaklık, kümelerde GPU’lardan faydalanabilmemizi sağlıyor. Bu tür gelişmeler ortaya çıktığında, teknolojisini tam olarak kullanan uygulamalar geliştirmek biraz zaman alır. Bu nedenle Deb bizim için yeni bir rota çiziyor” dedi.
Ekip, özellikle analistler için dağıtılmış Spark-GPU altyapısı sağlamayı hedefliyor. Bu altyapı sayesinde, doğal dil işleme gibi analiz çalışmalarını, gelişmiş sinir ağlarıyla yapabilecekler.
Makine Öğrenimi İçin Uygulamalar
Tikekar, “Örneğin, formları tarıyoruz ve ardından okumak için optik karakter tanıma uyguluyoruz. Fakat bunun yerine, AI yardımıyla formları okuma ve kimlik hırsızlığını fark etmemizi sağlayabilecek desenleri bulma gibi konularda daha iyi işler yapabiliriz. Bunun gibi daha bir çok iş yapabiliriz” diye ekledi.
NVIDIA GPU’ları ile hızlandırılmış Cloudera CDP 7.1.6 hakkında detaylı bilgi için GTC kaydını izleyebilirsiniz.
Aşağıdaki videoda, CPU’lara kıyasla NVIDIA GPU’ları ve RAPIDS kullanan bir veri bilimi iş yükündeki 44 kat hız artışını izleyebilirsiniz.
Yazının kaynağına buradan ulaşabilirsiniz.
OPENZEKA HABERLERİ
Hesaplarınızda paylaşmak ister misiniz?