Okuma 5.1 dkKategoriler: AI, Çeviri, Isha Salian

NVIDIA Maxine yazılım geliştirme kitinin video konferans konusundaki derin öğrenme modellerinden biri olan Vid2Vid Cameo, üretken rakip ağları (GAN) kullanarak bir kişinin tek bir iki boyutlu durağan görüntüsünden kişinin gerçekçi ve konuşan bir videosunu sentezler.

Kullanıcılar bir video görüşmesine katılmadan önce kendilerinin gerçek bir fotoğrafını veya çizgi film avatarı olabilecek herhangi bir referans görüntüyü gönderirler. Toplantı sırasında, Yapay zeka modeli her bireyin gerçek zamanlı hareketini yakalar ve bunu önceden yüklenen durağan görüntüye uygular.

Kişi, resmi kıyafetli bir fotoğrafını yükledikten sonra ister dağınık saçlı, ister pijamalı olsun, yapay zekanın arkaplanda yüz hareketlerini referans fotoğrafa eşleştirmesi sayesinde resmi bir video konferansına gönül rahatlığıyla katılabilir. Ayrıca model, katılımcı kameraya direkt olarak bakmasa bile katılımcının doğrudan web kamerasına bakıyormuş gibi görünmesini sağlayabilir.

Bu yapay zeka tekniği, toplantıya katılan kişilerin en iyi şekilde görünmesine yardımcı olmanın yanı sıra, video konferans için gereken bant genişliğini 10 kata kadar küçülterek titreşim ve gecikmeyi de önler. Yakında NVIDIA Video Codec SDK’da, AI Face Codec olarak mevcut olacak.

Vid2Vid Cameo, 28 NVIDIA makalesinden biri olarak bu yıl düzenlenen Bilgisayarlı Görü ve Örüntü Tanıma Konferansı (CVPR) sanal etkinliğinde sunuldu.

Yapay Zeka Gösteriyi Çaldı

Klasik soygun filmlerine selam veren NVIDIA araştırmacıları, sanal bir toplantı için GAN tarafından sentezlenen gerçekçi konuşan modellerini adım adım sergilediler. Demo, yüz yönlendirme, animasyonlu avatarlar ve veri sıkıştırma dahil olmak üzere Vid2Vid Cameo’nun temel özelliklerini vurgular.

For privacy reasons YouTube needs your permission to be loaded.
I Accept

Bu özellikler, geliştiricilere video konferans ve canlı akışta video, ses ve artırılmış gerçeklik efektleri için önceden eğitilmiş ve optimize edilmiş modeller sunan NVIDIA Maxine SDK’ya çok yakında geliyor.

Geliştiriciler, akıllı gürültü giderme, video yükseltme ve vücut pozu tahmini gibi Maxine AI efektlerini hemen deneyebilirler. Ücretsiz indirilebilen SDK, transkripsiyon ve çeviri dahil olmak üzere konuşma tabanlı yapay zeka uygulamaları için NVIDIA Jarvis platformuyla da eşleştirilebilir.

Yapay Zeka Tarafından Merhaba

Vid2Vid Cameo, video konferansta kişinin gerçekçi ve konuşan bir videosunu oluşturmak için yalnızca iki öğeye ihtiyaç duyar: kişinin tek bir durağan görüntüsü ve bu görüntünün nasıl canlandırılacağını belirleyen bir video akışı.

NVIDIA DGX sistemlerinde geliştirilen model, yüksek kaliteli 180.000 videodan oluşan bir veri seti kullanılarak eğitildi. Yapay zeka ağı, yüz hareketini modellemek için kullanılabilecek 20 önemli noktayı manuel etiketlemeler olmadan belirlemeyi öğrendi. Noktalar; gözler, ağız ve burun dahil olmak üzere 20 özelliğin konumunu kodlamaktadır.

Daha sonra ağ, bu önemli noktaları arayan kişinin referans görüntüsünden çıkararak, diğer video konferans katılımcılarına önceden gönderilebilecek veya önceki toplantılardan yeniden kullanılabilecek şekilde ayarlar. Bu şekilde, bir katılımcıdan diğerine yoğun bir canlı video akışı göndermek yerine, video konferans platformları, konuşmacının önemli yüz noktalarının nasıl hareket ettiğine ilişkin verileri basitçe gönderebilir.

Alıcı tarafında, GAN modeli bu bilgiyi referans görüntünün görünümünü taklit eden bir videoyu sentezlemek için kullanır.

Bu teknik, tam video akışları yerine yalnızca ana konumu ve önemli noktaları sıkıştırıp göndererek, video konferanslar için bant genişliği ihtiyaçlarını 10 kat azaltabilir ve daha sorunsuz bir kullanıcı deneyimi sağlayabilir. Model, görsel kaliteden ödün vermeden farklı bant genişliği ortamlarına uyum sağlamak için farklı sayıda anahtar nokta iletmek üzere de ayarlanabilir.

Kullanıcının sentezlenen gerçekçi ve konuşan videosunun bakış açısı, yan profilden veya düz bir şekilde ve ayrıca daha düşük veya daha yüksek kamera açılarından gösterecek şekilde serbestçe ayarlanabilir. Bu özellik, hareketsiz görüntülerle çalışan fotoğraf editörleri tarafından da uygulanabilir.

For privacy reasons YouTube needs your permission to be loaded.
I Accept

NVIDIA araştırmacıları, ister referans görüntü ve video aynı kişiden olsun ister yapay zekanın bir kişinin hareketini, bir başkasının referans görüntüsüne aktarmakla görevlendirilsin; Vid2Vid Cameo’nun daha gerçekçi ve daha kesin sonuçlar üreterek en güncel modellerden bile daha iyi performans gösterdiğini buldu.

İkinci özellik, bir video konferansta dijital bir avatarı canlandırmak için bir konuşmacının yüz hareketlerini uygulamak veya hatta bir video oyununa veya çizgi film karakterine gerçekçi bir ifade ve hareket kazandırmak için kullanılabilir.

Vid2Vid Cameo’nun arkasındaki makale, NVIDIA araştırmacıları Ting-Chun Wang, Arun Mallya ve Ming-Yu Liu tarafından yazılmıştır. NVIDIA Araştırma ekibi, Yapay zeka, bilgisayarlı görü, otonom arabalar, robotik ve grafik gibi alanlara odaklanan dünya çapında 200’den fazla bilim insanından oluşur.

Netflix’te “La Casa De Papel/Money Heist” programında The Professor’ün İngilizce seslendirmesini yapan oyuncu Edan Moses’a , en son AI araştırmamızın yer aldığı yukarıdaki videoya yaptığı katkı için teşekkür ederiz.”

Yazının kaynağına buradan ulaşabilirsiniz.

OPENZEKA HABERLERİ

Abone olmak ister misiniz?

Hemen ilgilendiğiniz alanları seçerek bültenimizden haberdar olabilirsiniz.

OPENZEKA HABERLERİ

Abone olmak ister misiniz?

Hemen ilgilendiğiniz alanları seçerek bültenimizden haberdar olabilirsiniz.

Hesaplarınızda paylaşmak ister misiniz?

İlgili Yazılar