Dolar
Euro
Altın
BİST
Adana Adıyaman Afyon Ağrı Aksaray Amasya Ankara Antalya Ardahan Artvin Aydın Balıkesir Bartın Batman Bayburt Bilecik Bingöl Bitlis Bolu Burdur Bursa Çanakkale Çankırı Çorum Denizli Diyarbakır Düzce Edirne Elazığ Erzincan Erzurum Eskişehir Gaziantep Giresun Gümüşhane Hakkari Hatay Iğdır Isparta İstanbul İzmir K.Maraş Karabük Karaman Kars Kastamonu Kayseri Kırıkkale Kırklareli Kırşehir Kilis Kocaeli Konya Kütahya Malatya Manisa Mardin Mersin Muğla Muş Nevşehir Niğde Ordu Osmaniye Rize Sakarya Samsun Siirt Sinop Sivas Şanlıurfa Şırnak Tekirdağ Tokat Trabzon Tunceli Uşak Van Yalova Yozgat Zonguldak
İstanbul °C

Yapay zeka video oluşturmada devrimsel gelişme kaydedildi

24.04.2023
29
A+
A-

ChatGPT, DALL-E ve Midjourney artık sadece teknoloji medyasında değil diğer geleneksel haber mecralarında da gündemde yer alıyor. Ancak bir sonraki yapay zeka devrimi metin ve görsel çıktıları üzerinde değil, video çıktıları üzerinde …

Yapay zeka video oluşturmada devrimsel gelişme kaydedildi

ChatGPT, DALL-E ve Midjourney artık sadece teknoloji medyasında değil diğer geleneksel haber mecralarında da gündemde yer alıyor. Ancak bir sonraki yapay zeka devrimi metin ve görsel çıktıları üzerinde değil, video çıktıları üzerinde gerçekleşecek. Nvidia’nın bir süre önce tanıtımını yaptığı yeni metinden videoya yapay zeka modeli VideoLDM, bahsettiğimiz devrimin kapısını aralamışa benziyor.

Nvidia’dan çığır açan gelişme

Yalnızca birkaç ay önce metinden videoya üretken yapay zekalar “Will Smith’in spagetti yemesi” örneğiyle sadece bir şaka malzemesi olarak görülüyordu. Ancak Nvidia’nın VideoLDM modeli önceki örnekleri unutturacak bir araç olarak karşımıza çıkıyor. Nvidia’nın bu teknolojiyi Cornell Üniversitesi araştırmacılarıyla el ele vererek yarattığını da belirtelim. Basit bir ifadeyle, bu yapay zeka modeli 2048 x 1280 piksele kadar çözünürlüğe, saniyede 24 kare hızına ve metne dayalı olarak 4,7 saniyeye kadar videolar oluşturabiliyor.

Nvidia, geliştirdiği modelinde 4,1 milyar parametre kullanıyor ancak bunların sadece 2,7 milyarı video eğitiminde kullanıldı. Bunun çok büyük bir sayı olduğunu düşünseniz de günümüzün yapay zeka standartlarına göre küçük bir sayı. Nvidia, video oluşturmak için eğitilmiş Latent Diffusion (LDM) modelini kullanıyor. Bu model zamanı izlenen bir boyut olarak algılıyor ve belirli bir süre boyunca bir görüntünün her alanında neyin değişebileceğini tahmin etmeye çalışıyor. Araç, sekans boyunca bir dizi ana kare oluşturuyor, ardından ana kareler arasındaki kareleri enterpole etmek için başka bir LDM kullanıyor.

Elbette VideoLDM şimdiki haliyle herhangi birini kandıracak kalitede videolar üretemiyor. Ancak daha bir veya iki ay önce gördüğümüz örneklere göre gelişimin boyutu çok büyük. Şu anda, Nvidia’nın tanıttığı gibi metinden videoya yapay zekalar GIF’ler oluşturmak için kullanılıyor. Bu nedenle Nvidia’nın daha uzun metinden video klipler oluşturmak için daha gelişmiş teknolojiler getirmesinin uzun sürmeyeceğini tahmin ediyoruz. Firmanın hazırladığı teknoloji 18-22 Haziran tarihleri arasında Vancouver’da düzenlenecek olan Machine Vision and Pattern Recognition Konferansında sunulacak.

Özgür Aysu
www.ozguraysu.com.tr
YAZARA AİT TÜM YAZILAR
BİR YORUM YAZIN

ZİYARETÇİ YORUMLARI - 0 YORUM

Henüz yorum yapılmamış.