“Bu videoda izleyeceğiniz görüntülerin neredeyse tamamı yapay zeka tarafından üretildi. Ben hariç!” demiştim bundan 9 ay kadar önce. Ama o günden bugüne SORA’dan çıt çıkmadı. 9 ay sonra nihayet dün o bebek doğdu yani 9 Aralık 2024’te OpenAI, yapay zeka dünyasını bir kez daha değiştirecek o haberi verdi. ChatGPT’yi de geliştiren şirket, SORA’yı kullanıma açtı… ve sonra hemen kapattı. Web sitesi aldığı yoğun trafikten dolayı üye alımlarını durdurmak zorunda kaldı.
“Peki neden bu ilgi?” diyeceksiniz.
Şu an ekranda gördüğünüz videolardan. Çünkü bunlar için kamera kullanmak gerekmiyor. Bunlar tamamen yapay zeka tarafından üretildi. Sadece birkaç kelimelik ya da cümlelik komutlarla…
Artık böyle şeyleri duymaya, görmeye biraz alıştık galiba. İlk başlarda deprem gibi sarsıcı bir etki yaratıyordu ama sonraları okyanusun ortasında bizden çok uzakta yaşanan bir deprem gibi gelmeye başladı. Ama alışmamak lazım. Bu tür gelişmeler son derece önemli ve bir tsunami gibi… Gerçek etkilerini daha sonra dalgalar kıyıya yaklaşınca görmeye başlayacağız.
Biz görmesek de bu teknolojinin etkisi şimdiden Hollywood’u sarsmaya başladı bile…
Milyarder film yapımcısı Tyler Perry, SORA’nın yeteneklerini gördükten sonra 800 milyon dolarlık stüdyo genişletme planlarını durdurdu. Neden mi? Birazdan göstereceğim örnekler size bunun nedenini açıkça anlatacak.
Bu gördüklerimizden hangisi gerçek hangisi yapay zeka? Artık karar vermek giderek zorlaşıyor… Araştırmalar önümüzdeki üç yıl içinde sadece eğlence sektöründe 204.000 kişinin işini kaybedeceğini öngörüyor. Bu, teknolojinin karanlık yüzü mü, yoksa yeni fırsatların başlangıcı mı?
Şimdi öncelikle yeni çıkan SORA’yı ve özelliklerini görelim, sonra bu konulara dönelim.
Az önceki tsunami sahnesine daha dikkatli bakalım… İlk bakışta etkileyici görünüyor, değil mi? Ama biraz daha yakından incelediğimizde, özellikle fizik kuralları konusunda bazı tutarsızlıklar göze çarpıyor. Antilopların hareket hızları gerçek dünyada olduğundan farklı, başka örneklerde hayvanların ya da insanların bazıları aniden yön değiştirebiliyor, bazıları ise fizik kurallarına aykırı şekilde davranabiliyor.
Bu tür tutarsızlıkların nedeni, SORA’nın çalışma prensibinde gizli. OpenAI’ın geliştirdiği sistem, “Diffusion Transformer” adı verilen bir model kullanıyor. Bu model, görüntüleri analiz edip yeni kareler üretebiliyor, ancak fizik kurallarını tam olarak simüle edemiyor. Aslında sistem, önce videoları daha küçük parçalara bölüyor – tıpkı bir yapbozun parçaları gibi. Bu parçaları sıkıştırıp daha kolay işlenebilir hale getiriyor. ChatGPT nasıl kelimeleri tek tek öğrenip sonra anlamlı cümleler kurabiliyorsa, SORA da bu video parçalarından anlamlı hareketli görüntüler oluşturmaya çalışıyor. Sistem aynı anda hem fotoğrafları hem videoları işleyebiliyor ve bunları farklı boyutlarda, farklı sürelerde üretebiliyor – dikey telefon videolarından geniş ekran film formatına kadar. İlginç olan şey, sistemin bazı yeteneklerinin kendiliğinden ortaya çıkması. Örneğin, kimse ona üç boyutlu düşünmeyi öğretmedi ama kamera hareket ettiğinde nesnelerin nasıl görüneceğini kavrayabiliyor. Bazen bir nesne görüş alanından çıkıp tekrar girdiğinde, o nesneyi hatırlayıp aynı şekilde gösterebiliyor. Hatta Minecraft gibi video oyunlarını bile taklit edebiliyor – hem oyunu oynayıp hem de görüntüyü oluşturabiliyor. Ancak hala bazı temel sorunları var. Mesela bir bardak kırıldığında fizik kurallarına uygun davranmıyor ya da birisi yemek yerken yiyeceğin durumu her zaman doğru değişmiyor. OpenAI’a göre bu, sadece başlangıç. Sistemin amacı, sonunda gerçek dünyanın, içindeki insanların, hayvanların ve nesnelerin davranışlarını doğru bir şekilde simüle edebilen bir teknoloji geliştirmek. Her ne kadar şu an için bazı basit fiziksel etkileşimleri bile tam olarak modelleyemese de, araştırmacılar bunun zamanla gelişeceğine inanıyor.
Düşünürsek bundaki zorluğu kendimiz de kavrayabiliriz. Fotoğraf gibi görüntüler üretmek günümüzde nispeten kolay. Ama videoda bunlardan her saniye 24 tane üretmek gerekiyor. 24 tane görüntü üretmek de nispeten kolay. Ama videoda her karenin bir önceki ve sonrakiyle tutarlı olması gerekiyor. Bu, sadece görsel açıdan değil, hareketin mantığı açısından da büyük bir zorluk.
Mesela şu New York sokaklarındaki uzaylı örneğine bakalım. Evet, 35mm film efektini başarıyla uygulamış. Ancak dikkatli bakarsanız, arka plandaki insanların hareketlerindeki tutarsızlıkları, bazen aniden kaybolan veya beliren nesneleri görebilirsiniz.
İlginç bir şekilde, SORA gerçekçi sahnelerde zorlandığı fizik kurallarını, stilize edilmiş içeriklerde daha rahat aşıyor. Örneğin karton karakterler ya da animasyon tarzındaki videolarda, gerçekçi fizik kuralları beklentimiz olmadığı için, sonuç daha ikna edici olabiliyor.
Peki tüm bu gözlemlerimiz bize ne söylüyor: SORA henüz emekleme aşamasında. Daha yeni doğdu demiştim 🙂 Evet, etkileyici şeyler yapabiliyor, ama sınırlarını ve kısıtlamalarını da açıkça görebiliyoruz.
SORA’nın arayüzü oldukça sade br şekilde tasarlanmış. Sol tarafta diğer kullanıcıların ürettikleri içerikleri görebileceğiniz bir alan var. Bu alan aynı zamanda bir öğrenme merkezi gibi çalışıyor, çünkü her videonun altında tam olarak hangi komutla üretildiğini görebiliyorsunuz.
Temel video üretimi için kullanılan “composer” oldukça basit: Bir metin kutusu ve birkaç temel ayar. Çözünürlük seçenekleri 480p’den 1080p’ye kadar çıkıyor. Videonun ölçeğini ve süresini de ayarlayabiliyorsunuz.
Dikey, kare ve yatay format seçenekleri mevcut. Ancak burada ilginç bir nokta var: Daha yüksek çözünürlük ve daha uzun süreli videolar için bekleme süreniz önemli ölçüde artıyor. 360p’lik 5 saniyelik bir video 20 saniyede hazır olurken, 1080p’lik 10 saniyelik bir video birkaç dakikanızı alabiliyor.
SORA’nın en iddialı özelliklerinden biri “storyboard”. Normal bir video düzenleyiciye benziyor, ama burada fiziksel olarak video kırpmıyorsunuz. Onun yerine, yapay zekaya videonun farklı bölümleri için yönergeler veriyorsunuz.
Örneğin, “Kırmızı bir turna kuşu suda duruyor” diye başlayıp, birkaç saniye sonra “Kuş başını suya daldırıp bir balık yakalıyor” diye devam edebiliyorsunuz. Ancak burada kritik bir nokta var: İki sahne arasında yeterli boşluk bırakmazsanız, SORA sert kesimler yapabiliyor veya tutarsız geçişler üretebiliyor. Yani denge ve zamanlama önemli.
Bir diğer özellik “remix”. Var olan bir videoyu alıp değiştirebiliyorsunuz. Mesela sahildeki bir evi alıp arka planına golf sahası ekleyebiliyorsunuz ya da evin özelliklerini değiştirebiliyorsunuz. Ama bu değişiklikler her zaman istediğiniz gibi sonuç vermeyebilir. Özellikle karmaşık sahnelerde tutarsızlıklar artıyor.
“Loop” özelliği ise tekrar eden videolar üretmeyi hedefliyor. Teoride güzel bir fikir, ama pratikte her zaman kusursuz döngüler elde edemiyorsunuz. Bazen görünür kesintiler veya anlık bozulmalar olabiliyor.
Son olarak “blend” özelliğinden bahsetmeliyim. İki farklı videoyu birleştirip yeni bir şey üretmeyi hedefliyor. Mamut videosunu robotlarla birleştirme denemesi gibi… Sonuçlar bazen şaşırtıcı derecede iyi, bazen de oldukça karmaşık ve tutarsız olabiliyor.
SORA’nın yapabildiklerini gördük. Peki ya yapamadıkları? Ya da belki daha önemlisi – yapabildiği halde yapmasına izin verilmeyenler…
OpenAI, SORA’yı kullanıma açmadan önce “kırmızı takım” olarak adlandırdıkları güvenlik uzmanlarıyla çalıştığını ifade ediyor. Bu ekip, sistemin olası kötüye kullanımlarını test etmiş. Sonuç olarak bazı önemli kısıtlamalar getirilmiş.
Örneğin sistem şu içerikleri üretmeyi reddediyor:
- Telif hakkı olan karakterler veya logolar
- Tanınabilir kişilerin görüntüleri
- 18 yaş altı kişilerin olduğu sahneler
- Şiddet veya çıplaklık içeren görüntüler
Güvenlik kısıtlamalarının ötesinde, teknik açıdan da bazı önemli sorunlar var. Bunları kategorilere ayıralım:
İlk olarak “nesne sürekliliği” problemi. Nesneler bazen sebepsiz yere kayboluyor veya yer değiştiriyor. Telefon tutan bir el düşünün – bir karede telefon var, diğerinde yok.
İkinci büyük sorun, fizik kurallarının tutarsız uygulanması. Özellikle yürüme sahnelerinde bacaklar karışabiliyor. Bir bacak önde başlayıp arkada bitebiliyor. Ya da nesneler yerçekimine aykırı şekilde hareket edebiliyor.
Hatta en basit görünen şeylerde bile sorunlar çıkabiliyor. Güvenlik kamerası görüntüsü gibi sabit bir çekim istediğinizde bile, insanların hareketleri doğal olmuyor. Bazen çok yavaş, bazen anormal derecede hızlı.
OpenAI bu sorunların farkında ve şeffaf davranmaya çalışıyor. Üretilen her videoya C2PA standardında metadata ekliyor. Yani bir videonun yapay zeka tarafından üretildiğini tespit etmek teoride mümkün.
Ancak daha derin bir sorun var: Veri seti. SORA’nın eğitiminde hangi veriler kullanıldı? Bu konuda OpenAI eskisi kadar şeffaf değil. Nitekim New York Times bu sebeple şirkete dava açtı.
Ama onlar “biz sadece halka açık verileri kullandık” diyorlar. Ah evet, sadece “halka açık veriler.” Ne kadar da muğlak bir ifade değil mi? YouTube da halka açık, Instagram’daki reels’ler de, TikTok videoları da… Hatta sokaktaki güvenlik kamerası görüntüleri bile teknik olarak “halka açık.” Yani teoride birisi çıkıp “Aa, bu video internette vardı, herkes görebiliyordu, o yüzden kullandık” diyebilir. İyi de siz bizim görüntülerimizi kullanarak “ücretsiz” eğittiniz, şimdi bunları bize “ücretsiz” olarak geri mi vereceksiniz?
Düşünsenize, yıllarca uğraşıp profesyonel ekipmanlarla video çekiyorsunuz, post-prodüksiyon yapıyorsunuz, renk düzeltmesi yapıyorsunuz, sonra bu videoları stok sitelere yüklüyorsunuz. Ben yapmıyorum ama Türkiye’de bu şekilde geçimini sürdüren pek çok kişi olduğunu biliyorum. Bir gün bir bakıyorsunuz ki yapay zeka sizin videolarınızı “eğitim” için kullanmış. Hem de size sormadan! “Ama herkese açıktı” diyorlar. E tamam o zaman, ben de gidip bir restoranın menüsündeki yemeklerin fotoğraflarını çekip kendi restoranımda kullanayım. Nasılsa “halka açık” değil mi?
Ve OpenAI bu konuda eskisi kadar “Open” değil. Hani isminin başındaki “Open” kelimesi var ya? Gittikçe daha da “Closed” olmaya başladılar. New York Times’ın dava açması da bu yüzden zaten. “Siz bizim haberlerimizi kullanarak makinenizi eğittiniz” diyorlar. Ki haklılar da… Ama OpenAI’ın cevabı ne biliyor musunuz? Sessizlik. Çok “Open” bir yaklaşım, değil mi?
Sanırım yakında stok video sitelerinden de benzer davalar göreceğiz. Tabii o zamana kadar bu yapay zeka sistemleri onların işini tamamen bitirmemiş olursa. Çünkü neden birisi gidip stok video sitesinden para ödeyip video alsın ki artık? SORA’ya “Bana güneş batarken palmiye ağaçları olan bir sahil videosu ver” deyince bedavaya veriyor zaten. Üstelik o video gerçekte hiç çekilmemiş bile olsa…
Sadece stok görüntü kaydedip satan “küçük esnaf” değil, Hollywood da bu durumdan etkileniyor. Tyler Perry’nin 800 milyon dolarlık stüdyo yatırımını durdurması tesadüf değil. Sinema endüstrisi de bir dönüm noktasında. Ama bu durumu sadece iş kayıpları üzerinden okumak eksik olur.
Düşünün ki bir sahneyi çekmek için artık büyük ekiplere, pahalı ekipmanlara veya özel lokasyonlara ihtiyacınız yok. Bu, büyük stüdyolar için ciddi bir tehdit. Ama aynı zamanda bağımsız film yapımcıları için de yeni bir kapı açılıyor.
İşin teknoloji tarafında da ilginç gelişmeler var. SORA’nın piyasaya sürülmesi, yapay zeka çip üreticisi Nvidia’nın işine geliyor. Şu anda Piyasa Değerine Göre En Büyük Şirketler sıralamasında Google’ı, Amazon’u, Microsoft’u geçmiş durumda. Bu tesadüf değil. Çünkü…
[Grafik – Yapay zeka donanım ihtiyacı]
Bu tür sistemleri eğitmek ve çalıştırmak için muazzam bir hesaplama gücü gerekiyor. OpenAI’ın CEO’su Sam Altman’ın 7 trilyon dolarlık yatırım arayışı da bu yüzden.
[Montaj – Farklı SORA örnekleri]
Şu an gördüğümüz örnekler, bu teknolojinin sadece başlangıcı. Tıpkı ChatGPT’nin ilk sürümü gibi, SORA da sürekli gelişecek. Peki bu gelişim nereye varacak?
[Kesme – Deepfake örnekleri]
En büyük endişelerden biri dezenformasyon. Evet, SORA şu an güvenlik önlemleriyle geliyor. Her video işaretleniyor. Ama bu işaretler kırılamaz mı? Ya da başka sistemler benzer teknolojileri farklı amaçlarla kullanırsa?
[Split screen – Yaratıcı kullanım örnekleri]
Öte yandan, eğitimden belgesel yapımına, bilimsel görselleştirmeden sanat projelerine kadar pek çok alanda yeni olanaklar açılıyor. Küçük bütçeli projeler artık büyük prodüksiyonlarla rekabet edebilir hale geliyor.
Bu sistemlerin eğitimi ve çalıştırılması için gereken enerji tüketimi de ayrı bir endişe kaynağı. OpenAI bu konuda henüz net bir açıklama yapmadı, ama sadece SORA’nın eğitim sürecinin, orta ölçekli bir şehrin aylık elektrik tüketimine denk geldiği tahmin ediliyor.
İşin özüne baktığımızda ilginç bir dönüm noktasındayız aslında. Bir yanda SORA gibi araçlarla video üretiminin demokratikleşmesi var – herkesin hikayesini anlatabilme gücüne kavuşması. Diğer yanda ise gerçeklik algımızın belki de sonsuza dek değişecek olması…
Bu teknolojiyi nasıl bir gelecek inşa etmek için kullanacağız? Çünkü SORA sadece bir video üretim aracı değil – bu, gerçekliği yeniden tanımlama gücüne sahip bir teknoloji. Şu an izlediğiniz video bile, yakın gelecekte bir yapay zeka tarafından üretilmiş olabilir. Kim bilir, belki de gelecekte “Bu video gerçek mi, yapay mı?” sorusu anlamsızlaşacak.
tam da bu noktada, teknolojinin gücü karşısında insan olmanın değerini hatırlamalıyız. Çünkü SORA gibi araçlar sadece bizim uzantımız – hikayelerimizi anlatmak için kullandığımız yeni nesil fırçalar. Önemli olan o hikayeleri kimin, neden ve nasıl anlattığı. Ve şimdilik, bu hikayelerin arkasındaki yaratıcı güç hala biziz – düşünen, hayal eden, sorgulayan ve yaratan insanlar.
Ben Barış Özcan, gelecekte bu videoyu bir yapay zeka üretmiş olsa bile, şu an sizinle konuşan bir insan. Ve belki de bu videonun asıl mesajı bu: Teknoloji ne kadar gelişirse gelişsin, son söz her zaman onu kullanacak olan bizlerde olacak.
“SORA Çıktı! Bu Yeni Yapay Zeka Geleceğimizi Nasıl Değiştirecek?” için 2 yanıt
Bu film sektöründeki CGI gibi maliyetli yöntemlerin yerine kullanılabilir bir hale getirilebilecek mi ? Prompter gibi veya yapay zeka optimizasyonculuğu gibi meslek dalları ortaya çıkaracak mı ? Şuan bu alanda iş imkanları var mı ? Barış bey bunun ile ilgili bir videonuz yoksa çekmenizi rica ediyorum
Çok yakında SONY’nin Kuzey Amerika’daki en büyük stüdyosunu ziyaret ederek yapay zekanın film sektörüne etkileri hakkında bir video çekeceğim.