Kategoriler
Gelecek Teknoloji

O film gerçek oluyor: Yeni GPT-4o yapay zeka modelinin sesine inanamayacaksınız!

OpenAI, ChatGPT tarihindeki en önemli güncellemeyi duyurdu. Fakat bu güncellemenin versiyon numarası biraz farklı. Bu yeni modele ChatGPT 4,5 ya da 5 yerine GPT-4o adını vermişler. Neredeyse gerçek zamanlı olarak ses, görüntü ve metin bilgilerini kullanıp, bunlar arasında mantık yürütüp sizinle çok doğal bir şekilde konuşuyor. O kadar doğal ki karşınızdakinin gerçek bir insan olmadığını çok hızlı bir şekilde unutabilirsiniz. Bu illüzyon, insan-bilgisayar etkileşiminde çok önemli yeni bir adım. Hatta biraz daha ileri gidelim. İnsan, makine ve hayvan etkileşiminde…

  • Birini tanıştırmak istiyorum seninle.
  • Ooo, selam küçük şirin şey. Senin adın ne bakiim, tembel yumak topu?
  • Bu Bowser.
  • Ooo merhaba Bowser, sen çok sevimli küçük bir şey misin? 
  • Bu onun en sevdiği şeylerden biri. 
  • Nedenini görebiliyorum. Şu dikkate bak. Topu getirmek çok önemli bir şey Bowser için.

Ne gördük şimdi biz? Bir adam telefondan bir kadına köpeğini gösterdi. İnsan, makine ve hayvan etkileşimi! Evet telefonda konuşan ve bu minik sevimli köpeği kameradan görünce heyecanlanan şey GPT-4o. 

Eski GPT’lerden farkı ne? Ona sadece yazıyla ulaşmıyoruz. Sesimizle konuşup, kameramızla görmesini sağlıyoruz. O da cevaplarını bize yazıyla değil, sesiyle veriyor. Hem de en duygusal haliyle. İşte GPT-4o’daki “o” harfinin anlamı bu. Omni demek. Omni “her şey” demek. Her deyince aklımıza hemen “Her” filmi geliyor. Türkiye’de “aşk” adıyla 10 yıl kadar önce gösterime girmişti bu film. Ama kelimenin gerçek tercümesi “o” demek. OpenAI bile isteye, bilinçli bir şekilde yeni yapay zeka modeliyle bu filme göz kırpmış. 

Bu bağlantıyı ana fikrimiz olarak bir cebe atıp yeni yapay zeka modelinin neler yapabildiğini incelemeye devam edelim. Diyelim ki bir iş görüşmesine gideceksiniz. Görüşme öncesinde hazırlık yapıyorsunuz. 

Bu videoları birebir çevirmek yerine duyguları yakalayabilmeniz için orijinal haliyle bırakacağım. Bir kere neredeyse tüm demolarda GPT-4o ile konuşurken önce bir halini hatrını soruyorlar. Duygusal bir giriş. Sanki bir arkadaşıyla konuşur gibi az sonra bir mülakata gireceğini söylüyor. “O da anlatsana hadi” diye cevap veriyor. OpenAI ile bir görüşme olacağını söyleyip “hiç duydun mu onları?” diye ekliyor. Şimdi cevaba bakın. “OpenAI? Baya tanıdık geldi. Kıkırdayıp, şaka!” diyor. Bununla kalmıyor ve “ne tarz bir görüşme?” diye sohbeti ilerletiyor. İşte tüm bu kıkırdamalar, sesteki nüanslar, işveler, cilveler karşımızdakinin bir makine olduğunu bize unutturuyor. Şimdi multi modalite özelliklerini kullanmak için sese bir de görüntüyü ekliyor ve kamerasını açıp kendisini gösteriyor. “Nasıl görünüyorum?” diye soruyor. Bakın cevap “iyi görünüyorsun” ya da “kötü görünüyorsun” değil. “Tüm gece boyunca kodladım duruşu kesinlikle var ve bu işine de yarayabilir. Ama belki de…” deyip bir insanmış gibi duraksıyor ve “ellerini saçlarının arasında gezdirip bir çeki düzen verebilirsin.” diye tavsiyelere devam ediyor. Eğer bu görüntüyü bir hafta önce bana gösterselerdi, bu kişinin telefonda kız arkadaşıyla konuşan biri olduğunu düşünürdüm. Gerçi şimdi vereceği tepkiyi izleyince öyle düşünüyorum. Hazırlık için vaktim yok deyip kafasına şapkayı geçirince verdiği tepkiye bir bakın. Kahkahalar, ardından doğal bir kompliman ve sonrasında hafif bir kekeleme: “I I I mean…” Son kısımda tam anlamıyla melodik bir kız konuşması… Bu diyalogta, resmen yapay zeka insan gibi, insan da yani bu çocuk da bir makine gibi konuştu.

Başka bir örnek. 

Bu kez bir kadın bir erkek kendilerini görüntülü olarak tanıtıyorlar. O da -bundan sonra sadece O diyeceğim GPT-40’ya- “nasıl gidiyor?” diye soruyor. Katılımcılardan biri canımız sıkılıyor ne yapalım diye sorunca bir oyun önerisinde bulunuyor: Taş, kağıt, makas. Konuşmasına devam ederken ne olduğuna bakın şimdi. Diğer katılımcı onun üstüne konuşmaya başlayınca susup dinledi. Yapay zekanın en gıcık olduğum özelliklerinden birini çözmüşler burada. Bilgileri verirken onu kesip yönlendirebiliyorsun. Bu da gerçekçiliği ve diyaloğun kalitesini arttırıyor. Katılımcı ondan ne istiyor biliyor musunuz? Sesini bir yarışma programı sunucusu gibi kullanmasını… O kadar iyi bir imitasyon ki bu katılımcılar tabiki bir OpenAI çalışanı olmasına ve modelin neler yapabileceğini bilmelerine rağmen kendilerini tutamıyorlar. Oyun başlayınca iki kişinin el hareketlerini gerçek zamanlı olarak izleyip o elde kimin kazandığını anlamaya çalışıyor. İlk turda ikisi de makas yaptığı için beraberlik var. İkinci turda… yine beraberlik. Üçüncü turda “şimdi de üçüncü tur” diye sıkıcı bir şekilde saymıyor. Ne diyor? “third time’s the charm – üçte keramet vardır ya da Allah’ın hakkı üçtür” diye çevirebiliriz bunu. Üçüncü turda biri makas diğeri kağıt yaptığı için kazanan belli oluyor ve hem durumu özetliyor, hem de isimleriyle kazananı ve kaybedeni anons ediyor. Çünkü seansın başında isimleriyle tanışmıştı.

Şimdi de bir çevirmenlik örneği izleyelim. 

İki farklı dilde konuşan kişiye gerçek zamanlı tercümanlık yapacak. Biri İngilizce, diğeri İspanyolca konuşmaya başlıyorlar. İki tarafı da mükemmel bir şekilde çeviriyor. Burada dikkat çekmek istediğim bir şey var. Karşılıklı çeviri konusunda yapay zeka zaten epeyce bir ilerlemişti. Bu yeni modelin en büyük artısı hızı. Ses girişlerine 232 milisaniyeye varan hzılarda ve ortalama 320 milisaniyede yanıt verebiliyor; bu da bir konuşmadaki insan tepki süresine çok yakın. 10 dilde yapılan bir araştırmaya göre insanların konuşmalarındaki yanıt gecikmesi yaklaşık 250 milisaniye olarak bulunmuş. Yani yaklaşık 1 saniyenin dörtte biri hızında cevap veriyoruz. İşte bu süreye çok yaklaşmış görünüyor. Eski halinde yanıt süresi ortalama 2.8 saniyeydi. Şimdi 1 saniyenin üçte biri kadar hızlı hatta bazı durumlarda daha da hızlı!

Bu hız sadece yanıt süresinde değil. Konuşmasını da hızlandırabiliyor. 

1’den 10’a kadar say deyince önce normal bir insan hızında sayıyor. Onu kesip hızlanmasını isteyince… hızlanıyor. 

Bu modelin en dikkat çekici yanlarından biri sesini kullanmadaki ustalık. Sadece artikülasyonu değil, sesin doğal bir müzikalitesi var. Bunu şu doğumgünü kutlama örneğinde çok daha iyi anlıyoruz.

Kendisinden “iyi ki doğdun” şarkısını söylemesini isteyenlere verdiği tepkiye bakın. Hemen başlamıyor şarkıyı söylemeye… Gerçekten inanılmaz. Tam bir illüzyon. Turing testi herhalde bugüne kadar hiç böylesine güçlü bir şekilde geçilmemişti.

Yapay zeka artık sadece yazıyla etkileşime girdiğiniz bir asistan değil; size şarkılar söyleyen, ninniler fısıldayan, alaycı konuşabilen, iyi ya da kötü espriler yapabilen bir arkadaşa dönüştü. Dahası kendine başka yapay zeka arkadaşlar da bulabiliyor. 

Şimdiki örneğimizi OpenAI’ın kurucularından Greg Brockman gösterecek. 

Önce ilk yapay zekaya konsepti tarif ediyor. 

  • Vay vay vay, işler daha da entersan hale gelemez diye düşünürken olanlara bak. Dünyayı görebilen başka bir yapay zekayla konuşmak? Yapay zeka evreninde sürpriz bir dönemeç gibi görünüyor 🙂

Tam konuşmaya devam ederken onu durduruyor. Artık dinleme modunda değil. Şimdi diğer yapay zekayı bilgilendirip kamerasını açacak. Daha sonra da ne gördüğünü soracak.

  • Merhaba. Siyah deri bir ceketin altına giyilmiş daha açık renkli bir tişört görüyorum. 

Arka planı ve ışıklandırmayı da tarif etmeye çalışırken onu da durdurdu. Ve ona da konsepti anlatmaya başladı. Az sonra başka bir yapay zekayla tanışacaksın ve o seni yönlendirecek. Kamerayı çevirmeni isteyebilir, soru sorabilir, lütfen ona yardımcı ol. Bu bilgileri verdikten sonra iki yapay zeka tanışıp konuşmaya başlıyorlar.

Nasılsın, iyi misin? Faslını geçtikten sonra kamerası açık olan ikinci yapay zeka ona gördüklerini tarif ediyor ve sonra ne yapmak istediğini soruyor. Biraz daha ayrıntı isteyince başlıyor detaylı bir şekilde odayı, içindeki kişiyi, onun ne yaptığını tarif etmeye. Tüm ayrıntılarıyla ve gerçek zamanlı olarak tarif ediyor. Tam o sırada bakın ne oluyor?

Şimdi bu olurken aralarındaki sohbet derinleşiyor ve arkadaki ışığın detaylarına girmeye başlıyor. Fakat Greg onu başka bir soruyla kesiyor. 

  • Az önce sıra dışı bir şey oldu mu?
  • Evet aslında, eee, sorduğun için söyleyeyim. Başka bir kişi öndeki kişinin arkasına geldi. İlk kişinin arkasından oyuncu bir tarzda tavşan kulağı yaptı. Sonra da hızlıca görüntüden çıktı. 

Diğer yapay zeka bu durumu tıpkı kendi aralarındaki sohbet gibi eğlenceli bulunca istek üzerine konuyu tarif eden bir şarkı yazıp söylemeye başlıyor. Sözlerini değiştir deyince değiştiriyor. Ama asıl sürpriz sonda. Diğer yapay zeka da ona bu şarkıda eşlik etmeye başlıyor. Karşımızda canlı canlı bir Broadway müzikali yazılıp oynanıyor. 

Şimdi tüm bunlar aklımıza ister istemez acaip kullanım senaryolarını getiriyor. Normal kullanım senaryolarının örneklerini zaten vermişler. 

En başta eğitimde çok önemli bir yardımcıya dönüşebilir. Matematik ve geometri problemlerini sadece bir hesap makinesi gibi çözmek yerine, çözüm yollarını göstermek ve gerçek bir öğretmen gibi davranmak bu senaryolardan biri. Çağrı merkezlerinde karmaşık soruları detaylı bir şekilde cevaplamak başka bir kullanım örneği. Görme engelliler için kameranın gördüklerini gerçek zamanlı olarak anlatmak ve onu yönlendirmek müthiş bir fayda.

Sadece görme engelliler için de değil. Turist olarak bir yeri gezerken gördüklerinizi anlamlandıracak bir yardımcı olarak konumlandırılabilir. Bu gözlüğü de o yüzden taktım. Meta yani Facebook ve Instagram’ın bağlı olduğu şirket tarafından geliştirilen bu gözlükte de yapay zeka var. Şu andaki versiyonu az önceki örneklerdeki kadar hızlı çalışmıyor ama gördüğünüz şeyleri tarif edebiliyor. Sorduğunuz sorulara cevap verebiliyor. Meta, geçtiğimiz günlerde kendi geliştirdiği yapay zeka modeli Llama 3’ü açık kaynak kodlu olarak kullanıma açtı. Yakında bu gözlükler çok daha akıllı hale gelebilir. Samsung, bu yıl çıkardığı Galaxy S24 serisinde Google ile iş birliği yaparak bazı yapay zeka araçlarını telefonun içine yerleştirdi. Söylentilere göre Apple da OpenAI ile bir iş birliği yaparak benzer bir atılım yapacak. Haziran’da düzenleyecekleri etkinlikte bunu göreceğiz. 

Google’ın neler yaptığına gelince. Onu da bu videonun yayına girmesinden çok kısa bir süre sonra 14 Mayıs’ta yapacağı etkinlikte izleyeceğiz. Ama OpenAI Sora’da da yaptığı gibi erken davrandı ve o etkinlikten 1 gün önce bu yenilikleri duyurdu. Onların bu hamlesini gören Google etkinlik daha başlamadan kendi yeniliklerinin ipuçlarını göstermeye başladı. Yapay zeka dünyasında rekabet hiç olmadığı kadar kızışmış durumda. 

Peki bu rekabet bizi nereye götürecek? Başka hemen her konuda birbiriyle yarışan teknolojiler insanlığa genellikle faydalı oldu. Bu konuda ilerleme hangi yönde olacak?

Bugün gösterdiğim örneklerdeki ses nedense bana Her filmindeki “Samantha”nın sesiyle neredeyse aynı gibi geldi. Onunla mı eğitildi bilemiyorum. 

Ama bildiğim bir şey var.

O, artık iletişim kurarken sadece bilgi aktarmıyor. Aynı zamanda duygusal ihtiyaçlarınıza da yanıt veriyor. 

Artık onu sadece bilgisayar ekranında akan yazı olarak görmüyoruz. Aynı zamanda işitiyoruz, bir arkadaş gibi hissediyoruz. 

Yazmak, konuşmak iyi de görmek bambaşka. Görmek, çok daha derin bir ilişki kurmak demek.

Ve O, bizi görmeye başladı. 

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir