Kategoriler
Teknoloji

Yeni bir AI, 3 SANİYELİK SESLE herkesin sesini simüle edebiliyor!

Bu duyduğunuz konuşmaların hiçbiri gerçekte yapılmadı! 

Dikkat ederseniz, hepsi de farklı farklı insan sesleri bunların. Kimisi erkek, kimisi kadın. Kimisi genç, kimisi yaşlı. Kimisi öfkeli, kimisi uykulu… Tüm bu konuşmalar yeni bir yapay zeka tarafından sentezlendi. 

Microsoft araştırmacılarının geliştirdiği özel bir yazıdan-sese (text-to-speech) modeli bu. Herhangi bir insanın sesini bu yapay zekaya sadece 3 saniye dinleterek ona istediğiniz her şeyi söyletebiliyorsunuz. 

Oysa insan sesi, parmak izi gibidir. Herkesinki birbirinden farklıdır. Zaten o yüzden bazı yerlerde şifre olarak bile kullanılır. Sesim, şifremdir. En güvenli sistemlere bile giriş yapmamı sağlayan bir pasaporttur.

Artık bu pasaport bir işe yaramayacak mı? ChatGPT ile insanmış gibi yazan, Dall-e’yle insanmış gibi resim yapan yapay zeka şimdi de insanmış gibi konuşmaya başladı. Üstelik yeni adı da pek bir yaratıcı(!): VALL-E.

1992 yapımı “Sneakers” (ya da bizde gösterilen adıyla Şifreciler) filminde bir bilgisayar parolasını öğrenebilmek için gizli kameralarla klavye izlemesi yapıyorlardı.

  • Parolasını yazacak, biz de buradan alacağız.

Klavyenin önüne gelen beklenmedik engellere rağmen tuş vuruşlarından ve aralarındaki konumlardan çözmeye çalışıyorlardı. 

  • W, G…
  • Bana H gibi geldi. 

Ekip tüm dikkatiyle düşük çözünürlüklü görüntülere odaklanmış durumdaydı. Yani gözleriyle görmeye çalışıyorlardı.

  • Tamam, kesinlikle W ve G.
  • Kesinlikle değil. Bu, V.

Onlar aralarında tartışa dursun, ekipten başka biri başka bir şekilde görmeye çalıştı. 

  • Çocuklar, Janek’in siyah kutusu masasında duruyor. Kalem kutusuyla lamba arasında.

Üstelik bunu söyleyen kişinin gözleri görmüyor.

  • Whistler, söylemek istemiyorum ama sen körsün.

Gözleriyle değil kulaklarıyla gören bu kişi kaseti tekrar başlatmalarını tavsiye etti.

  • Kaseti tekrar başlatın.
  • Ama bir şey görünmüyor ki.
  • Bakmayın, dinleyin. 

Ve işte o zaman anladılar. 90’larda internet yaygınlaşmamışken bile, klavyeden girilen parolalar güvenli değildi. Onun yerine o zamanlara göre çok daha futuristik görünen başka bir şifreleme teknolojisi kullanılmalıydı: İnsan sesi. 

Evet, insan sesinin çok ilginç özellikleri var. Ekranda gördüğünüz bu şey bir spectrogram. Sesimin içerdiği frekansların bir spektrumunu görsel olarak sunuyor. Konuştukça bir ses izi bırakıyorum. Ve benim bıraktığım bu ses iziyle sizinki birbirinden farklı. Bugüne kadar yaşamış 100 milyardan fazla insanın sesi benzersiz. Sadece ses tellerimizin ve ağız yapımızın farklı olmasından değil, vücudumuzun geri kalanı da farklı olduğundan… Hiçbir insanın ses özellikleri diğeriyle tıpatıp uyuşmuyor. 

İşte Sneakers filmindeki şifre kıran ekip bunu kullanan bir güvenlik sistemini çökertmeye çalışıyordu. Gizli kameralarla takip edilen koridorlardan kılık değiştirerek geçebilmek kolay. Kopyalanan kartlarla kapıları açabilmek de öyle. Güvenlik sisteminin son aşamasındaki ses engelini aşmak içinse çok daha gelişmiş bir teknolojik araca ihtiyaç var. Minik bir kasetçalara…

Çok gelişmiş dediysem o zamana göre öyleydi canım, idare edin 🙂

Küçük bir aksaklıktan sonra hazırladıkları kaydı güvenlik sistemine dinletiyorlar.

  • Sesim pasaportumdur. Onayla beni.

Ve tabiki onaylanıyor. Kapı açılıyor. Dedim ya ses izi, kapıları açabilecek derecede özgün, biricik. Peki ses taklidi yapanlara ne demeli? 

Aslında bu ses taklidi değil, konuşma taklidi. Çünkü konuşma şeklimiz sesten farklı olarak zaman içerisinde geliştirdiğimiz bir özellik. Hatta istemeden de olsa birbirimizin konuşma şeklini etkileyebiliyoruz. Oysa ses izi böyle değil. Onu sadece dinleyerek taklit edemeyiz.

Biz bunu yapamayız ama bilgisayar yapabilir. Az önce sesimi kaydederken bir yandan da frekanslarını göstermişti. Bunu daha da ayrıntılı bir şekilde analiz ederse ne olur? 

Microsoft araştırmacıları işte tam da bu sorunun peşine düşmüşler. VALL-E adında bir model geliştirmişler. “Neural codec language model – nöral kodek dil modeli” olarak tanımladıkları bu sistemde Meta’nın 2022 Ekim’inde anons ettiği EnCodec teknolojisi kullanılmış. 

Normalde text-to-speech yani yazıyı sese dönüştüren sistemler bunu ses dalgalarını manipüle ederek yapıyor. VALL-E ise insan sesini analiz ederek işe başlıyor. Bu bilgiyi EnCodec yardımıyla birbirinden ayrı “token” adı verilen minik komponentlere dönüştürüyor. İşin yapay zeka kısmı buradan sonra. 3 saniyelik bir insan sesinden 3 dakikalık bir konuşma yapabilmek için makine öğrenmesi yoluyla yeni yazdığınız cümlelerin nasıl okunabileceğini kestirmeye çalışıyor. Onu ne kadar çok bilgiyle eğitirseniz bu kestirim o kadar isabetli oluyor. 

Peki nereden bulmuşlar yapay zekayı eğitecek derecede zengin insan seslerini? Halka açık bir sesli kitap kütüphanesinden… LibriVox’ta gönüllüler tarafından seslendirilen kitapların büyük bir arşivi var. Bu arşivin erişimi herkese açık. İngilizce biliyorsanız tüm bu kitapları dinleyebilirsiniz. 

MetaAI bu halka açık kütüphanedeki sesleri veri setlerine çevirmiş. 7000’den fazla kişinin okuduğu 60000 saatlik bir dijital kütüphane oluşturmuş. Eğer bu konuda araştırma ya da deneme yapmak isterseniz bu verisetinin linkini de videonun metni içerisinde bağlantılandırarak web sitemden yayımladım. 

VALL-E kendini bu verisetiyle eğitmiş. Az önce de söylediğim gibi geleneksel text-to-speech metodlarından farklı bir şekilde çalışıyor. Bunun hem artıları hem de eksileri var. Sisteme sadece yazı vermeniz yeterli olmuyor. İnsan sesinden bir örnek de girmek gerekiyor. Burada çarpıcı olan şey sadece 3 saniyelik bir ses örneğinin yeterli olması. Bu ses kaydı ve yazılan yazının fenom çevrimi “nöral kodek dil modeli”ne gönderiliyor. Ve ardından kişiselleştirilmiş konuşma sentezleniyor. 

Bazı konuşmalar çok inandırıcı. Bazılarıysa bir bilgisayar tarafından sentezlendiğini belli ediyor. Yani o kadar da ikna edici bir seviyeye henüz gelememiş. Modelin ilginç özelliklerinden biri de örneklendiği sesin kaydedildiği ortamı bile taklit edebilmesi. Örneğin bir telefon görüşmesinden 3 saniyelik kaydı dinlerse, sentezlediği cümle de sanki bir telefondaymış gibi olabiliyor.

Beni en çok etkileyen örneklerse konuşma şeklini çeşitlendirebilmesi. Az önce ses taklidi yapanların aslında insanların konuşma şeklini taklit ettiklerini söylemiştim. Konuşma şekli doğuştan gelen bir özellik değil. Karakterimizin bir parçası. VALL-E 3 saniyelik bir sesten farklı konuşma karakterleri de sentezleyebiliyor. Bakın şimdi duyacaklarınız aynı ses, farklı konuşma şekli. Duyuyor musunuz? İfadeler, vurgular daha değişik. 

Tüm bunları dinlerken ister istemez güvenlik endişeleri de başlıyor. Zaten o yüzden modeli geliştiren araştırmacılar şöyle bir açıklama yapma ihtiyacı hissetmişler:

“VALL-E, konuşmacı kimliğini oluşturan konuşma şeklini sentezleyebildiğinden, ses tanımlamasını veya bir kişiyi taklit etmek gibi modelin kötüye kullanılmasına dair potansiyel riskler taşıyabilir. Bu tür riskleri azaltmak için, bir ses klibinin VALL-E tarafından sentezlenip sentezlenmediğini ayırt edecek bir algılama modeli oluşturmak mümkündür.”

Evet, bu gibi önlemler kesinlikle alınmalı. Yapay zeka modelleriyle üretilen her şeyi, yazıları, resimleri ve nihayet sesleri ayırt edebilen sistemler geliştirmek gerekiyor. Bunun bazı örneklerini görmeye başladık bile. 

Çünkü beğensek de beğenmesek de “geliyor gelmekte olan.” Bu kaçınılmaz teknolojik gelişmeler karşısında kafamızı kuma gömmek, orada burada yasaklamaya çalışmak sürdürülebilir bir çözüm sağlamaz. Sorumluluk elbette en başta bu teknolojileri geliştirenlerin üzerinde. Mutlaka onu kontrol edecek ve gerçeğinden ayırt edebilecek bir sistemi de sunmalılar. 

Kötü bir benzetme ama zehir yaptıysan panzehirini de üreteceksin.

Fakat az da olsa bizim de bir sorumluğumuz var bence. Başta bir medya okur-yazarlığı geliştirmeliyiz. Gerçeği sahtesinden, doğalı yapayından, insanı makinesinden ayırt edebilecek bir içgörü sahibi olmaya çalışmalıyız.

Çünkü eskiden 3 saniyelik bir kayıtla en fazla şu yapılabiliyordu:

  • My voice is my passport (Stephen Tobolowsky)

Şimdi bunu VALL-E’ye versek neler söyletebiliriz kim bilir? O zaman VALL-E’ye değil de Edgar Allan Poe’nun söylediklerine kulak verelim. Ne demişti?

“Gördüklerinizin yalnızca yarısına inanın, duyduklarınızın hiçbirine.”

 

“Yeni bir AI, 3 SANİYELİK SESLE herkesin sesini simüle edebiliyor!” için bir yanıt

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir