111 Hz ·Bölüm 29 ·22 Nisan 2022 ·25 dk ·2.134 kelime

Deepfake: Duyduklarınıza İnanabilir misiniz?

Sesiniz size mi ait? Belki de artık değildir? Birileri yapay zeka ile sizin sesinizi kullanan bir algoritma yaratabilir. Ve ona istedikleri her şeyi söyletebilirler. Yepyeni bir döneme giriyoruz: Deepfake dünyasına hoşgeldiniz. Bu, artık kulaklarınıza bile güvenemeyeceğiniz bir dünya.

0:00

Geçenlerde, 25 Mayıs’ta gelecek olan Obi-Wan Kenobi dizisine hazırlık için, 2019 yılında çıkmış olan The Mandalorian dizisini yeniden izliyordum. İzleyenler hatırlar, bu diziyle birlikte hayatlarımıza tüm internetin Bebek Yoda dediği Grogu karakteri dahil olmuştu. İkinci sezonun son bölümünü izlerken, o malum sahneyi görmek beni yeniden fazlasıyla şaşırttı ve aynı zamanda da düşündürdü. Kullandığımız teknoloji, 2021 yılında izlediğimiz bir diziye 1974 yılındaki görüntüsüyle aynı karakteri sokmayı nasıl başarmışlardı? Gördüğümüz şey gerçek miydi? Çünkü baya baya gerçek gibiydi. Düşünüyorum da, artık gördüğümüz ya da duyduğumuz şeylere ne kadar rahatlıkla inanabiliriz?

İsterseniz, size yaşanmış bir hikaye anlatayım. Ve duyduğumuz seslere güvenip güvenemeyeceğimize, bu hikayeyi dinledikten sonra karar verelim.

Sıradan bir Cuma günü, Londra’da bir öğleden sonra.

Hikayemizin başkahramanı, çok-uluslu bir şirketin yöneticilerinden biri. Bir İngiliz. Adını paylaşmadığı için, biz ona Kevin diyelim.

Bir gün, ofisinde oturduğu sırada,

Kevin’in telefonu çaldı. Kevin ahizeyi kaldırdı hattın diğer ucunda, patronu vardı. Ona da Johannes diyelim, kendisi bir Alman.

Johannes’in sesinde bir telaş vardı, ufaktan panikliyordu.

“Kevin. Kayıtlarda yeni farkettiğim büyük bir muhasebe hatası var. Şirketimiz çok önemli bir ödemeyi yapmayı kaçırmış. Eğer bir an evvel ödemeyi yapmazsak, yüklü bir geç ödeme cezası alacağız.”

Ortada bir sorun vardı ve çözülmeliydi. Bunun için, Kevin’in, Johannes’in paylaştığı hesap numarasına, derhal para transfer etmeliydi. Sözkonusu bu para, yüzbinlerce Euro değerinde. Bu yüzden Kevin bu isteği duyar duymaz garipsedi. Ama öte yandan, hattın diğer ucundaki ses, patronu Johannes’ti. Bu yüzden de itiraz etmedi. Telefonu kapadı ve patronunun gönderdiği hesap numarasına, gereken parayı gönderdi.

Ödeme gerçekleşmiş, kriz büyümeden engellenmişti.

Aradan çok değil, birkaç gün geçti. Kevin yine ofisindeydi ve yine telefonu çaldı. Arayan yine patronu Johannes’ti. Bir muhasebe hatası daha farketmişti, ve Kevin’in tekrar para göndermesi gerekiyordu. Kevin bu kez, biraz daha işkillendi. Bir hafta içinde iki muhasebe hatası. Üstelik bu kez, parayı göndermesi gereken hesap bilgileri de biraz şüpheli görünüyordu. Emin olmak adına, bu kez Kevin patronu Johannes’i telefonla aradı.

Ve konuşur konuşmaz, gerçeklerle yüzleşti. Patronu Johannes,

“Neden bahsediyorsun Kevin, ne para transefi, ne hesap hatasından söz ediyorsun?”

diyordu. Bu kez panik sırası, Kevin’deydi. Yüzbinlerce Euro’yu, kim bilir kimin hesabına göndermişti, şimdiyse patronu gelmiş, hiçbirinden haberi olmadığını söylüyordu. Neler oluyordu?

Telefon çalıyor. Ama bu kez, cep telefonu. Tam ofis telefonunda Johannes’le konuştuğu sırada, kim arıyor olabilir?

Kevin telefonu açtı. Arayan, patronu Johannes’ti.

Ne? İki ayrı telefonda, iki ayrı hatta, iki farklı Johannes. Bu nasıl olabilir?

Kevin’in kafası karışmıştı. Cep telefonundan kendisini arayan Johannes’e, “Ee? Bi dakka! Siz kimsiniz? Kiminle görüşüyorum?” diye sorar sormaz çağrı sonlanıverdi.

Peki ama, neydi bu? Arayan Johannes’in şeytani ikizi falan mıydı? Yoksa işin içinde, doğaüstü bir şeyler mi vardı? Biri onunla dalga mı geçiyordu? Yok canım, yüzbinlerce Euroluk şaka mı olur? Yüzbinlerce Euro... Eyvah! Hemen polisi aramalı! Ha bir de, sigorta şirketini.

Şirkete gelen uzmanlar, telefon kayıtlarını dinlediler, kopyalarını aldılar. Aradan geçen birkaç haftanın sonunda ise, kararı açıkladılar: Ortada doğaüstü bir şey yoktu, ve hattın diğer ucundaki Johannes’in şeytani ikizi falan değildi.

Kevin başından beri, bir bilgisayarla konuşuyordu.

Daha doğrusu, Johannes’in sesini taklit eden bir deepfake ile.

Deepfake.

Bizler onu, daha çok görsel dünyadan biliyoruz. Çünkü ilk olarak, işitsel dünyada değil, görsel dünyada başladı. Fotoğraf manipülasyonu, çok uzun zamandır varolan bir teknoloji. Adobe, Photoshop programını bundan 32 yıl önce, taa 1990 yılında piyasaya sürmüştü. Dolayısıyla, deepfake’in de kökleri, daha çok görsel efektler alanında ortaya çıktı.

Bilmem hatırlar mısınız? YouTube’un süperstarlarından Buzzfeed, 2018 yılında bir video yayınlamıştı.

Videoda, ABD eski başkanı Barrack Obama konuşuyordu

“Öyle bir çağa giriyoruz ki, bu çağda düşmanlarımız bizleri herhangi bir zamanda herhangi bir şeyi söylemişiz gibi gösterebilirler. Bunları asla söylememiş olsak bile.” diyordu.

Bunları asla söylememiş olsak bile. Bunları söyleyen Obama, bu sözleri aslında hiç söylememişti.

Videodaki Obama, tüm jestleri ve mimikleri, ve elbette sesiyle oradaydı. Dudak hareketleri, konuşmasını aynen takip ediyordu, tam bir senkron halindeydi. Ama bu videodaki konuşma hiç gerçekleşmemişti.

Bu bir deepfake’ti. Ama tüm deepfake teknolojisine rağmen, Obama’nın konuşmasını seslendiren, bir yapay zeka değildi. Onun sesini, komedyen Jordan Peele taklit etmişti. Yani az önce duyduğunuz ses, aslında yine gerçek bir insanın sesiydi.

Bunun aslında birkaç nedeni var. İlki, dediğim gibi, fotoğraf ve video manipülasyonunun geçmişi, çok daha eskiye dayanıyor, bu yüzden de çok daha olgunlaşmış bir teknoloji.

İkincisi ise yalnızca ilişkinin eskilliğiyle ilgili değil. Görüntü ile ses arasında çok temel bir farktan kaynaklanıyor. Görüntü, insan sağduyusunda göre çok daha uzamsal bir şey. Daha çok uzaya ve mekana ilişkin. Bu nedenle de haritalamak, görece kolay. Ama ses, haritalamaya biraz daha direnen bir yapıda. Dolayısıyla kopyalanmaya da.

Bu yüzden, yapay zeka ile birinin sesini taklit etmeye çalıştığınızda, elde ettiğiniz ses uzunca bir süre şöyle bir şeydi:

kusurları belirgin, nispeten robotik bir ses.

Bunun en önemli sebebi, görsel materyalle işitsel materyal arasındaki farktan kaynaklanıyor. Tahmin edersiniz ki, görsel bir materyali haritalamak, bir ses klibini haritalamaktan çok daha kolay, ve deepfake’in çalışma mantığı, tam olarak haritalama üzerine kurulu. Bu yüzden manipüle edilen şey, bir video olduğunda, ortaya çıkan sonuç çok daha gerçekçi oluyor.

Veya OLUYORDU desek daha doğru olur. En azından, Photoshop’u yaratan Adobe’un Voco adlı teknolojisini tanıtana dek. Şimdi gelin, hep birlikte bu teknolojinin tanıtıldığı 2016’da gerçekleşen Adobe Max konferansına gidelim.

Şimdi, sahneyi gözünüzde canlandırmama izin verin. Koca bir salon, arkada dev projeksiyon perdelerinin olduğu bir sahne burası. Sahnede ise üç kişi var: Bize bu yeni teknolojiyi tanıtacak olan, Adobe’nin ses konusundaki ARGE araştırmalarının başındaki Zeyu Jin ve iki sunucu. Sunuculardan biri yine bir Adobe çalışanı olan Kim Chambers. Diğeri ise komedyen Jordan Peele. Evet evet, az evvel Obama’nın deepfake videosunda, Obama’nın sesini taklit eden kişinin ta kendisi.

Derken, Zeyu Jin, bilgisayarının başına geçiyor. Ve Jordan Peele’in gerçekleştirdiği röportajdan bir ses kaydını insanlara dinletiyor. Bahsettiğim kayıt şu:

“Yatağımdan dışarıya zıplayıverdim ve sırasıyle önce köpeklerimi sonra da eşimi öptüm” Kaydın çevirisi tam olarak böyle.

Daha sonra, Zeyu Jin çok ilginç bir şey yapıyor. Elindeki algoritma, önce bu konuşmayı, yazılı bir metne çeviriyor. Bunu basit bir text-to-speech teknolojisi gibi düşünün. Zeyu Jin daha sonra, birkaç basit kopyala yapıştır hareketiyle sadece metin üzerinde değişiklik yaparak, bu konuşmayı şuna çeviriyor:

Hatırlayın, ses kaydında önce köpeklerini, daha sonra eşini öptüğünü söylüyordu. Basit bir metin düzenlemesi sonrasında ise, Zeyu Jin bunun tam tersini elde etti.

Şimdi, bunda ne var ki? Ses kaydındaki şeylerin yerini değiştirmek, zaten çok zor bir şey değil diyebilirsiniz. Ama bir yargıya varmadan evvel, biraz bekleyin derim. Zeyu Jin, daha sonra, önündeki metne, ses kaydında hiç olmayan bazı şeyler ekliyor. “Karımı ve köpeklerimi” kelimelerini siliyor, ve bunun yerine “Jordan’ı üç kez” kelimelerini yazıyor.

Düşünün Adobe, bu teknolojiyi 2016 yılında tanıttı. Daha sonra ise Adobe cephesinden Voco’ya dair hiçbir yeni haber veya tanıtım gerçekleşmedi. Adobe, şirket politikalarının, bu aracın yanlış amaçlarla kullanılmasını engellemek için, algoritmayı ve programı kamuyla paylaşmamak olduğunu açıkladı.

Düşünün, bu teknolojiyle, birinin söylemediği bir şeyi, ona söyletebilirsiniz. Bunu yapmak, bilgisayar klavyenizi kullanarak birkaç satır yazı yazmak kadar basit.

Adobe bu algoritmayı, şirket dışında hiçbir kaynakla paylaşmadı belki, ama Voco’nun tanıtıldığı etkinlikten bu yana 6 yıl geçti. Bugün sadece 5 saniyelik bir ses kaydını kullanarak, açık kaynaklı yazılımlarla kusurlu da olsa benzer sonuçlar elde etmek mümkün.

Peki ama bir yapay zeka nasıl oluyor da sesimizi veya yüzümüzü taklit edebiliyorlar diye mi soruyorsunuz? Cevaplayayım.

Aslında çok da şaşırtıcı bir yöntem değil. Deepfake, gücünü deep learningten, yani derin öğrenmeden alıyor. Siz ona, taklit etmesini istediğiniz ses kayıtlarını paylaşıyorsunuz. Yapay zeka da yeni doğmuş bir çocuğun duyduğu sesleri anlaşılması güç bir şekilde, bir nevi ‘bebekçe’ taklit etmesi gibi, ilk aşamada sesleri taklit etmeye çalışıyor.

Yine bebeklerde olduğu gibi o garip sesler biraz zaman geçince anlaşılır bir forma bürünüyor. Yeni doğmuş çocuğunuzun “anne”, “baba” demesi gibi yapay zeka da sizin sesinizi datasına katıyor. Elbette başarılı bir deepfake elde etmek için sesinizin bu veritabanına eklenmesi yeterli değil. Sizin konuşmalarınız, açıklamalarınız ve çok daha fazlasının bu veritabanına eklenmesi gerekli. Gerçeğe yakın bir ses taklidi elde etmek ancak bunların sağlanmasıyla mümkün.

Daha sonra ise bu anlaşılamayan ses dalgasını, yapay zekanın haznesine eklenen bir yazı ve metinle birleştirdiğimizde ortaya robotik olsa da ne dediği anlaşılan bir ses çıkıyor.

Ve bu sesi bebekler üzerinden düşünecek olursak ilk basit, anlaşılır cümleler olarak görebiliriz.

Üçüncü aşamadaysa iki farklı süreç eş zamanlı olarak ilerlemek zorunda. İki süreçten ilki “generic voice” olarak adlandırılan, sesinizin robotik kısımlarının temizlendiği ve aslında anlaşılır bir hale gelmesinin sağlandığı bir aşama. Ancak yine de bu aşama deepfake kullanımı için yeterli berraklığı sunamadığı için ikinci bir sürece ihtiyaç duyuluyor. Bu süreç ise, sizin sesinizden toplanan verilerin sıkıştırılma işlemi. Sıkıştırma işlemi, yapay zekanın çoklu bilgiyi damıtması, bunlar arasında korelasyon kurması ve bunu hızlı bir şekilde gerçekleştirmesi için şart. Sıkıştırılan veriler yapay zekanın ‘düşünme’ sürecini mümkün kılıyor. Duyulan sesteki metalik ve mekanik frekansı yok etmek için de “neural vocoder” kullanılıyor. Şimdi size temiz ve çok dikkatli dinlediğinizde bile ayırt etmekte zorlanacağınız bir örnek sunmak istiyorum.

Şimdi bir düşünün. Tüm bunları size anlatmadan bu kaydı dinletseydim, böylesi gerçekçi bir sesin, bir bilgisayar tarafından üretildiğini ayırt edebilir miydiniz? İşte, bölümün başında hikayesini paylaştığım, telefonda yüzbinlerce Euro’luk bir dolandırıcılığın kurbanı olan Kevin da farkedememişti.

Deepfake teknolojisi, son yıllarda giderek kusursuza yakın bir hale gelmeye başladı. Ve Komedyen Jordan Peele’in, Obama’yı taklit ettiği kayıtta amacı da, bu teknolojinin yanlış ellerde ne gibi sorunlara yol açabileceğini göstermekti. Deepfake kayıtlar, dezenformasyon amacıyla kullanıldığında, pek de dost canlısı sonuçlar doğurmayabilirler.

Bunun en önemli nedenlerinden biri, biz kullanıcıların, internetle olan ilişkisinin zaman içinde değişmiş olması. Web ortaya ilk çıktığında, ortada çok büyük bir problem yoktu aslında. O zamanları hatırlar mısınız bilmiyorum ama, sıradan internet kullanıcıları olarak, yalnızca tüketici konumundaydık.

Ama Web 2.0 sonrası internetle kullanıcılarının ilişkisi, yaklaşım biçimleri değişti. Değişimin temelindeki nokta Web 1.0’a göre karşılaştıkları içeriğe reaksiyon gösterip kendi üretimlerine geçebilmekti. Artık gördüğümüz bir bilgiyi yalnızca okumakla kalmıyor, onu beğenebiliyor, paylaşabiliyor, retweet edebiliyor, üstüne üstlük kendi düşüncelerimizi de paylaşabiliyoruz. Dolayısıyla kullanıcılar için yeni katmanlar açıldı, açıldıkça da derinleşti. Derinleşen içeriklerin sundukları birçok tartışmayı da beraberinde getirdi. Çünkü üretenler, aynı zamanda tüketendi.

Hala içinde bulunduğumuz böylesi bir ortamda, gerçek olsun veya olmasın, sansasyonel olan bilgilerin çok daha fazla etkileşim aldığı, araştırmalarla sabit. Ve deepfake ile üretilen içeriklerin de, böyle sansasyonel, şok edici tarafları var. Hiç beklemediğiniz ünlü birinin ağzından, hiç beklemediğiniz sözleri duymak, sanırım yeterince sansasyonel.

Ama işin bunun da ötesinde, daha tehlikeli bir tarafı var. Deepfake içeriklerin, gerçeğe çok yakın bir şekilde üretilebiliyor olması ve sosyal medyada dolaşıma girebiliyor olması, beraberinde “makul reddedilebilirlik” sorununu doğuruyor. Bunun ne anlama geldiğini bilgisayar mühendisi Supasorn Suwajanakorn, bunu durumu şöyle açıklıyor:

“Gerçekten korkunç şeyler söylemiş veya yapmış insanlar, ses kayıtları veya videoları ortaya saçıldığında, artık bunları kolayca inkar edebilirler. Çünkü her zaman sahte olduğunu iddia edebilirler. Belki de toplu olarak en büyük risk, ortak hakikat algımızı hedef alıyor. Video ve ses, bir olayın gerçekliğini kanıtlamak için neredeyse bir asırdır altın standartımız oldu. Sadece bir kaydın varlığının bile bir olayın gerçekleştiğinin kanıtı olarak kabul edilebileceğine dair güvenceyi kaybetmenin eşiğindeyiz.”

Suwajanakorn’a göre, deepfake’in varlığı, gerçekle ayırt edilemez noktaya geldiğinde, ortak hakikat algımız büyük bir tehdit altına girecek. Antropologlar, içinde bulunduğumuz çağı zaten post-truth, yani hakitat-sonrası çağ olarak adlandırıyorlar. Bu, bilginin doğruluğunu kaybettiğimiz, hakikat zemininin ayaklarımızın altından kaydığı anlamına geliyor. Böyle bir çağda, deepfake’in yaratabileceği sorunları, bir kez daha gözden geçirmemiz gerek.

Bu olumsuz etkileri ortadan kaldırmak için, çeşitli çözüm önerileri yok değil. Bunların bir kısmı, deepfake üretimi için kullanılan teknolojinin yanında, onu tespit edebilen yapay zeka teknolojisinin de geliştirilmeye devam etmesi.

Pinscreen isimli teknoloji şirketinin kurucusu ve deepfake geliştirme çalışmalarında dünyanın en tanınan isimlerinden biri olan Dr. Hao Li, “Zor görünse de deepfake’i zararlı amaçlar doğrultusunda kullananları tespit etmek için de teknolojiyi geliştirmeye çalışıyoruz. Bunun bir noktada onların işine yaradığı da doğru. Ancak, nasıl üretildiğinin prensiplerini anlamıyorsanız; gerçekçi görüntüler üretme yeteneğiniz yoksa bunları etkili bir şekilde tespit etmenin yolu da yoktur.” diyor. Ama buradaki oksimoronu farketmek çok zor değil. Uzmanlar bunu bir kedi-fare kovalamacasına benzetiyor, ve eninde sonunda gerçeğinden ayırt edilemez sahte görüntüler ve seslerin ortaya çıkacağını öne sürüyor.

Bir diğer çözüm önerisi ise, video veya ses kaydı yapan cihazların, değiştirilemez bir elektronik imza ile imzalanması. Kayıt cihazlarına, kaydın gerçekliğini kanıtlayacak, taklit edilemez bir elektronik imza teknolojisi eklemek zorunlu hale gelebilir. Uzmanlar, blokzincir konusunda geldiğimiz noktanın, böyle bir teknolojiyi üretmemiz için yeterli noktada olduğu konusunda hemfikir.

Birçok farklı disiplinde, hakikat algımızın köreldiği, dünyanın giderek tahammülsüzleşip gerginleştiği bir çağda deepfake’in varlığının, nasıl geri dönülemez sonuçlar doğurabileceğini tahmin edebiliyoruz.

Pierre Bourdieu’nün “Televizyon Üzerine” kitabında yer alan “Söylenecek olan şeyi bilmek için, başkalarının ne söylediğini bilmek gerekir” cümlesinin dahi yeterli kalmadığı bir çağda, söylemeler yeniden üretilirken neye, ne kadar güvenebiliriz? Deepfake ile gerçeği birbirinden ayırmak bir nebze mümkün olsa da medya gücünün varlığı geniş kitleleri galeyana getiremez mi? Jordan Peel’ın, Obama’yı taklit ettiği ses kaydının bir kısmını dinlemiştik beraber. O konuşmadan bir kısmı tekrar hatırlatmak istiyorum. Cevabını sanırım biliyoruz.

“Benim ağzımdan, en azından halkın öğrenebileceği yerlerde söylemeyeceğim şeyleri söyletebilirler. Tehlikeli bir zamandayız. İnternette gördüğümüz, inandığımız şeylere karşı daha uyanık olmalıyız. Güvenilir haber kaynaklarına kulak vermemiz gereken bir çağdayız. Kulağa basit gelebilir ama ancak bu şekilde ilerleyebiliriz. Bilgi çağı, hayatta kalmak ya da rezil bir distopyaya hapsolmak arasındaki farkın anahtarı olacak.”

Gitmeyin, gitmeyin. Durun bir saniye. Beni Barış sandınız ama Barış olmadığımı artık sizinle paylaşma vaktim geldi. Ben, o değilim. Ya da belki de oyum. Kim bilebilir?

Künye

YazanAnt Arın Şermet, Berkant Gültekin
Ses Tasarım ve KurguMetin Bozkurt
Müzik SeçimleriUmut Barış Genç

Kaynaklar (17)

İlgili içerik

Bu tasarımları insan mı yaptı yoksa yapay zeka mı?Netflix ve Warner Bros. Birleşirse Ne Olur?İçimizdeki Canavar ve Mesih Kompleksi: Frankenstein Ne dersen çizebilen DALL-E'nin yenisi çok daha şaşırtıcı Açık Kaynak: Birlikten Doğan Güç Yapay Zeka PROMETHEUS dünyayı nasıl ele geçirdi? (Modern bir Masal)