Zipf Yasası
Konuşurken en sık kullandığınız kelime nedir? Peki ya bu kelimenin sıklığını sizin değil, evrensel bir yasanın belirlediğini söylesem? 111 Hz'in bu bölümünde, yalnızca kelimelerin değil, dünya üzerinde pek çok şeyin dağılımını belirleyen bu gizemli yasayı konuşuyoruz.
Konuşurken en sık kullandığınız kelime hangisi sizce? Peki ya ikincisi? Ya da üçüncüsü? Hiç, günlük hayatımızda en çok kullandığımız kelimelerin, hangileri olduğunu düşündündünüz mü?
Düşünmüş olsanız da sözlü olarak kullandığınız kelimelerin kaydını tutmak ve bir sıralama çıkarmak bir hayli zor olurdu.
Peki ya yazarken kullandığımız kelimelere ne demeli? Onların kaydını tutmak o kadar da imkansız olmasa gerek. Hatta dijital çağ sağolsun, artık bu kayıtlardan bir istatistik çıkarmak oldukça kolay bir şey.
Bunlardan birini sizinle paylaşayım: Dil üzerine araştırmalar için kurulmuş Sketch Engine adlı veritabanı, Türkçe üzerine bir çalışma gerçekleştirmiş. Bu çalışmaya göre 2011 Aralık ile 2012 Ocak arasında internette en çok kullanılan Türkçe kelime "ve" olmuş.
Daha çok akademik yayınların bulunduğu ODTÜ veritabanında birinci sırayı alan kelime ise "bir". Merak edenler için ikinci sırada "ve", üçüncü sırada ise "bu" yer alıyor. Tüm bu kelimeler: ya "bir", "bu" gibi her yere uygun sıfatlar, ya da "ve" gibi gayet sık kullandığımız bağlaçlar. Yani düşününce, pek de şaşırtıcı değil aslında.
Ama işin ilginçleştiği nokta zaten bu kelimeler değil; bu kelimelerin kullanım sıklığıyla, birbirlerine göre kullanım oranları.
Yeteri kadar büyük bir veritabanına baktığımızda şunu görüyoruz: İkinci sırada yer alan kelime, ilk sıradakinin yaklaşık olarak yarısı kadar kullanılıyor. Üçüncü sıradaki kelime ilk sıradakinin üçte biri. Dördüncü sıradaki dörtte biri. Ve bu durum böyle, gayet rasyonel-matematiksel bir oranla devam ediyor.
Üstelik bu oran, yalnızca Türkçe'de değil, bütün dillerde, hatta henüz tam anlamıya deşifre edemediğimiz antik dillerde bile var. Adeta matematiksel bir yasa gibi bir oran. Bir kural gibi. Üstelik bu garip kuralın bir adı da var: Zipf Yasası.
Zipf Yasası'nın iddiası oldukça basit: Bir kelimenin kullanım sıklığı, kullanım popülerliği ile ters orantılıdır. Tamam, bu biraz soyut oldu; şöyle açıklayayım: Bir dilde en sık kullanılan kelime 100.000 kez kullanılmış diyelim. Yani insanlar yazdıkları metinlerde, insanlarla sohbetlerinde bu kelimeyi, 100.000 kez kullanmış olsunlar. Zipf yasası bize diyor ki: Eğer en sık kullanılan kelime 100.000 kez kullanılmışsa, en sık kullanılan 100. kelime birinci kelimenin yaklaşık 100'de 1'i kadar, yani 1.000 kez kullanılır. İşte bu yüzden bu yasanın diğer bir adı da Sıra-Sıklık Kuralı, ve bu hesap ilginç bir şekilde çoğu zaman tutuyor.
Hayatın kişiden kişiye değişen gerçekliğini tasvir etmek, anbean değişen duygularımızı anlatmak, iş yapmak, sosyalleşmek, tartışmak, kavga etmek için, çoğunlukla spontane bir şekilde kullandığımız dilin, bu kadar basit, adeta bir matematik formülü gibi çalışıyor olması sizce de son derece garip değil mi?
Şimdi, bu kuralı ilk farkeden kişi olan George Kingsley Zipf'in ne denli şaşırmış olabileceğini varın siz düşünün.
George, 1930'larda Harvard'da dilbilimi üzerine çalışmalar yapan bir profesörken, dönemin popüler romanı, İrlandalı yazar James Joyce'un Ulysses adlı kitabını incelemeye karar verdi. Fakat yapmayı istediği şey, öyle bir edebiyat eleştirmenin yapacağı türden bir inceleme değildi. George, Joyce'un bu kitapta kullandığı kelime dağarcığını inceleyerek, kitabın başarısını kendi branşının perspektifinden anlamlandırmak istedi. Bunun üzerine kitapta geçen kelimeleri ve her birinin kaç kez kullanıldığını ortaya çıkardı.
Çok geçmeden George garip bir motif ile karşı karşıya geldiğini fark etti.
Kitapta en sık kullanılan sözcük 8.000 defa kullanılmıştı; - Sıklık sıralamasında 10. olan sözcükse 800 defa... - 100. olan sözcük 80 defa; - 1000. olan sözcük ise 8 defa kullanılmıştı.
Kitabın yazarı James Joyce, bunu bilinçli bir şekilde mi yapmıştı? Öyleyse kafayı yemiş olmalı, kim sırf bir oranı tutturmak için, böylesine bir deli işiyle uğraşır ki?
George bu şaşırtıcı durumun, tüm sıradışılığına rağmen, bir tesadüf olabileceğini düşündü. Bunun üzerine farklı kitapları da incelemeye başladı. Ancak sonuçlar her seferinde birbirine oldukça yakın çıkıyordu. George, büyük bir keşfin ucundan yakaladığını fark etti ve daha farklı kaynakları, hatta farklı dillerdeki kaynakları da aynı incelemeye tabi tuttu. Onlarda da sonuç benzerdi. İşte bütün bu çalışmaların sonunda, bugün kendi adıyla andığımız Zipf Yasası'nı ortaya attı.
Peki böylesi bir kuralın neredeyse istisnasız bir şekilde çalışmasının ardındaki sır ne?
George Zipf, bu kendi adını verdiği yasanın gizemini çözmeye çalışırken, yolu başka bir bilim insanının çalışmaları ile kesişti. Bu kişinin dil ile herhangi bir alakası yoktu, çalışmaları da dil üzerine değildi; ama George'un aradığı cevabı vermeye en yakın kişiydi.
Bahsettiğim bu kişi İtalyan mühendis, matematikçi ve sosyolog Vilfredo Pareto. Onun da tıpkı George Zipf gibi kendi adıyla anılan bir yasası var: Pareto Yasası ya da Pareto İlkesi. Hatta daha popüler tanımı ile 80'e 20 kuralı. Hatırlayanlar olmuştur, benim de ilk Youtube videolarımın birinin başlığı buydu.
Vilfredo da aynı George gibi araştırmaları sırasında enterasan bir durum keşfediyor. İtalya'da dönemin tapu kayıtlarını incelediğinde görüyor ki, toprakların %80'i, nüfusun yalnızca %20'sine ait. Daha sonra bu kuralın başka yerlerde de geçerli olup olamayacağını merak ediyor ve araştırdıkça fark ediyor ki 80/20 kuralı her yerde. Gelir dağılımı, vergi dağılımı, toprak dağılımı, nüfus dağılımı hepsinde aynı motif kendini gösteriyor. Hatta ve hatta Vilfredo'nun bahçesindeki toplam ayıklanmış bezelyelerin %80'i, kabuklu bezelyelerin yalnızca %20'sinden geliyor. Düşünün, orada bile bu kural karşısına çıkıyor.
İşte Pareto bu gözlemlerinin sonucunda fark ediyor ki, azınlık bir grup her ne hikmetse çoğunluğa sahip oluyor. Hatta bu gruba bir isim bile buluyor: "Elitler". Evet kendisi bu kavramı ilk kez ortaya atan kişi. Peki bu elitler bir grup şanslı insan mı? Yoksa birileri tarafından kayrılmışlar mı? Ne olursa olsun, ortadaki asıl soru şu: Nasıl oluyor da her defasında 80/20 gibi neredeyse standart bir dağılım ortaya çıkabiliyor? Burası adeta bir sır gibi.
Pareto ilkesi bize şunu söylüyor: Eylemlerin %20'si sonuçların %80'ini doğurur.
İster toprakların nüfusa göre dağılımı olsun, ister ayıklanmış bezelyelerin kabuklulara oranı, ortaya çıkan sonuçta bize anormal gelen bir şeyler var.
Örneğin bugün dünya nüfusunun %20'sinin, toplam zenginliğin %82'sine sahip olduğunu söylesem, bu durumun sizde de uyandıracağı duygu, büyük ihtimalle "adaletsizlik" olacaktır. Çünkü beklentimiz bu dağılımların herkesin arasında daha adil, daha dengeli olması.
Fakat bizim bu beklentimiz gördüğünüz üzere gerçeği yansıtmıyor. İşte Harvard'da harıl harıl çalışıp kafasındaki sorulara cevap arayan George'un beklentisi de aynıydı. Kelimelerin kullanımına göre daha eşit dağılımasını bekliyordu. Oysa tıpkı Pareto'nun örneğinde olduğu gibi bir grup elit kelime kullanılan dilin büyük bir kısmını domine ediyordu.
Örneğin İngilizcedeki bu elit kelimelerin başında "the" kelimesi geliyor. Ve "the" kelimesi toplam yazılı dilin %6'sına karşılık geliyor, yani başka bir deyişle yazılmış her on altı kelimeden birisi "the". Bakın şu anda size İngilizce'nin %6'sını öğretmiş oldum. Sadece "the" kelimesini söyleyerek. Şaka bir yana istatistiksel olarak bir dilin en önemli kelimelerini bu şekilde öğrenebilirsiniz. Çünkü İngilizce'de en elit diyebileceğimiz 25 kelime toplam kullanımın yaklaşık üçte birine denk düşüyor. En elit 100 kelime ise — neredeyse yarısına.
Oxford Sözlüğü'ne göre İngilizce'de şu an aktif 171 bin kelime var ve bunlardan yalnızca 100 tanesi bir çok yazılı eserin neredeyse yarısını oluşturuyor.
Sizce de bu durum geriye kalan 170.990 kelime için son derece adaletsiz bir durum değil mi? Mesela bir "arcane" kelimesini neden daha çok kullanmazlar. Sokaktan bir İngilizi ya da Amerikalı'yı çevirip sorsanız "arcane" ne demek diye, bilmez? Bu da size öğrettiğim en az kullanılan kelimelerden biri olsun. "Arcane" kelimesinin anlamı esrarengiz demek. Tıpkı bu durum gibi.
Duygusal açıdan bir türlü kabullenemediğimiz, esrarengiz bulduğumuz bu durumun rasyonel açıdan düşünürsek makul bir açıklaması olmalı.
Hadi gelin, bunu bir örnekle anlamaya çalışalım. Bu örnek için de şöyle güzel bir yerlere gidelim.
Ormanın içerisinde, yeşilin ortasında, göl kenarı bir ev mesela. Gölün içinde yaşayan balıklar da olsun, ama hepsi aynı türde ve aynı boyutta balıklar. Şimdi... her sabah uyandığınızda balıklara adil bir şekilde yem verdiğinizi hayal edin. Ama öyle kimseyi kayırmadan! Gayet adil bir şekilde hepsine eşit uzaklıkta bir noktaya elinizdeki somun ekmekten parçalar koparıp atıyorsunuz. Ve de bunu her gün tekrar ediyorsunuz.
Eğer dediğimi yaparsanız aradan vakit geçtikçe bazı balıkların diğerlerine oranla daha büyük kaldığını göreceksiniz. Ve zaman geçtikçe aradaki bu boyut farkları giderek daha belirgin bir hale gelecek.
Nasıl mı? İlk yem attığınız günler bir grup şanslı balık diğerlerinden daha fazla yiyerek daha fazla büyüyecekler. Ancak bu noktadan itibaren artık onlar sadece şanslı olmayacak, aynı zamanda avantajlı olacaklar. Diğerlerinden daha büyük, daha hızlı, daha sağlıklı olmanın etkisiyle artık daha da fazla yemeye ve daha da fazla büyümeye başlayacaklar. İşte bu kendi kendini besleyen döngülerin sonucunda siz ormandaki tatilinizin sonuna geldiğinizde bir de bakacaksınız ki, bir grup elit balık kocaman olmuşken, diğerleri neredeyse hiç büyüyemiş bile.
İşte böylece bir de bakmışsınız dünyanın zenginliği ya da bir ülkenin toprakları ya da bir göle attığınız ekmeklerin %80'i, yalnızca %20'inin elinde toplanmış.
İyi de konumuz dil değil miydi? "Ne alaka şimdi zenginlikler, balıklar falan?" diyebilirsiniz.
Ancak George Zipf'e ilham veren şey Pareto'nun tam da bu özelliğiydi. Olayların kendiliğinden hep benzer şekilde gelişmesi. Ya da daha teknik bir deyişle: "Principle of Least Effort", "En Az Efor Prensibi". Yani. Hayatın ve olayların en az dirençle karşılaşacağı yolları takip etmesi.
Zipf'e göre insan davranışının önemli kısmını bu ilke şekillendiriyordu. Bu yüzden bir kelime bir kez kullanıldığında, tekrar kullanılma ihtimali de artıyordu. Çünkü insanlar kendilerini anlatırken yeni bir kelime yerine bildikleri kelimeleri kullanmaya, en az eforla iletişim kurmaya meyilliydiler.
Yani cevap insanın doğasında gizliydi. Çok "arcane" varlıklarız. Yeni öğrendiğimiz kelimeleri cümle içinde kullanmak lazım değil mi? Bir yandan da "arcane" dedikçe kelimenin toplam kullanılma istatistiklerini bozmuş oluyorum ya neyse... Zaten sadece dil konusunda değil; insanın ve doğanın olduğu her yerde Zipf Yasası'nın etkilerini görebiliyoruz.
Örneğin bir ülkenin kalabalık şehirlerini sıraya dizdiğimizde çoğu kez aynı yasa karşımıza çıkıyor. Ya da en popüler satranç açılış hamlelerinde, aldıkları trafiklere göre websitelerinde, şiddet ölçeğine göre depremlerde, bir makaleye atıfta bulunma sayısında, yemek tariflerinde kullanılan malzemelerde — hatta İkarus Aldatmacası bölümünü dinleyenler hatırlayacaktır; en sevilen dondurma çeşitlerinde bile Zipf Yasası karşımıza çıkabiliyor.
Sizi bilmem ama, bana sorarsanız bu manzaranın biraz iç karatırıcı bir yanı var. Çünkü insan olmanın tüm o büyüsüne rağmen, hayatlarımızın bilinmezliğine, öngörülmezliğine, sıra dışılığına, kaderlerimizi kendi ellerimizle özgürce şekillendirmemize rağmen - davranışlarımız matematiksel bir formülü kaçınılmaz bir şekilde takip ediyor. Üstelik dil gibi, belki de insanoğlunun ortaya koyduğu en yaratıcı ürün bile bundan muaf değil.
Ancak diğer bir yandan, bu durumun farkına varan, üzerine düşünen, analiz eden ve teoriler üreten; en sonunda da bu bilgileri kullanarak durumu kendi lehine çevirme gücüne erişen de yine biziz. İşte okumak, öğrenmek, kendini geliştirmek, zihnini yepyeni fikirlere açmak bu yüzden çok önemli. Çünkü bizim bu hayatta yüzde 80'lik dilimde mi, yoksa 20'lik dilimde mi olacağımızı belirleyen en önemli şey, ne kadar bildiğimiz. Hem kendimizi, hem dünyayı...
Künye
- YazanZuhat Taşer
- Ses Tasarım ve KurguMetin Bozkurt
- Müzik SeçimleriUmut Barış Genç
Kaynaklar (10)
- youtube.com
- youtube.com
- Zipf yasası - Vikipedi
- George Kingsley Zipf
- James Joyce
- Ulysses
- Zipf Yasası: Şehir Büyüklüğü ve Kelime Kullanım Sıklığını Öngören Gizemli Yasa! - Evrim Ağacı
- Birleşik Devletler’deki nüfusa göre en üst sıralarda yer alan şehirlere
- Yaşamın İçinde Gizemli Bir Yasa: Zipf Yasası
- youtube.com