Sesin Arkasındaki Yüz | Zafer Acar

Yapay zekanın en önemli parçalarından birisi yapay sinir ağlarıdır. Yapay sinir ağlarıyla geliştirilen algoritmalara derin öğrenme (Deep Learning) diyoruz. Yapay sinir ağları insanların beyinlerindeki sinir ağları model alınarak geliştirildi.

Geçtiğimiz hafta yayınlanan bir akademik makaleye göre Youtube’den alınan videolardan elde edilen ses ve resimler bir yapay sinir ağı algoritmasında eğitildi ve ilginç sonuçlara ulaşıldı. Bu verilere göre yapay zeka insanları sesinden tanıyor ve sadece sesini dinlediği kişinin yüz resmini dijital olarak oluşturabiliyor. Bilim insanlarına göre insanın fiziksel görüntüsü ile sesi arasında kuvvetli bir korelasyon var.

Ses ağzımızdan çıktığında dudağımızın şekli, boğazımız, dilimiz, dişlerimiz ve burnumuz, yüzümüzün kemik yapısı, dudaklarımızın kalın veya ince olup olmadığı ses tonuna etki eder. Bu sesi algılayan kulağımız ise en gelişmiş uydu anteni gibi çalışır. Kulağımız ses dalgalarını toplayıp kulak zarına gönderir. Ses kulak zarından öteye gitmez fakat ses dalgaları kulak zarını sesle aynı frekansta titretir ve orta kulaktaki “malleus, incus ve stapes” denilen kemiği titretir. Stapes kemiği ise iç kulakta “cochlear” denilen içi sıvı dolu bir kanalı titretir. Kanalın içinde tüyler ve altında sinirler var ve tüylerin titreşimi sinirlerde ses dosyası olarak ulaşır ve beynimize gider. Beynimizin “Vestibulocochlear” denilen kısmı sesi algılayıp anlamamızı sağlar. İç kulak içinde yarı dairesel kanallar vardır ve o kanalın içindeki sıvı dengede durmamızı sağlar. Sarhoş olanlarda alkol doğrudan bu kanala gittiği için sıvının yoğunluğunu azaltır ve tüyler kendiliğinden hareket etmeye başlar ve insanlar dengesiz olduklarını düşünüp düzeltmek için uğraştıkça dengesizleşirler. Mevlevi dervişler gibi dönersek durduktan sonra da hala başımız dönüyor gibi hissederiz. Sebebi ise bu yarım daire kanallardaki sıvılar biz durduğumuz halde hala hareket halinde olmalarıdır. Kendi sesimiz kendi kulağımıza çok farklı gelir ve yapılan araştırmalara göre insanların çoğu kendi sesini dinlediğinde beğenmiyor. İşte bu ilginç kulak yapımız da ses tonumuza etki eden bir organımız. Eğer ses tonumuza etki eden bu organlarımız boynumuzun üst tarafında bulunuyorsa ve ben bu etkinin yada korelasyonun matematiksel bir sayı değerini bulabilirsem, ses ile yüzümüzün kemik yapısı arasındaki bağıntıdan sesini duyduğum kişinin yüz şeklini tahmin edebilirim.

Kaynak : https://thehumanuseofthehumanface.tumblr.com/

İşte yapay zekanın derin öğrenme algoritması bu ses dosyaları ile yüz şekilleri arasındaki bağlantıyı çözdü ve ses dosyalarından insanların yüz resimlerini oluşturmayı başardı. Derin Öğrenme yapay zekanın en başarılı alanlarından birisi ve çoğu kez hiç başarılamaz zannedilen ve bazende hiç akla gelmeyen çözümler derin öğrenme ile mümkün olabiliyor. Derin öğrenme algoritmaları daha iyi ve daha kolay kullanmayı sağlıyor ve yapay zekada çığır açacak ve geleceği şekillendirecek teknolojilerin oluşmasında büyük rol oynuyor.

Hiç tanımadığımız bir insanla telefon görüşmesi yaptığımızı düşünelim ve kendisini sesinden tanımaya çalışalım. Sesinden başta cinsiyetini hemen öğrenebiliriz. Sonra ses tonundan stresli mi yoksa mutlu mu veya nötr mü olduğu hakkında bilgi sahibi olabiliriz. Konuşan kişinin yine yaşı hakkında bir fikre sahip olabiliriz. Ses tonundan çocuk mu yoksa yetişkin birisi mi olduğunu anlayabiliriz. Aynı şekilde kurduğu cümlelerden çocuk olup olmadığına karar verebiliriz. Ancak bazen küçük çocuklar büyük cümleler kurabilir ve yanılabiliriz. Aksanlı konuşmasından yerli mi yabancı mı olduğunu, etnik kökenini ve hatta şivesinden hangi şehirden olduğunu da tahmin edebiliriz. Bazı tanıdığım insanlar var; konuştukları kişinin ses tonundan mutlu bir evliliğinin olup olmadığını tahmin edebiliyor. Biz insan olarak bütün bu anlattıklarımızı sadece dinlediğimiz sesten çıkartabiliyor isek, insan beyni esas alınarak tasarlanan yapay zeka algoritması derin öğrenmenin bunu yapması ve sesini duyduğu insanın resmini dijital olarak oluşturması gayet doğal.

Yapay zeka geçmiş verileri analiz ederek bu veriden değerler ve formüller çıkarak geleceğe yönelik tahminlerde bulunur. Bu durumda ise bilim insanları Youtube videolarından ve internette paylaşılan videolardan yüz binlerce resim topladılar ve konuşmalarını kaydettiler. Sonra resimleri bir filtreden geçirerek yapay zeka algoritmalarına göndermek için hazırladılar. Nihayetinde sesler ve seslerin sahibi sadece yüzleri görünen fotoğraflar algoritmalarla eğitildi ve bu sayede makine sesler ve yüzler arasındaki bağıntıyı buldu ve bu bağlantıların formüllerini çıkardı. En sonunda algoritmalara yüzleri olmayan ses dosyaları verildi ve algoritma geçmiş yüz bin yüz ve sesten elde ettiği öğrenme modelini kullanarak sesini duyduğu kişinin fotoğrafını tahmin etti ve bu fotoğrafları dijital olarak oluşturdu. Bu sayede makineler insanları sesinden tanımaya başlamış oldu ve sesin arkasındaki yüzü bulabildi.

İnsanların hiç görmedikleri bir kişi ile yaptıkları konuşmadan sadece sesinden ve ses tonundan kim oldukları hakkında fikir sahibi olmaları bu algoritma ile ete kemiğe büründü ve dijital bir resim olarak karşımıza çıktı. Kısa bir konuşma segmentinin karmaşık spektrogramını girdi olarak alan bir sinir ağı modeli yüzü temsil eden bir özellik vektörünü tahmin ediyor ve insan yüzünün tam belirlenmiş 4096 özelliği var. Başka bir ifadeyle yüz tanıma veri tablosunun 4096 tane sütunu var.

Bu algoritmanın şüphesiz eksikleri de var. Algoritma üzerinde yapılan testlerde bir çok kişinin sesinden cinsiyetini, deri rengini, etnik kökenini, yüz şeklini gayet net bir şekilde tahmin edebilirken, aynı insanların bazen ses tonuna göre vardıkları kararın yanlış olması gibi, çok cüzi bir oranda başarısız da oldu. Uzmanlar bu algoritmanın gelecekte büyük gelecek vaad ettiğini düşünüyor.

Zafer Acar

Kaynak : https://www.karar.com/yazarlar/zafer-acar/sesin-arkasindaki-yuz-12355

Bunları da sevebilirsiniz

Bir cevap yazın

E-posta hesabınız yayımlanmayacak.

TurkeyEnglish

Contact Us